本项目为 OP.GG 英雄联盟排行榜数据爬取系统,旨在从动态网页中自动获取玩家排名、段位、LP、胜率、主玩英雄等关键信息,并实现结构化存储。
使用 Python + Selenium 实现浏览器自动化,配置反检测参数(如禁用 webdriver 标识、模拟真实用户行为)以绕过网站反爬机制;通过 XPath 和 CSS 选择器精准定位表格内容,提取多页数据并清洗去除 Emoji 干扰。所有数据经处理后存入 SQLite 数据库,以 URL 作为唯一键避免重复插入。
项目完整实现了“动态页面加载 → 数据解析 → 清洗去重 → 持久化存储”的全流程,具备良好的扩展性与稳定性。可用于后续数据分析、可视化或构建玩家画像系统。
此项目展示了我在网络爬虫、数据清洗、自动化脚本开发方面的综合实践能力,适合承接类似的数据采集与处理任务。