我是一名专注于数据分析与网络爬虫开发的技术顾问,熟练掌握 Python 全栈开发技能,擅长使用 Selenium、Requests、BeautifulSoup 等工具实现网页自动化抓取与结构化数据提取。熟悉数据清洗、存储与可视化流程,具备将非结构化网页数据转化为可分析数据库的能力。曾独立完成 OP.GG 英雄联盟排行榜数据爬取项目,涵盖反检测策略配置、动态页面解析、多页数据合并及 SQLite 持久化存储,完整实现了从数据采集到结构化入库的全流程。同时了解 HTML/CSS 选择器、XPath 定位、JavaScript 渲染机制,能够应对主流网站的反爬策略。
OP.GG 排行榜数据爬取系统(Python + Selenium + SQLite)
该项目旨在获取《英雄联盟》全球服务器玩家排名数据,支持后续进行数据分析与可视化。我使用 Selenium 驱动 Chrome 浏览器模拟人工操作,规避反自动化检测;通过 XPath 和 CSS 选择器精准定位表格内容,提取排名、昵称、段位、LP、胜率、主玩英雄等关键字段,并去除 Emoji 干扰。为提升效率,设计了分页循环机制,自动抓取前2页共约100条记录。所有数据经清洗后,以唯一 URL 为键存入 SQLite 数据库,防止重复插入。项目完整实现了“动态网页 → 结构化数据 → 持久化存储”的全流程,验证了我在复杂网页爬取场景下的工程实践能力。
本项目为 OP.GG 英雄联盟排行榜数据爬取系统,旨在从动态网页中自动获取玩家排名、段位、LP、胜率、主玩英雄等关键信息,并实现结构化存储。 使用 Python + Selenium 实现浏览器自动化,配置反检测参数(如禁用 webdriver 标识、模拟真实用户行为)以绕
本项目为一个基于 Flask 框架开发的个人技术博客系统,采用前后端分离架构,支持用户注册登录、文章发布、编辑与管理功能。 后端使用 Python + Flask 实现核心逻辑,通过 SQLAlchemy 进行数据库操作,数据存储于 SQLite;前端采用 HTML/CSS