熟练使用 Python 进行网络爬虫与数据采集开发,掌握 Requests、Scrapy、Selenium、Playwright 等主流爬虫框架,能应对静态/动态页面、AJAX 异步加载、反爬验证(UA/代理池/验证码识别)等场景。熟悉 HTML/XML 解析(XPath、BeautifulSoup、lxml)、正则表达式数据清洗,掌握 MySQL、MongoDB、Redis 等数据库的数据存储与读写优化。了解多线程、异步协程(aiohttp)、分布式爬虫架构,能独立完成中小型数据采集项目的需求分析、方案设计、开发部署与维护。具备基础的前端与HTTP协议知识,可快速定位与解决反爬与数据抓取异常问题。
1. 电商平台商品数据采集项目:基于 Scrapy 框架开发分布式爬虫,针对目标平台实现商品信息、价格、库存数据的定时抓取,通过代理池与UA池解决IP封禁问题,将采集数据清洗后存入 MySQL,为竞品分析提供稳定数据源。
2. 公开信息自动化采集项目:使用 Selenium+Playwright 开发动态页面爬虫,模拟用户行为绕过前端渲染与反爬机制,实现目标网站公开数据的自动化抓取、去重与结构化存储,通过定时脚本实现每日增量更新,保证数据时效性。
3. 多平台数据聚合处理项目:整合多个来源的采集数据,使用 Pandas 进行数据清洗、格式转换与多源数据对齐,生成标准化数据报表,支持后续数据分析与可视化,提升数据处理效率与准确性。
该项目为电商平台公开商品数据采集工具,使用RPA开发,基于RPA实现品名、价格、销量的自动化抓取,为竞品分析、价格监控提供稳定、结构化的数据支持,适用于电商运营、市场分析等场景。
该项目为某文化传媒公司开发抖音视频数据采集工具,使用RPA开发,基于RPA实现博主名、发布日期、视频标题的自动化抓取。为文化传媒公司做发布视频时间分析