熟练掌握Python全栈数据采集与自动化技术体系,精通requests、BeautifulSoup、Scrapy等爬虫框架,能够独立完成从需求分析到数据交付的全流程开发。熟练运用Selenium、Playwright实现浏览器自动化操作,可应对动态渲染页面、验证码识别、Cookie 维持等复杂场景。具备IP 代理池构建能力,能通过 Python 实现代理的动态获取、有效性验证与自动切换,有效突破网站反爬限制。精通数据清洗与格式转换,可利用pandas、openpyxl实现 Excel 数据自动化处理,包括数据筛选、统计分析、报表生成等功能。此外,熟悉高德 / 百度地图 API 接口调用,能够完成地址与经纬度的批量匹配、解析与结构化存储,具备扎实的数据分析与处理能力,可高效解决各类数据采集与自动化需求。
1,招聘网站数据采集项目:针对招聘平台岗位信息分散、人工整理效率低的痛点,使用 Python+Scrapy 框架开发爬虫系统,结合自建 IP 代理池突破反爬机制,实现多城市、多岗位的信息自动抓取,涵盖岗位名称、薪资范围、任职要求等核心字段。通过pandas清洗去重后,将数据导入 Excel 生成结构化报表,帮助用户快速筛选目标岗位,项目交付后数据准确率达 95% 以上。
2,本地点评平台商户信息采集项目:为满足本地商户调研需求,开发基于 Selenium 的自动化爬虫,模拟用户浏览行为爬取商户名称、评分、地址、用户评价等数据,解决动态加载页面数据无法抓取的问题。同时,对接高德地图 API,完成商户地址与经纬度的批量匹配,最终输出包含地理信息的商户分析报告,助力用户开展市场竞品分析。
3,Excel 数据自动化处理项目:针对日常工作中 Excel 数据统计繁琐、易出错的问题,使用 Python+openpyxl 编写自动化脚本,实现数据批量导入、筛选、计算与报表生成。例如,自动统计招聘岗位薪资中位数、点评商户好评率等指标,将原本 2 天的人工工作量缩短至 30 分钟,大幅提升工作效率,脚本可根据需求灵活调整参数,适配不同类型的数据处理场景