猿急送>

北京其它兼职程序员

ID：418821

T W T

无

公司信息：
无

工作经验：
1年

兼职日薪：
500元/8小时

兼职时间：
可工作日驻场（自由职业原因）

所在区域：
北京
海淀

技术能力

本人熟练掌握 Python 爬虫开发，能够独立完成从需求分析、数据采集到清洗存储的全流程工作。在静态页面抓取方面，熟练使用 requests进行高效解析和数据提取；对于动态渲染、Ajax 异步加载的页面，熟练掌握 seleium模拟浏览器操作，并能结合抓包工具（Fiddler/Charles）分析 XHR 请求，直接构造接口调用获取真实数据。

针对各类反爬机制，具备丰富的实战经验：能够配置动态代理 IP 池（如携程代理、阿布云），能处理简单的滑块验证码（对接第三方打码平台或使用 ddddocr 识别坐标），并能模拟正常用户的鼠标轨迹和操作时间间隔。对于需要登录后才能采集的数据。

在分布式爬虫方面，了解 Scrapy + Scrapy-Redis 框架，可实现多节点并发抓取。数据存储上，熟练使用 MySQL/SQLite 等关系型数据库，以及 MongoDB 等 NoSQL 数据库，并可导出为 Excel、CSV、JSON 等格式。。

项目经验

独立开发了一个针对某主流电商平台的商品评论爬虫。该网站采用动态加载且具有简单的反爬机制（如请求频率限制、偶尔出现的滑块验证）。我通过抓包分析定位到评论数据接口，利用 requests 模拟请求并动态添加 cookies 和 headers，结合 time.sleep 随机间隔规避频率检测。同时，引入ddddocr本地识别滑块缺口坐标，配合Selenium模拟人工滑动，成功通过验证。共采集超过10万条评论数据，并利用 pandas 进行清洗、去重，最后存入 MongoDB。在此基础上，调用百度情感分析API对评论文本进行情感倾向判断，将结果以可视化图表（pyecharts）呈现，帮助客户快速了解产品口碑。该项目交付稳定运行3个月，未出现封IP或数据中断。

案例展示

简单图片爬取视频爬取

该工具支持从目标网站（如中国，红旗，等）按关键词、分类或单个图集链接进行批量下载。主要功能包括：输入关键词或专辑ID，自动解析分页参数，抓取所有高清原图；内置延迟、重试和代理切换机制，有效规避简单反爬；自动生成Excel清单，记录图片标题、原图链接、存储路
数据爬取

自动分页抓取，支持增量更新，每日定时检测最新期号；清洗非结构化文本，统一格式存入MySQL数据库；提供前端表格可视化展示（如上图所示），可按期号排序、关键词筛选；导出Excel报表，用于个人数据分析或彩票研究。本作品展示了我从数据抓取、数据清洗到数