ID:418821

T W T

  • 公司信息:
  • 工作经验:
  • 1年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 可工作日驻场(自由职业原因)
  • 所在区域:
  • 北京
  • 海淀

技术能力

本人熟练掌握 Python 爬虫开发,能够独立完成从需求分析、数据采集到清洗存储的全流程工作。在静态页面抓取方面,熟练使用 requests进行高效解析和数据提取;对于动态渲染、Ajax 异步加载的页面,熟练掌握 seleium模拟浏览器操作,并能结合抓包工具(Fiddler/Charles)分析 XHR 请求,直接构造接口调用获取真实数据。

针对各类反爬机制,具备丰富的实战经验:能够配置动态代理 IP 池(如携程代理、阿布云),能处理简单的滑块验证码(对接第三方打码平台或使用 ddddocr 识别坐标),并能模拟正常用户的鼠标轨迹和操作时间间隔。对于需要登录后才能采集的数据。

在分布式爬虫方面,了解 Scrapy + Scrapy-Redis 框架,可实现多节点并发抓取。数据存储上,熟练使用 MySQL/SQLite 等关系型数据库,以及 MongoDB 等 NoSQL 数据库,并可导出为 Excel、CSV、JSON 等格式。。

项目经验

独立开发了一个针对某主流电商平台的商品评论爬虫。该网站采用动态加载且具有简单的反爬机制(如请求频率限制、偶尔出现的滑块验证)。我通过抓包分析定位到评论数据接口,利用 requests 模拟请求并动态添加 cookies 和 headers,结合 time.sleep 随机间隔规避频率检测。同时,引入ddddocr本地识别滑块缺口坐标,配合Selenium模拟人工滑动,成功通过验证。共采集超过10万条评论数据,并利用 pandas 进行清洗、去重,最后存入 MongoDB。在此基础上,调用百度情感分析API对评论文本进行情感倾向判断,将结果以可视化图表(pyecharts)呈现,帮助客户快速了解产品口碑。该项目交付稳定运行3个月,未出现封IP或数据中断。

案例展示

  • 简单 图片爬取 视频爬取

    简单 图片爬取 视频爬取

    该工具支持从目标网站(如中国,红旗,等)按关键词、分类或单个图集链接进行批量下载。主要功能包括: 输入关键词或专辑ID,自动解析分页参数,抓取所有高清原图; 内置延迟、重试和代理切换机制,有效规避简单反爬; 自动生成Excel清单,记录图片标题、原图链接、存储路

  • 数据爬取

    数据爬取

    自动分页抓取,支持增量更新,每日定时检测最新期号; 清洗非结构化文本,统一格式存入MySQL数据库; 提供前端表格可视化展示(如上图所示),可按期号排序、关键词筛选; 导出Excel报表,用于个人数据分析或彩票研究。 本作品展示了我从数据抓取、数据清洗到数

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服