ID:420040

玺雨.

在校

  • 公司信息:
  • 滇池学院
  • 工作经验:
  • 1年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 可工作日驻场(自由职业原因)
  • 所在区域:
  • 昆明
  • 全区

技术能力

熟练掌握 Python 语言,具备扎实的爬虫开发与数据处理能力,能够独立完成从需求分析、方案设计到代码实现的全流程工作。熟练使用 Requests、Scrapy、Selenium等主流爬虫框架与工具,可应对静态网页、动态渲染页面、JS 加密接口、反爬策略(IP 封禁、User-Agent 校验、Cookie 池、验证码处理)等多种场景的数据采集需求。
熟悉 HTTP/HTTPS 协议原理,能通过抓包分析接口逻辑,实现高效的接口逆向与数据爬取;能处理常见的反爬机制,如滑块验证、人机验证、请求频率限制等。
同时熟练使用 XPath、BeautifulSoup、PyQuery 等解析工具进行数据清洗与结构化处理,可将采集到的数据存储到 MySQL、MongoDB 等数据库中,或导出为 Excel、JSON、CSV 等格式文件。了解爬虫相关的法律法规与平台规范,能在合规范围内设计和实现爬虫方案,避免数据爬取过程中的合规风险。具备良好的问题排查与调试能力,可快速定位并解决爬取过程中遇到的异常问题,保障爬虫项目稳定运行。

项目经验

独立负责豆瓣平台电影与图书数据的自动化采集、清洗与结构化存储全流程。针对豆瓣的反爬机制,设计了包含请求头伪装、代理 IP 轮换、请求频率控制的反反爬方案,有效规避了 IP 封禁与请求限制,实现了平台公开数据的稳定爬取。
项目中使用 Requests 库结合 XPath 解析静态页面数据,对需要动态加载的评分、评论等内容,采用 Selenium 无头浏览器模拟用户行为进行渲染爬取;通过抓包分析接口逻辑,实现了电影列表、详情、评分、短评、长评,以及图书的基本信息、作者、出版社、评价数据的批量采集,单次可稳定采集万级以上数据量。
爬取完成后,对数据进行清洗、去重与结构化处理,去除无效数据与重复内容,并将最终数据存储至 MySQL 数据库,同时导出为 CSV 格式文件,为后续的数据分析与市场调研提供了高质量的数据支持。项目运行期间,爬虫稳定性高,数据准确率达 99% 以上,有效支撑了业务侧的数据分析需求。

案例展示

  • 数据采集

    数据采集

    本作品是一套基于 Python 的豆瓣公开数据自动化采集与分析系统,核心功能覆盖豆瓣电影、图书、短评 / 长评的全量公开数据爬取、清洗与结构化处理。 技术上,我负责整体架构设计与核心模块开发:使用 Requests+XPath 实现静态页面数据的高效解析,针对动态渲染的评论页,

  • 数据采集

    数据采集

    本作品是一套基于 Python 的豆瓣公开数据自动化采集与分析系统,核心功能覆盖豆瓣电影、图书、短评 / 长评的全量公开数据爬取、清洗与结构化处理。 技术上,我负责整体架构设计与核心模块开发:使用 Requests+XPath 实现静态页面数据的高效解析,针对动态渲染的评论页,

  • 数据采集

    数据采集

    本作品是一套基于 Python 的豆瓣公开数据自动化采集与分析系统,核心功能覆盖豆瓣电影、图书、短评 / 长评的全量公开数据爬取、清洗与结构化处理。 技术上,我负责整体架构设计与核心模块开发:使用 Requests+XPath 实现静态页面数据的高效解析,针对动态渲染的评论页,

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服