ID:417576

Derive

python爬虫师

  • 公司信息:
  • 无哦
  • 工作经验:
  • 5年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 可工作日驻场(离职原因)
  • 所在区域:
  • 北京
  • 海淀

技术能力

基本信息

求职意向:Python爬虫开发、数据采集工程师

专业技能

熟练使用Python进行网络爬虫开发,精通 requests 、 lxml 、XPath、正则表达式等常用爬虫技术,能够快速完成静态网页数据抓取与解析。熟悉AJAX动态接口抓包分析,掌握Selenium自动化爬取动态渲染页面的方法。

熟悉常见反爬机制及解决方案,熟练运用UA伪装、Cookie维持、延时访问、代理IP等方式规避封禁。熟练使用MySQL、MongoDB完成数据存储,掌握Pandas进行数据清洗、去重与规整,具备规范的数据处理能力。了解多线程爬虫优化及Scrapy框架基础使用。

项目经验

多站点数据采集爬虫项目

独立开发通用数据采集脚本,针对资讯、公开行业网站进行批量数据抓取,涵盖标题、发布时间、内容、作者等结构化信息。通过抓包分析请求逻辑,优化请求策略,添加异常重试、日志记录机制,有效解决网络超时、页面加载异常等问题。

对采集数据进行清洗去重、格式统一,批量存入数据库,保障数据完整规范。项目稳定性强,能够长期自动化运行,有效提升数据采集效率,积累了完整的爬虫开发、反爬处理、数据存储落地经验。

自我评价

拥有扎实的Python爬虫实战能力,能够独立完成爬虫编写、反爬规避、数据处理全流程工作。代码书写规范,逻辑清晰,问题排查能力强。学习能力优异,善于钻研各类网站反爬策略,适配不同采集需求,工作踏实负责,具备良好的执行力与团队协作能力,可快速胜任爬虫开发、数据采集相关工作。

项目经验

独立开发通用网页数据采集爬虫,针对各类公开网站实现自动化数据抓取、解析、清洗与入库,解决人工复制数据效率低、数据杂乱等问题,适用于资讯、商品、公开信息等结构化数据采集场景。

技术栈

Python、requests、lxml、XPath、正则表达式、Selenium、MySQL、多线程、异常重试机制

项目职责

1. 页面抓取与数据解析
通过 requests 实现网页请求,结合 XPath、正则表达式精准提取标题、时间、内容、链接、字段参数等结构化数据,适配静态页面及部分接口数据抓取。
2. 动态页面处理
针对 JS 动态加载、Ajax 异步数据,使用 Selenium 模拟浏览器渲染,成功获取页面异步展示数据,解决普通爬虫抓取空白内容问题。
3. 基础反爬处理
添加随机 UA、请求间隔、Cookie 模拟、异常重试等策略,有效解决访问限制、临时封禁等问题,提升爬虫稳定性。
4. 数据清洗与存储
对爬取的数据进行去重、空值过滤、特殊符号清洗,统一数据格式,最终将规范数据批量存入 MySQL,保证数据整洁可用。
5. 爬虫优化
使用多线程提升爬取速度,增加日志记录、超时处理、失败重跑机制,降低程序报错崩溃概率,爬虫可长时间稳定运行。

项目成果

实现网站数据全自动批量采集,大幅提升数据收集效率,爬虫稳定率高、数据准确率高,熟练掌握爬虫开发、反爬处理、数据处理完整流程,具备独立开发爬虫项目的能力。

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服