ID:416861

流明

  • 公司信息:
  • 工作经验:
  • 1年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 所在区域:
  • 长沙
  • 全区

技术能力

以 Python 为核心语言,具备独立完成端到端数据采集任务的能力。熟练掌握 Requests、BeautifulSoup、正则表达式,能够针对静态网页、JSON 接口、动态加载页面编写采集脚本。擅长通过浏览器开发者工具抓包分析,定位真实数据接口与请求参数。

熟悉常见反爬策略的应对方式,包括:User-Agent 轮换、请求头伪造、Cookie 与 Session 维持、访问频率控制、异常重试与超时处理。能够编写稳定的任务脚本,支持断点续采、日志记录与异常报警。

具备数据处理与清洗能力,熟练使用 Pandas 进行数据去重、空值处理、格式统一、多表合并,支持输出 Excel、CSV、JSON 等多种格式。掌握文件与目录批量操作(os、glob、shutil),可完成采集后自动分类与归档。

了解 HTML 结构与 XPath 基础,能快速从页面中提取目标字段。具备基本的代码组织意识,会使用函数封装复用逻辑,脚本具备可读性与可维护性。能够阅读和调试已有代码,并在明确需求下快速完成新站点适配。

实际已完成:观鸟网、建筑市场、采招网、宁波大学、优志愿、哔哩哔哩、酷狗音乐、犀牛数据、唯品会等 9 个不同领域站点的数据采集任务,涵盖教育、招标、音视频、电商等场景。

项目经验

项目一:垂直领域公开数据采集(观鸟网、建筑市场、采招网)

独立完成三个垂直网站的数据采集脚本开发。针对静态页面和接口数据分别采用 Requests + BeautifulSoup 与抓包模拟方式。实现关键词搜索、列表翻页、详情页字段提取、异常重试与请求间隔控制。重点解决了采招网的访问频率限制问题,通过 Session 保持与 Header 优化保证采集稳定性。输出结构化 Excel 文件,日均采集数千条有效数据。

项目二:教育与企业公开信息采集(宁波大学、优志愿、犀牛数据)

针对不同数据结构和编码问题编写定制化采集脚本。处理了分页逻辑不统一、字段缺失、动态加载等实际工程问题。使用 Pandas 对数据进行清洗、去重、日期格式化与多表合并。优志愿项目实现多关键词轮询采集,犀牛数据完成多页数据自动拼接。最终结果直接用于后续分析,显著降低人工成本。

项目三:音视频与电商平台公开数据采集(哔哩哔哩、酷狗音乐、唯品会)

完成 B 站视频基础信息、酷狗热门榜单、唯品会商品公开数据的采集脚本。通过抓包分析模拟 API 请求,处理参数拼接、Header 维持与动态 Token 场景。编写异常日志与断点续采机制,支持大批量任务分批次运行。输出 JSON 与表格文件,脚本具备良好的可复用性与可维护性

案例展示

  • 采招网公开招标信息采集脚本

    采招网公开招标信息采集脚本

    独立完成采招网公开招标信息的采集脚本开发。针对网站的访问频率限制,通过请求头模拟、Session 维持、访问间隔控制等方式保证采集稳定性。实现了关键词搜索、多页翻页、详情页字段提取、异常重试与断点续采功能。最终输出结构化 Excel 文件,包含标题、发布时间、地区、正文摘要等字段

  • 建筑市场公开信息采集脚本

    建筑市场公开信息采集脚本

    独立完成建筑市场网站公开信息的采集脚本开发。针对该网站的分页逻辑和列表详情结构,采用 Requests + BeautifulSoup 进行静态页面解析,实现了关键词搜索、列表翻页、详情页字段提取等功能。处理了页面编码、字段缺失、异常跳转等实际工程问题。编写了请求间隔控制与异常重

  • 犀牛数据公开信息采集脚本

    犀牛数据公开信息采集脚本

    独立完成建筑市场网站公开信息的采集脚本开发。针对该网站的分页逻辑和列表详情结构,采用 Requests + BeautifulSoup 进行静态页面解析,实现了关键词搜索、列表翻页、详情页字段提取等功能。处理了页面编码、字段缺失、异常跳转等实际工程问题。编写了请求间隔控制与异常重

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服