猿急送>

长沙其它兼职程序员

ID：416861

流明

无

公司信息：
无

工作经验：
1年

兼职日薪：
500元/8小时

兼职时间：
下班后
周六
周日

所在区域：
长沙
全区

技术能力

以 Python 为核心语言，具备独立完成端到端数据采集任务的能力。熟练掌握 Requests、BeautifulSoup、正则表达式，能够针对静态网页、JSON 接口、动态加载页面编写采集脚本。擅长通过浏览器开发者工具抓包分析，定位真实数据接口与请求参数。

熟悉常见反爬策略的应对方式，包括：User-Agent 轮换、请求头伪造、Cookie 与 Session 维持、访问频率控制、异常重试与超时处理。能够编写稳定的任务脚本，支持断点续采、日志记录与异常报警。

具备数据处理与清洗能力，熟练使用 Pandas 进行数据去重、空值处理、格式统一、多表合并，支持输出 Excel、CSV、JSON 等多种格式。掌握文件与目录批量操作（os、glob、shutil），可完成采集后自动分类与归档。

了解 HTML 结构与 XPath 基础，能快速从页面中提取目标字段。具备基本的代码组织意识，会使用函数封装复用逻辑，脚本具备可读性与可维护性。能够阅读和调试已有代码，并在明确需求下快速完成新站点适配。

实际已完成：观鸟网、建筑市场、采招网、宁波大学、优志愿、哔哩哔哩、酷狗音乐、犀牛数据、唯品会等 9 个不同领域站点的数据采集任务，涵盖教育、招标、音视频、电商等场景。

项目经验

项目一：垂直领域公开数据采集（观鸟网、建筑市场、采招网）

独立完成三个垂直网站的数据采集脚本开发。针对静态页面和接口数据分别采用 Requests + BeautifulSoup 与抓包模拟方式。实现关键词搜索、列表翻页、详情页字段提取、异常重试与请求间隔控制。重点解决了采招网的访问频率限制问题，通过 Session 保持与 Header 优化保证采集稳定性。输出结构化 Excel 文件，日均采集数千条有效数据。

项目二：教育与企业公开信息采集（宁波大学、优志愿、犀牛数据）

针对不同数据结构和编码问题编写定制化采集脚本。处理了分页逻辑不统一、字段缺失、动态加载等实际工程问题。使用 Pandas 对数据进行清洗、去重、日期格式化与多表合并。优志愿项目实现多关键词轮询采集，犀牛数据完成多页数据自动拼接。最终结果直接用于后续分析，显著降低人工成本。

项目三：音视频与电商平台公开数据采集（哔哩哔哩、酷狗音乐、唯品会）

完成 B 站视频基础信息、酷狗热门榜单、唯品会商品公开数据的采集脚本。通过抓包分析模拟 API 请求，处理参数拼接、Header 维持与动态 Token 场景。编写异常日志与断点续采机制，支持大批量任务分批次运行。输出 JSON 与表格文件，脚本具备良好的可复用性与可维护性

案例展示

采招网公开招标信息采集脚本

独立完成采招网公开招标信息的采集脚本开发。针对网站的访问频率限制，通过请求头模拟、Session 维持、访问间隔控制等方式保证采集稳定性。实现了关键词搜索、多页翻页、详情页字段提取、异常重试与断点续采功能。最终输出结构化 Excel 文件，包含标题、发布时间、地区、正文摘要等字段
建筑市场公开信息采集脚本

独立完成建筑市场网站公开信息的采集脚本开发。针对该网站的分页逻辑和列表详情结构，采用 Requests + BeautifulSoup 进行静态页面解析，实现了关键词搜索、列表翻页、详情页字段提取等功能。处理了页面编码、字段缺失、异常跳转等实际工程问题。编写了请求间隔控制与异常重
犀牛数据公开信息采集脚本

独立完成建筑市场网站公开信息的采集脚本开发。针对该网站的分页逻辑和列表详情结构，采用 Requests + BeautifulSoup 进行静态页面解析，实现了关键词搜索、列表翻页、详情页字段提取等功能。处理了页面编码、字段缺失、异常跳转等实际工程问题。编写了请求间隔控制与异常重