以 Python 为核心语言,具备独立完成端到端数据采集任务的能力。熟练掌握 Requests、BeautifulSoup、正则表达式,能够针对静态网页、JSON 接口、动态加载页面编写采集脚本。擅长通过浏览器开发者工具抓包分析,定位真实数据接口与请求参数。
熟悉常见反爬策略的应对方式,包括:User-Agent 轮换、请求头伪造、Cookie 与 Session 维持、访问频率控制、异常重试与超时处理。能够编写稳定的任务脚本,支持断点续采、日志记录与异常报警。
具备数据处理与清洗能力,熟练使用 Pandas 进行数据去重、空值处理、格式统一、多表合并,支持输出 Excel、CSV、JSON 等多种格式。掌握文件与目录批量操作(os、glob、shutil),可完成采集后自动分类与归档。
了解 HTML 结构与 XPath 基础,能快速从页面中提取目标字段。具备基本的代码组织意识,会使用函数封装复用逻辑,脚本具备可读性与可维护性。能够阅读和调试已有代码,并在明确需求下快速完成新站点适配。
实际已完成:观鸟网、建筑市场、采招网、宁波大学、优志愿、哔哩哔哩、酷狗音乐、犀牛数据、唯品会等 9 个不同领域站点的数据采集任务,涵盖教育、招标、音视频、电商等场景。
项目一:垂直领域公开数据采集(观鸟网、建筑市场、采招网)
独立完成三个垂直网站的数据采集脚本开发。针对静态页面和接口数据分别采用 Requests + BeautifulSoup 与抓包模拟方式。实现关键词搜索、列表翻页、详情页字段提取、异常重试与请求间隔控制。重点解决了采招网的访问频率限制问题,通过 Session 保持与 Header 优化保证采集稳定性。输出结构化 Excel 文件,日均采集数千条有效数据。
项目二:教育与企业公开信息采集(宁波大学、优志愿、犀牛数据)
针对不同数据结构和编码问题编写定制化采集脚本。处理了分页逻辑不统一、字段缺失、动态加载等实际工程问题。使用 Pandas 对数据进行清洗、去重、日期格式化与多表合并。优志愿项目实现多关键词轮询采集,犀牛数据完成多页数据自动拼接。最终结果直接用于后续分析,显著降低人工成本。
项目三:音视频与电商平台公开数据采集(哔哩哔哩、酷狗音乐、唯品会)
完成 B 站视频基础信息、酷狗热门榜单、唯品会商品公开数据的采集脚本。通过抓包分析模拟 API 请求,处理参数拼接、Header 维持与动态 Token 场景。编写异常日志与断点续采机制,支持大批量任务分批次运行。输出 JSON 与表格文件,脚本具备良好的可复用性与可维护性
独立完成采招网公开招标信息的采集脚本开发。针对网站的访问频率限制,通过请求头模拟、Session 维持、访问间隔控制等方式保证采集稳定性。实现了关键词搜索、多页翻页、详情页字段提取、异常重试与断点续采功能。最终输出结构化 Excel 文件,包含标题、发布时间、地区、正文摘要等字段
独立完成建筑市场网站公开信息的采集脚本开发。针对该网站的分页逻辑和列表详情结构,采用 Requests + BeautifulSoup 进行静态页面解析,实现了关键词搜索、列表翻页、详情页字段提取等功能。处理了页面编码、字段缺失、异常跳转等实际工程问题。编写了请求间隔控制与异常重
独立完成建筑市场网站公开信息的采集脚本开发。针对该网站的分页逻辑和列表详情结构,采用 Requests + BeautifulSoup 进行静态页面解析,实现了关键词搜索、列表翻页、详情页字段提取等功能。处理了页面编码、字段缺失、异常跳转等实际工程问题。编写了请求间隔控制与异常重