熟练掌握 Python 编程语言,熟悉 requests 库进行 HTTP 请求与会话复用,能够处理简单反爬。
掌握 XPath、lxml、正则表达式进行静态页面数据提取,能够定位复杂页面结构。
熟练使用 Selenium 控制 Chrome 浏览器,能配置无头模式、禁用图片、隐藏自动化特征,处理动态渲染页面。
具备异常处理意识,能够在网络超时、解析失败、元素缺失等场景下进行捕获与重试。
熟悉文件系统操作,能够处理文件名非法字符、文件重名自动版本号追加、多路径权限检查与磁盘空间检测。
有函数封装与工具模块化意识,能将清洗、命名、路径处理等通用逻辑独立成函数,提升代码复用性与可维护性。
持续整理爬虫踩坑笔记,目前已积累 40+ 常见问题及解决方案。
项目为动态招聘网站,使用 Selenium 模拟用户行为进行数据采集。
实现功能:
- 关键词搜索、多页翻页、详情页跳转
- 浏览器启动参数配置(无头模式、图片禁用、自动化特征隐藏)
- 数据提取:职位名称、薪资、地区、福利、岗位描述等字段
正在完善部分:
- 日志系统接入,便于调试与运行监控
- 反爬应对策略调整,提高采集稳定性
项目当前处于功能完善阶段,已具备基础采集能力。
本项目为 51job 招聘网站的爬虫系统,由我独立开发,主要实现职位信息的自动化采集与本地存储。 系统包含以下核心功能模块: - 关键词搜索与多页翻页控制 - 职位列表与详情页数据提取 - 动态页面处理(Selenium + 显式等待) - 反爬策略(随机延迟、无头
本项目为豆瓣电影 Top250 数据采集工具,由我独立开发,主要实现电影榜单信息自动抓取、图片下载、结构化存储功能。 系统功能模块: - 自动翻页采集(支持 Top250 全部分页) - 电影基本信息提取(片名、导演/演员、上映年份、制片国家/地区) - 电影简介与经