ID:410829

栖风予梦

python爬虫工程师

  • 公司信息:
  • 工作经验:
  • 1年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 周六
  • 周日
  • 可工作日远程
  • 所在区域:
  • 哈尔滨
  • 全区

技术能力

熟练掌握 Python 编程语言,熟悉 requests 库进行 HTTP 请求与会话复用,能够处理简单反爬。

掌握 XPath、lxml、正则表达式进行静态页面数据提取,能够定位复杂页面结构。

熟练使用 Selenium 控制 Chrome 浏览器,能配置无头模式、禁用图片、隐藏自动化特征,处理动态渲染页面。

具备异常处理意识,能够在网络超时、解析失败、元素缺失等场景下进行捕获与重试。

熟悉文件系统操作,能够处理文件名非法字符、文件重名自动版本号追加、多路径权限检查与磁盘空间检测。

有函数封装与工具模块化意识,能将清洗、命名、路径处理等通用逻辑独立成函数,提升代码复用性与可维护性。

持续整理爬虫踩坑笔记,目前已积累 40+ 常见问题及解决方案。

项目经验

项目为动态招聘网站,使用 Selenium 模拟用户行为进行数据采集。

实现功能:
- 关键词搜索、多页翻页、详情页跳转
- 浏览器启动参数配置(无头模式、图片禁用、自动化特征隐藏)
- 数据提取:职位名称、薪资、地区、福利、岗位描述等字段

正在完善部分:
- 日志系统接入,便于调试与运行监控
- 反爬应对策略调整,提高采集稳定性

项目当前处于功能完善阶段,已具备基础采集能力。

案例展示

  • 51_job职位信息爬取

    51_job职位信息爬取

    本项目为 51job 招聘网站的爬虫系统,由我独立开发,主要实现职位信息的自动化采集与本地存储。 系统包含以下核心功能模块: - 关键词搜索与多页翻页控制 - 职位列表与详情页数据提取 - 动态页面处理(Selenium + 显式等待) - 反爬策略(随机延迟、无头

  • 豆瓣电影 Top250 数据采集

    豆瓣电影 Top250 数据采集

    本项目为豆瓣电影 Top250 数据采集工具,由我独立开发,主要实现电影榜单信息自动抓取、图片下载、结构化存储功能。 系统功能模块: - 自动翻页采集(支持 Top250 全部分页) - 电影基本信息提取(片名、导演/演员、上映年份、制片国家/地区) - 电影简介与经

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服