ID:417178

知遇来寻

高级爬虫工程师

  • 公司信息:
  • 字节
  • 工作经验:
  • 3年
  • 兼职日薪:
  • 600元/8小时
  • 兼职时间:
  • 下班后
  • 所在区域:
  • 北京
  • 海淀

技术能力

本人为 Python 数据采集与反爬虫领域资深技术顾问,拥有 3 年以上工业级爬虫开发与大规模数据采集实战经验。精通 Selenium + undetected-chromedriver + selenium-stealth 高级浏览器指纹伪装技术,可稳定绕过 PerimeterX(HUMAN)、px3、Cloudflare Turnstile、Akamai 等主流反爬防护。熟练掌握分布式爬虫架构设计、IP 池 + 指纹随机化、验证码自动识别与人工干预机制、数据库并发锁处理(WAL 模式 + 自动重试),可实现每日百万级稳定采集。
在房产、生活服务类网站数据采集中有丰富经验,曾独立开发安居客移动端工业级爬虫(含详情页复杂正则提取、批量入库、自动防重),并成功落地北京二手房房价大数据分析平台(Flask + CatBoost + ECharts)。熟练使用 Pandas、SQLite/MySQL 进行海量数据清洗与存储,掌握 XGBoost、CatBoost、LSTM 等机器学习模型在房价预测与趋势分析中的应用。
具备极强的反爬对抗能力和工程化落地能力,可快速适配巴西、欧美等国外生活类网站(OLX、Viva Real 等),为企业提供高效、稳定、合规的数据采集解决方案。已帮助多个项目突破反爬瓶颈,交付高质量结构化数据。

项目经验

项目一:基于大数据的北京二手房房价浮动分析平台

负责从0到1完成整个平台开发。针对北京二手房市场,设计并开发工业级安居客移动端爬虫系统(Selenium + undetected-chromedriver + selenium-stealth),成功突破反爬机制,稳定采集19,390条真实房源数据(含小区、户型、楼层、装修、建成年份等20+维度字段)。
采用Pandas进行大规模数据清洗与预处理,构建SQLite/MySQL结构化存储;先后使用CatBoost、XGBoost、LSTM三种模型进行房价预测,其中CatBoost模型在测试集上取得最优效果(MAE<2800元/㎡,R²>0.92)。最终基于Flask + ECharts开发交互式可视化平台,实现各区房价对比柱状图、智能房价预测、区域热力图等功能,支持实时查询与可视化决策。
该项目全面覆盖“数据采集→清洗→建模→可视化”全链路,充分验证了我在反爬对抗、工程化爬虫、大数据分析与全栈开发方面的实战能力

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服