ID:393818

夏水浮生

开发工程师

  • 公司信息:
  • 信盈达
  • 工作经验:
  • 1年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 可工作日远程
  • 所在区域:
  • 合肥
  • 全区

技术能力

1.精通 Python 生态工具:Scrapy、Requests、Beautiful Soup、Selenium、Playwright
2.熟悉分布式爬虫框架:Scrapy-Redis、Celery、PySpider
3.熟练运用mysql等开发工具
4.能够突破验证码(OCR识别、打码平台对接)、IP封禁(代理IP池搭建、Tor网络)
5.熟悉数据清洗:正则表达式、XPath、CSS Selector、Pandas
6.掌握存储方案:MySQL/MongoDB/Redis批量写入优化、HDFS分布式存储

项目经验

全站小说数据爬取与分析系统(Python,Scrapy,Pandas)
技术架构:Scrapy+MySQL+Pandas+Excel自动化处理 | 数据量级:10万+条
项目描述:开发高并发网络爬虫系统,实现对目标小说网站(含30+分类)的全维度数据采集。构建小说信息结构化存储体系,通过自动化数据处理流程生成可视化数据报告。
核心技术实现:分布式爬虫架构:采用Scrapy-Redis搭建分布式爬虫集群,通过动态IP代理池(每日切换2000+IP)及随机UA头技术突破反爬限制。设计增量式爬取策略,基于BloomFilter算法实现URL去重(去重效率提升60%)。
多维度数据采集:构建小说信息元数据模型(9大字段:书名、作者、分类、字数、评分、推荐票、最新章节、简介、封面URL)。实现深度爬取机制:目录页→详情页→章节内容的三级联动抓取(日均处理20万请求)。开发断点续爬模块,通过Journal存储中间状态,网络异常恢复后继续任务
数据治理体系:建立数据清洗管道:文本规范化:去除HTML标签/特殊字符/非法编码。智能补全:基于贝叶斯算法推断缺失分类标签。质量校验:设置字数阈值过滤无效数据(<1000字作品自动剔除)
设计MySQL分库分表存储策略(按小说分类+时间维度分区)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服