猿急送>

合肥Python兼职程序员

ID：393818

夏水浮生

开发工程师

公司信息：
信盈达

工作经验：
1年

兼职日薪：
500元/8小时

兼职时间：
可工作日远程

所在区域：
合肥
全区

技术能力

1.精通 Python 生态工具：Scrapy、Requests、Beautiful Soup、Selenium、Playwright
2.熟悉分布式爬虫框架：Scrapy-Redis、Celery、PySpider
3.熟练运用mysql等开发工具
4.能够突破验证码（OCR识别、打码平台对接）、IP封禁（代理IP池搭建、Tor网络）
5.熟悉数据清洗：正则表达式、XPath、CSS Selector、Pandas
6.掌握存储方案：MySQL/MongoDB/Redis批量写入优化、HDFS分布式存储

项目经验

全站小说数据爬取与分析系统（Python，Scrapy，Pandas）
技术架构：Scrapy+MySQL+Pandas+Excel自动化处理 | 数据量级：10万+条
项目描述：开发高并发网络爬虫系统，实现对目标小说网站（含30+分类）的全维度数据采集。构建小说信息结构化存储体系，通过自动化数据处理流程生成可视化数据报告。
核心技术实现：分布式爬虫架构：采用Scrapy-Redis搭建分布式爬虫集群，通过动态IP代理池（每日切换2000+IP）及随机UA头技术突破反爬限制。设计增量式爬取策略，基于BloomFilter算法实现URL去重（去重效率提升60%）。
多维度数据采集：构建小说信息元数据模型（9大字段：书名、作者、分类、字数、评分、推荐票、最新章节、简介、封面URL）。实现深度爬取机制：目录页→详情页→章节内容的三级联动抓取（日均处理20万请求）。开发断点续爬模块，通过Journal存储中间状态，网络异常恢复后继续任务
数据治理体系：建立数据清洗管道：文本规范化：去除HTML标签/特殊字符/非法编码。智能补全：基于贝叶斯算法推断缺失分类标签。质量校验：设置字数阈值过滤无效数据（<1000字作品自动剔除）
设计MySQL分库分表存储策略（按小说分类+时间维度分区）