一、需求描述
类别:AI 获客软件爬虫后端开发(聚焦多平台数据抓取与获客线索挖掘,支撑 AI 获客核心业务数据需求)
进度:已明确 AI 获客软件爬虫模块核心需求与业务逻辑,需爬虫后端技术人员搭建稳定爬虫架构,实现多平台数据抓取功能开发,确保与前端数据展示、后端线索分析模块顺畅对接
功能:围绕抖音、小红书、快手等主流平台的获客数据需求开发爬虫后端功能,核心包括:①多平台精准抓取(支持输入指定关键词、对标账号 ID 或平台榜单(如抖音热榜,最多 100 个),抓取指定时间范围的图文内容、视频元数据、点赞量、评论区信息等,保障数据抓取的时效性与完整性);②抓取规则适配(应对平台反爬机制,动态调整爬虫策略,如设置合理请求频率、IP 轮换机制,避免抓取中断);③数据处理与存储(对抓取的原始数据进行清洗、去重、结构化处理,设计高效数据库结构(如 MySQL/Redis)存储获客数据,支持按 “兴趣标签”“客源属性” 等维度分类索引);④触发与推送机制(开发数据触发逻辑,当对标账号数据(如点赞量骤增)、关键词抓取结果满足预设条件时,自动推送数据至企业微信或飞书,同步支撑保险客源筛选器、线索分析模块的数据调用)
技术:熟练运用 Python(或 Go)等爬虫开发主流语言,掌握 Scrapy、Requests、Selenium 等爬虫框架与工具,熟悉 HTTP/HTTPS 协议、Cookie/Session 机制及常见反爬解决方案;具备数据库设计与优化能力,支持 RESTful API 开发,能对接多平台(抖音 / 小红书 / 快手)接口或模拟请求,保障高频率、多任务抓取场景下的系统稳定性
二、人才要求
2 年以上爬虫后端开发经验,熟练使用 Python(或 Go)及至少一种主流爬虫框架(Scrapy 优先),有电商、社交平台(尤其是抖音、小红书、快手)数据抓取经验者优先
深入理解主流平台反爬机制,能独立设计并实现应对方案(如 IP 池搭建、请求头动态配置、验证码识别对接等),保障爬虫长期稳定运行
具备扎实的数据处理能力,能完成原始数据清洗、结构化转换及高效存储,熟悉 MySQL、Redis 等数据库的优化技巧,能应对千万级以上获客数据的存储与查询需求
了解 AI 获客业务逻辑,能结合 “线索精准度”“获客效率” 需求优化爬虫策略(如优先抓取高转化潜力的评论区用户数据、精准筛选保险相关客源信息)
具备良好的问题排查与应急处理能力,能快速定位爬虫中断、数据缺失等问题,及时调整策略恢复抓取,保障获客数据持续供给
三、参考产品
聚焦社交平台数据挖掘的获客类工具(如多平台舆情监控工具、精准线索抓取系统)
四、合作方式
开发方式:支持远程开发,需定期同步爬虫运行状态、数据抓取量及反爬应对情况,确保与 AI 获客软件整体业务节奏匹配
开发周期:核心爬虫模块(多平台抓取 + 数据处理 + 推送机制)开发周期 7-10 天,后续需配合平台规则更新持续优化爬虫策略,可协商长期维护合作