Python 开发能力中高级 / 精通,熟悉 Git 版本管理与 Docker 容器化,具备稳定的工程化实践能力
理解 AI 模型向量化表示与计算机视觉基础原理,熟悉 AI 编程辅助工具与 Agent 型工具的工程化应用
有 Python + Web(Flask)+ 桌面封装 等完整项目经验,对 AI 技术保持持续学习兴趣与自驱动力
具备 Python 爬虫与数据采集开发经验,熟悉接口分析、数据清洗与结构化处理。
1、通用技术平台MCN,负责爬虫系统。该平台运营全国数百个地方官方媒体的全平台运营。选用SpringCloud微服务框架、Scrapy爬虫框架、MySQL数据库、Redis缓存技术、RabbitMQ消息队列等技术框架。
2、爬虫工程师负责爬虫中心的中台模块,涉及到的流程包括 文章采集,素材采集,热点采集,账号检测,自动发布,状态回收,统计数据。使用群控系统操控账号,维护一个cookie池。在业务上由运营审核后一键发布。
3、内容查重,对平台的创作文章查重,基于Tornado搭建的内网微服务,文本分段后使用爬虫搜索,计算文本的simhash高于阈值过滤。
4、保险合同单图片信息提取模块, 提取文字,使用正则匹配提取,返回json格式数据。