项目名称:肿瘤学文献自动转微信公众号推文流水线开发
Project Title: Automated Pipeline for Oncology Literature PDF to WeChat OA Post
1. 项目概述 (Project Overview)
开发一套端到端的自动化程序。系统需监控特定邮箱,当收到包含肿瘤学 PDF 文献的邮件时,自动提取内容、识别并分割高精度子图、生成符合特定格式的公众号文案,并最终实现公众号后台的自动上传与定时发布。
2. 核心业务流程 (Workflow)
邮件触发:通过 IMAP/POP3 监控指定邮箱,下载 PDF 附件。
文献解析:识别 PDF 中的文字和插图。
子图精准分割 (核心难点):识别复合图(Compound Figures),提取并命名子图(如 Fig 1A, 2C)。
内容润色与格式化:根据预设模板(由 AI 或规则引擎)生成推文,并将对应的子图插入指定位置。
公众号发布:通过 API 或自动化工具(RPA)将推文上传至微信公众平台草稿箱并设置定时发布。
3. 详细功能模块与技术指标 (Technical Requirements)
模块 A:PDF 智能解析与子图提取 (The Engine)
需求:不能仅提取整张 Figure,必须能够识别并裁剪子图。
技术要求:
采用 Layout Analysis(布局分析)技术(如 LayoutLMv3, YOLOv11 或基于 Vision Transformer 的模型)。
识别子图标签(A, B, a, b...)的坐标,并按逻辑合并周围的相关图表区域。
输出:清晰命名的图片文件(例如:PaperID_Fig1A.png)。
模块 B:内容转换与推文生成
需求:将枯燥的医学文献转化为适合新媒体阅读的文案,并遵循固定格式。
技术要求:
集成大模型(Claude 或肿瘤学微调模型等等)。
Prompt Engineering:需支持将特定图片 ID 嵌入文案占位符,例如:{INSERT_FIGURE_1C_HERE}。
支持特定的排版格式(标题、正文、重点摘要、图片说明)。
模块 C:微信公众平台自动化 (Deployment)
需求:全自动操作,无需人工登录。
技术要求:
方案 1 (API):使用微信官方 API(需注意 API 只能存入草稿箱,且部分发布功能有权限限制)。
方案 2 (RPA/Headless Browser):使用 Playwright 或 Selenium 模拟登录,完成图片上传、排版、设置定时任务。
安全:需处理扫码登录过期或验证码校验的策略。
4. 交付物 (Deliverables)
完整源代码:包含 PDF 处理、AI 接口对接、自动化发布脚本。
环境部署文档:支持 Docker 部署或主流服务器环境配置说明。
管理后台/配置文件:允许用户修改推文模板、邮箱配置、定时时间等参数。
测试报告:提供 20 篇不同排版文献的成功解析与发布案例。
5. 验收标准 (Acceptance Criteria)
子图提取准确率:Fig 1A, 1B 等子图的识别与裁剪准确率需达到 99% 以上。
全流程闭环:从发邮件到公众号草稿箱出现推文,整个过程无需人工干预。
排版一致性:生成的推文必须严格符合提供的样式模板。
特别提醒开发者:
在描述中强调:"Normal PDF-to-Image tools are NOT enough. Semantic sub-figure extraction is mandatory."(普通的 PDF 转图工具不够,必须具备语义化的子图提取能力)。