职位ID:159118

肿瘤学文献自动转微信公众号推文流水线开发

  • 合作方式:
  • 项目制 全国远程
  • 预估日薪:
  • 1000
  • 预估总价:
  • 3000元
  • 预估工时:
  • 3天
  • 所在区域:
  • 全国远程

需求描述

项目名称:肿瘤学文献自动转微信公众号推文流水线开发
Project Title: Automated Pipeline for Oncology Literature PDF to WeChat OA Post

1. 项目概述 (Project Overview)
开发一套端到端的自动化程序。系统需监控特定邮箱,当收到包含肿瘤学 PDF 文献的邮件时,自动提取内容、识别并分割高精度子图、生成符合特定格式的公众号文案,并最终实现公众号后台的自动上传与定时发布。

2. 核心业务流程 (Workflow)
邮件触发:通过 IMAP/POP3 监控指定邮箱,下载 PDF 附件。

文献解析:识别 PDF 中的文字和插图。

子图精准分割 (核心难点):识别复合图(Compound Figures),提取并命名子图(如 Fig 1A, 2C)。

内容润色与格式化:根据预设模板(由 AI 或规则引擎)生成推文,并将对应的子图插入指定位置。

公众号发布:通过 API 或自动化工具(RPA)将推文上传至微信公众平台草稿箱并设置定时发布。

3. 详细功能模块与技术指标 (Technical Requirements)
模块 A:PDF 智能解析与子图提取 (The Engine)
需求:不能仅提取整张 Figure,必须能够识别并裁剪子图。

技术要求:

采用 Layout Analysis(布局分析)技术(如 LayoutLMv3, YOLOv11 或基于 Vision Transformer 的模型)。

识别子图标签(A, B, a, b...)的坐标,并按逻辑合并周围的相关图表区域。

输出:清晰命名的图片文件(例如:PaperID_Fig1A.png)。

模块 B:内容转换与推文生成
需求:将枯燥的医学文献转化为适合新媒体阅读的文案,并遵循固定格式。

技术要求:

集成大模型(Claude 或肿瘤学微调模型等等)。

Prompt Engineering:需支持将特定图片 ID 嵌入文案占位符,例如:{INSERT_FIGURE_1C_HERE}。

支持特定的排版格式(标题、正文、重点摘要、图片说明)。

模块 C:微信公众平台自动化 (Deployment)
需求:全自动操作,无需人工登录。

技术要求:

方案 1 (API):使用微信官方 API(需注意 API 只能存入草稿箱,且部分发布功能有权限限制)。

方案 2 (RPA/Headless Browser):使用 Playwright 或 Selenium 模拟登录,完成图片上传、排版、设置定时任务。

安全:需处理扫码登录过期或验证码校验的策略。

4. 交付物 (Deliverables)
完整源代码:包含 PDF 处理、AI 接口对接、自动化发布脚本。

环境部署文档:支持 Docker 部署或主流服务器环境配置说明。

管理后台/配置文件:允许用户修改推文模板、邮箱配置、定时时间等参数。

测试报告:提供 20 篇不同排版文献的成功解析与发布案例。

5. 验收标准 (Acceptance Criteria)
子图提取准确率:Fig 1A, 1B 等子图的识别与裁剪准确率需达到 99% 以上。

全流程闭环:从发邮件到公众号草稿箱出现推文,整个过程无需人工干预。

排版一致性:生成的推文必须严格符合提供的样式模板。


特别提醒开发者:

在描述中强调:"Normal PDF-to-Image tools are NOT enough. Semantic sub-figure extraction is mandatory."(普通的 PDF 转图工具不够,必须具备语义化的子图提取能力)。

投递职位 已有15人投递,发布人 点此登录 后查看。

信用行为

  • 发布项目
    1
  • 订单总数
    0
  • 退款单数
    0

完善简历

工程师完善技术能力和项目经验,更易接到订单

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信客服

需求方请加需求方端客服沟通需求,工程师请加工程师端客服浏览推送职位

需求方端客服
工程师端客服
联系需求方端客服