1) Python(数据 & 工程 & 科研计算)
基础:语法、数据结构、虚拟环境(venv/conda)、包管理、测试(pytest)
数据:pandas/polars、numpy、matplotlib/seaborn、高效 IO(pyarrow、parquet)
科学计算:scipy、并行&加速(numba、multiprocessing、dask)
ML:scikit-learn、xgboost、lightgbm、模型管线与特征工程
工程化:CLI/服务(fastapi/flask)、任务编排(Airflow/Prefect)、日志与监控
生信生态:文件格式(FASTQ/BAM/VCF/HDF5)、pysam、biopython、单细胞(scanpy/anndata)
2) R(统计 & 可视化 & 生信)
基础:tidyverse、数据可视化(ggplot2)、函数式与向量化
统计:实验设计、GLM、混合模型、假设检验、贝叶斯(brms/rstanarm)
生信:Bioconductor(DESeq2、edgeR、limma、biomaRt)、单细胞(Seurat)
报表 & App:rmarkdown/quarto、shiny(模块化、缓存、权限)
3) 数据库(建模 & 优化 & 向量/图)
关系型:PostgreSQL/MySQL 基础、事务/索引/执行计划、分区&分片、视图&物化视图
建模:3NF vs 星型/雪花、主数据&维度建模、审计字段(CreateBy/UpdateAt)
分析 & OLAP:列式(ClickHouse)、外部表、物化汇总表
非关系:文档(MongoDB)、时序(Timescale)、图(Neo4j)
向量数据库:FAISS、pgvector、Milvus/Weaviate;度量(cosine/L2)、HNSW 索引
安全合规:访问控制、审计、脱敏;合规(GDPR/PDPO/ISO 27001)
4) 机器学习(从建模到 MLOps)
算法:监督/无监督、集成学习、度量学习、异常检测
评估:CV/嵌套 CV、AUC/PR/KS、置信区间、数据泄露防范
可解释:P
业务背景:移动端百度 App 的搜索/信息流需要更强的语义理解,提高改写质量、召回覆盖和点击率,尤其对长尾/冷启动 Query。
目标:建设一个 LLM+RAG 的查询理解平台,输出意图分类、多候选改写、槽位抽取,驱动搜索与召回策略。
技术栈(建议)
LLM/Embedding:ERNIE(文心)、PaddleNLP Embedding
向量检索:pgvector / Milvus(或 ES KNN)
流式计算:Flink + Kafka(实时特征)
服务化:FastAPI + K8s;特征缓存 Redis;日志 ClickHouse
评测:离线黄金集 + 在线 A/B + 召回/CTR 指标看板(Grafana)
落地步骤
构建 Query 语义知识库:历史 Query、点击文档标题/摘要、百科/知道/文库结构化摘要 → 分片 + 嵌入。
语义改写:ERNIE 生成多候选(多风格/多粒度),Rerank 选择最优;支持**“原 Query 保护”与反注入**。
意图识别:意图多标签分类 + 槽位抽取;提供 JSON 结构化输出用于下游召回。
在线融合:召回阶段引入“语义相似度 + 意图一致性”加权;保障延迟 <80ms。
评测治理:离线准确率 >85%,A/B 观测 CTR、DCTR、长尾覆盖率;低置信度触发回退策略。
KPI(可落地目标)
长尾 Query 召回覆盖 +10~15%;整体 CTR +3~5%
P95 延迟 < 80ms(RAG 检索 + 改写)
线上事故率 < 0.1%,灰度发布 100% 覆盖核心链路
周期:MVP 4–6 周;全面上线 8–12 周
项目 2|内容安全与反作弊智能 Agent(内容治理/风控方向)
业务背景:百科/知道/好看/贴吧等 UGC 内容体量大、场景多,需自动识别不良内容、批量复核与溯源。
目标:建设 “内容治理 Agent”,将规则引擎 + ML + LLM 审核结合,自动定性、溯源、给出可执行治理建议。
技术栈(建议)
数据层:ClickHouse(日志/大表)、ES(检索)、OSS/HDFS
模型:文本/图像多模态识别(飞桨生态)、LLM 规则解释与归因
Agent 编排:LangChain / Semantic Kernel(工具路由、函数调用)
监控:Prometheus + Grafana;报警联动(飞书/企业微信/邮件)
落地步骤
风险库与规则:建立敏感词/风险账号/相似度黑库;规则引擎 + ML 异常检测。
LLM 审核:对高风险/高不确定样本,调用 LLM 生成判定+证据+处置建议(结构化 JSON)。
Agent 自动化:串联“检索→判定→溯源→工单”,支持人工回滚与二次复核。
评测与护栏:构造金标验证集;建立 “过杀/漏检” 双向预警与解释日志。
回溯与学习:被纠正的判定进入持续学习闭环,更新规则与小模型门控阈值。
KPI(可落地目标)
人工审核量 ↓ 60–80%;误杀率 < 0.5%,漏检率 < 1%
整体处理时延 < 2s;紧急事件一键升级,SLA ≥ 99.9%
证据链覆盖率 ≥ 95%(支持审计)
周期:MVP 4–8 周;进阶(多模态+跨品类)12 周+
项目 2:内容安全与反作弊智能 Agent(规则 + ML + LLM) 构建面向百科/贴吧/知道等 UGC 场景的智能审核系统,将规则引擎、Paddle ML 模型与文心 LLM 的结构化审核能力整合为 Agent 流程,实现自动识别违规内容、风险分级、生成证据链与自动工单闭
项目 1:搜索查询理解与意图改写平台(LLM + RAG) 基于文心大模型构建的搜索 Query 语义理解平台,通过向量检索(pgvector/Milvus)+重排序(Cross-Encoder)+LLM 结构化输出,实现 Query 的意图识别、槽位抽取与多候选改写,并为召回