ID:414104

HUI

高级python工程师

  • 公司信息:
  • 百度
  • 工作经验:
  • 15年
  • 兼职日薪:
  • 1500元/8小时
  • 兼职时间:
  • 周六
  • 周日
  • 所在区域:
  • 北京
  • 海淀

技术能力

1) Python(数据 & 工程 & 科研计算)

基础:语法、数据结构、虚拟环境(venv/conda)、包管理、测试(pytest)
数据:pandas/polars、numpy、matplotlib/seaborn、高效 IO(pyarrow、parquet)
科学计算:scipy、并行&加速(numba、multiprocessing、dask)
ML:scikit-learn、xgboost、lightgbm、模型管线与特征工程
工程化:CLI/服务(fastapi/flask)、任务编排(Airflow/Prefect)、日志与监控
生信生态:文件格式(FASTQ/BAM/VCF/HDF5)、pysam、biopython、单细胞(scanpy/anndata)

2) R(统计 & 可视化 & 生信)

基础:tidyverse、数据可视化(ggplot2)、函数式与向量化
统计:实验设计、GLM、混合模型、假设检验、贝叶斯(brms/rstanarm)
生信:Bioconductor(DESeq2、edgeR、limma、biomaRt)、单细胞(Seurat)
报表 & App:rmarkdown/quarto、shiny(模块化、缓存、权限)

3) 数据库(建模 & 优化 & 向量/图)

关系型:PostgreSQL/MySQL 基础、事务/索引/执行计划、分区&分片、视图&物化视图
建模:3NF vs 星型/雪花、主数据&维度建模、审计字段(CreateBy/UpdateAt)
分析 & OLAP:列式(ClickHouse)、外部表、物化汇总表
非关系:文档(MongoDB)、时序(Timescale)、图(Neo4j)
向量数据库:FAISS、pgvector、Milvus/Weaviate;度量(cosine/L2)、HNSW 索引
安全合规:访问控制、审计、脱敏;合规(GDPR/PDPO/ISO 27001)

4) 机器学习(从建模到 MLOps)

算法:监督/无监督、集成学习、度量学习、异常检测
评估:CV/嵌套 CV、AUC/PR/KS、置信区间、数据泄露防范
可解释:P

项目经验

业务背景:移动端百度 App 的搜索/信息流需要更强的语义理解,提高改写质量、召回覆盖和点击率,尤其对长尾/冷启动 Query。
目标:建设一个 LLM+RAG 的查询理解平台,输出意图分类、多候选改写、槽位抽取,驱动搜索与召回策略。
技术栈(建议)

LLM/Embedding:ERNIE(文心)、PaddleNLP Embedding
向量检索:pgvector / Milvus(或 ES KNN)
流式计算:Flink + Kafka(实时特征)
服务化:FastAPI + K8s;特征缓存 Redis;日志 ClickHouse
评测:离线黄金集 + 在线 A/B + 召回/CTR 指标看板(Grafana)

落地步骤

构建 Query 语义知识库:历史 Query、点击文档标题/摘要、百科/知道/文库结构化摘要 → 分片 + 嵌入。
语义改写:ERNIE 生成多候选(多风格/多粒度),Rerank 选择最优;支持**“原 Query 保护”与反注入**。
意图识别:意图多标签分类 + 槽位抽取;提供 JSON 结构化输出用于下游召回。
在线融合:召回阶段引入“语义相似度 + 意图一致性”加权;保障延迟 <80ms。
评测治理:离线准确率 >85%,A/B 观测 CTR、DCTR、长尾覆盖率;低置信度触发回退策略。

KPI(可落地目标)

长尾 Query 召回覆盖 +10~15%;整体 CTR +3~5%
P95 延迟 < 80ms(RAG 检索 + 改写)
线上事故率 < 0.1%,灰度发布 100% 覆盖核心链路

周期:MVP 4–6 周;全面上线 8–12 周


项目 2|内容安全与反作弊智能 Agent(内容治理/风控方向)
业务背景:百科/知道/好看/贴吧等 UGC 内容体量大、场景多,需自动识别不良内容、批量复核与溯源。
目标:建设 “内容治理 Agent”,将规则引擎 + ML + LLM 审核结合,自动定性、溯源、给出可执行治理建议。
技术栈(建议)

数据层:ClickHouse(日志/大表)、ES(检索)、OSS/HDFS
模型:文本/图像多模态识别(飞桨生态)、LLM 规则解释与归因
Agent 编排:LangChain / Semantic Kernel(工具路由、函数调用)
监控:Prometheus + Grafana;报警联动(飞书/企业微信/邮件)

落地步骤

风险库与规则:建立敏感词/风险账号/相似度黑库;规则引擎 + ML 异常检测。
LLM 审核:对高风险/高不确定样本,调用 LLM 生成判定+证据+处置建议(结构化 JSON)。
Agent 自动化:串联“检索→判定→溯源→工单”,支持人工回滚与二次复核。
评测与护栏:构造金标验证集;建立 “过杀/漏检” 双向预警与解释日志。
回溯与学习:被纠正的判定进入持续学习闭环,更新规则与小模型门控阈值。

KPI(可落地目标)

人工审核量 ↓ 60–80%;误杀率 < 0.5%,漏检率 < 1%
整体处理时延 < 2s;紧急事件一键升级,SLA ≥ 99.9%
证据链覆盖率 ≥ 95%(支持审计)

周期:MVP 4–8 周;进阶(多模态+跨品类)12 周+

案例展示

  • 案例2

    案例2

    项目 2:内容安全与反作弊智能 Agent(规则 + ML + LLM) 构建面向百科/贴吧/知道等 UGC 场景的智能审核系统,将规则引擎、Paddle ML 模型与文心 LLM 的结构化审核能力整合为 Agent 流程,实现自动识别违规内容、风险分级、生成证据链与自动工单闭

  • 案例1

    案例1

    项目 1:搜索查询理解与意图改写平台(LLM + RAG) 基于文心大模型构建的搜索 Query 语义理解平台,通过向量检索(pgvector/Milvus)+重排序(Cross-Encoder)+LLM 结构化输出,实现 Query 的意图识别、槽位抽取与多候选改写,并为召回

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服