猿急送>

北京其它兼职程序员

ID：414104

HUI

高级python工程师

公司信息：
百度

工作经验：
15年

兼职日薪：
1500元/8小时

兼职时间：
周六
周日

所在区域：
北京
海淀

技术能力

1) Python（数据 & 工程 & 科研计算）

基础：语法、数据结构、虚拟环境（venv/conda）、包管理、测试（pytest）
数据：pandas/polars、numpy、matplotlib/seaborn、高效 IO（pyarrow、parquet）
科学计算：scipy、并行&加速（numba、multiprocessing、dask）
ML：scikit-learn、xgboost、lightgbm、模型管线与特征工程
工程化：CLI/服务（fastapi/flask）、任务编排（Airflow/Prefect）、日志与监控
生信生态：文件格式（FASTQ/BAM/VCF/HDF5）、pysam、biopython、单细胞（scanpy/anndata）

2) R（统计 & 可视化 & 生信）

基础：tidyverse、数据可视化（ggplot2）、函数式与向量化
统计：实验设计、GLM、混合模型、假设检验、贝叶斯（brms/rstanarm）
生信：Bioconductor（DESeq2、edgeR、limma、biomaRt）、单细胞（Seurat）
报表 & App：rmarkdown/quarto、shiny（模块化、缓存、权限）

3) 数据库（建模 & 优化 & 向量/图）

关系型：PostgreSQL/MySQL 基础、事务/索引/执行计划、分区&分片、视图&物化视图
建模：3NF vs 星型/雪花、主数据&维度建模、审计字段（CreateBy/UpdateAt）
分析 & OLAP：列式（ClickHouse）、外部表、物化汇总表
非关系：文档（MongoDB）、时序（Timescale）、图（Neo4j）
向量数据库：FAISS、pgvector、Milvus/Weaviate；度量（cosine/L2）、HNSW 索引
安全合规：访问控制、审计、脱敏；合规（GDPR/PDPO/ISO 27001）

4) 机器学习（从建模到 MLOps）

算法：监督/无监督、集成学习、度量学习、异常检测
评估：CV/嵌套 CV、AUC/PR/KS、置信区间、数据泄露防范
可解释：P

项目经验

业务背景：移动端百度 App 的搜索/信息流需要更强的语义理解，提高改写质量、召回覆盖和点击率，尤其对长尾/冷启动 Query。
目标：建设一个 LLM+RAG 的查询理解平台，输出意图分类、多候选改写、槽位抽取，驱动搜索与召回策略。
技术栈（建议）

LLM/Embedding：ERNIE（文心）、PaddleNLP Embedding
向量检索：pgvector / Milvus（或 ES KNN）
流式计算：Flink + Kafka（实时特征）
服务化：FastAPI + K8s；特征缓存 Redis；日志 ClickHouse
评测：离线黄金集 + 在线 A/B + 召回/CTR 指标看板（Grafana）

落地步骤

构建 Query 语义知识库：历史 Query、点击文档标题/摘要、百科/知道/文库结构化摘要 → 分片 + 嵌入。
语义改写：ERNIE 生成多候选（多风格/多粒度），Rerank 选择最优；支持**“原 Query 保护”与反注入**。
意图识别：意图多标签分类 + 槽位抽取；提供 JSON 结构化输出用于下游召回。
在线融合：召回阶段引入“语义相似度 + 意图一致性”加权；保障延迟 <80ms。
评测治理：离线准确率 >85%，A/B 观测 CTR、DCTR、长尾覆盖率；低置信度触发回退策略。

KPI（可落地目标）

长尾 Query 召回覆盖 +10~15%；整体 CTR +3~5%
P95 延迟 < 80ms（RAG 检索 + 改写）
线上事故率 < 0.1%，灰度发布 100% 覆盖核心链路

周期：MVP 4–6 周；全面上线 8–12 周

项目 2｜内容安全与反作弊智能 Agent（内容治理/风控方向）
业务背景：百科/知道/好看/贴吧等 UGC 内容体量大、场景多，需自动识别不良内容、批量复核与溯源。
目标：建设 “内容治理 Agent”，将规则引擎 + ML + LLM 审核结合，自动定性、溯源、给出可执行治理建议。
技术栈（建议）

数据层：ClickHouse（日志/大表）、ES（检索）、OSS/HDFS
模型：文本/图像多模态识别（飞桨生态）、LLM 规则解释与归因
Agent 编排：LangChain / Semantic Kernel（工具路由、函数调用）
监控：Prometheus + Grafana；报警联动（飞书/企业微信/邮件）

落地步骤

风险库与规则：建立敏感词/风险账号/相似度黑库；规则引擎 + ML 异常检测。
LLM 审核：对高风险/高不确定样本，调用 LLM 生成判定+证据+处置建议（结构化 JSON）。
Agent 自动化：串联“检索→判定→溯源→工单”，支持人工回滚与二次复核。
评测与护栏：构造金标验证集；建立 “过杀/漏检” 双向预警与解释日志。
回溯与学习：被纠正的判定进入持续学习闭环，更新规则与小模型门控阈值。

KPI（可落地目标）

人工审核量 ↓ 60–80%；误杀率 < 0.5%，漏检率 < 1%
整体处理时延 < 2s；紧急事件一键升级，SLA ≥ 99.9%
证据链覆盖率 ≥ 95%（支持审计）

周期：MVP 4–8 周；进阶（多模态+跨品类）12 周+

案例展示

案例2

项目 2：内容安全与反作弊智能 Agent（规则 + ML + LLM）构建面向百科/贴吧/知道等 UGC 场景的智能审核系统，将规则引擎、Paddle ML 模型与文心 LLM 的结构化审核能力整合为 Agent 流程，实现自动识别违规内容、风险分级、生成证据链与自动工单闭
案例1

项目 1：搜索查询理解与意图改写平台（LLM + RAG）基于文心大模型构建的搜索 Query 语义理解平台，通过向量检索（pgvector/Milvus）＋重排序（Cross-Encoder）＋LLM 结构化输出，实现 Query 的意图识别、槽位抽取与多候选改写，并为召回