编程 & 数据分析
Python(熟练):Pandas、NumPy、Scikit-Learn、XGBoost、Optuna、SHAP、FastAPI、MoviePy、FFmpeg 自动化
R(熟练):LMM(lme4/nlme)、多层中介(lavaan)、ANOVA 效应量(effectsize)、数据清洗可视化
SQL:Hive SQL 批处理、分区表调度、窗口函数
机器学习:随机森林/梯度提升、排序模型(RankNet、LambdaRank、XGBRanker)、嵌入向量检索
大模型与评测
熟悉 LLM 三大排序训练范式:Pointwise / Pairwise / Listwise
能独立构建 排序评测数据集(正例/负例/难例),设计 query-document 对
能评测:RAG 效果、召回率评估、embedding 聚类、向量相似度对齐
熟悉 prompt 质量管理、自动化评测脚本、采样评估、打标体系、pairwise 人工偏好对齐
后端与自动化
Docker / Docker Compose(熟练):多服务栈编排、端口映射、卷挂载、资源限制、日志排障
熟悉 Nginx 反向代理、Cloudflare Tunnel 隧道
FastAPI/Flask 服务开发
Webhook / Feishu Bot / 微信小程序后端(NAS 自建服务)
系统搭建能力(企业级实践)
构建 能量值系统:行为外显可视化、指标计算、自动化报表生成
搭建 人才标签系统:向量库、相似度匹配、FYI38 标签抽取与聚合
自动化数据管道:n8n、Python 任务、定时调度、多文件批处理、日志监控
云与部署
AutoDL、NAS、OpenClash、旁路由策略、反代、远程桌面(MeshCentral/Guacamole/RustDesk)
模型服务部署(TTS: Fish-Speech、ASR:SenseVoiceSmall)
1. 企业级行为数据分析平台
技术方向:Python、R、LMM、SQL、自动化系统
负责系统整体数据结构设计、行为指标模型构建、变换/归一化策略
使用 LMM 重复测量模型 + 链式中介(X→M1→M2→Y) 构建系统干预效应检验
自动生成统计报告:ANOVA、效应量 η²/ω²、事后检验(Tukey/GH)
基于 Hive SQL + R/Python 构建 全自动分析流水线(清洗→建模→图表→报告导出)
**2. LLM 搜索排序与评测体系(个人研究/Side Project)
技术方向:Pairwise/Listwise、XGBRanker、数据样例构建
构建搜索排序训练数据:query、doc、点击/阅读/点赞等行为特征
使用 pairwise(A > B)、listwise(NDCG 优化) 构建排序训练集
用 XGBRanker + 特征工程提升排序效果(CTR/NDCG@k)
构建 自动评测脚本:召回率、MRR、精排效果对比
研究 LLM 在“不确定性问题”“文档排序解释”中的偏差类型
**3. 人才标签系统(内部 HR 大模型应用)
技术方向:Embedding、向量库、标签聚合、Docker 自建服务
将 360 反馈、绩效述职、周报等文本向量化,进行聚类与相似度检索
构建 自动标签抽取 pipeline:embedding → 聚类 → 匹配 → 投票
设计“按人头计数”“top-3 标签筛选”“跨周期合并”等规则
使用 Docker + FastAPI 自建内部服务,支持 HRBP 查询与可视化
**4. 多端自动化媒体流水线(短视频生产系统)
技术方向:Python、FFmpeg、MoviePy、TTS、自动化脚本
将字幕、音频、火柴人图层与背景图自动合成
设计无字幕/有字幕 pipeline、视频批处理、素材自动匹配
构建 TTS(Fish-Speech)+ ASR 校对的自动化口播生成
全流程自动输出:SRT → 音频 → 视频 → 上传包
**5. 微信小程序后端 + NAS 运行环境
技术方向:Node.js、Python 服务、数据库、Docker 部署
开发“雅思记单词”小程序后台服务
在 NAS 上部署后端服务、数据库、自动化报告生成脚本
构建安全访问方案:OpenClash、VPN、隧道、域名绑定
📊 数据分析案例(精选)
行为外显性 → 信任领导 → 组织认同 → 敬业度链式中介模型(大样本 10,000+)
随机森林用于组织行为预测(特征重要性 + SHAP 分析)
多时间点差异分析(LMM vs RM-ANOVA 对比)
样本量极不均衡(1:9)条件下的稳健推断与 bootstrap 重抽样