编程语言 Python、R
机器学习 / AI 分类、回归、聚类、时间序列、XGBoost、LightGBM、CatBoost、朴素贝叶斯、LDA、束搜索、知识蒸馏
深度学习 / 大模型 Transformer、CNN、RNN、LSTM、BERT、DSSM、ChatGLM、通义千问(Qwen)、DeepSeek、LLaMA Factory、提示词工程、函数调用、微调、RAG
数据 / 平台 Pandas、NumPy、Scikit-learn、tflearn、Flask、Dash、Gradio、Dify、vLLM、Milvus、Faiss、Neo4j、SharePoint、Microsoft Graph API、Azure Function App、Power BI
• 多模态智能文档解析与问答系统|原合同信息抽取项目升级版| 2026 年 1 月 – 2026 年 5 月
• 使用 Pencil 完成前端原型与交互设计,覆盖文件上传、任务状态、字段结果展示、证据溯源、问答结果展示等核心流程。
• 基于 FastAPI 搭建独立后端服务,设计 /documents、/jobs、/query等 REST API。
• 集成 MinerU 进行扫描件,识别 PDF/图片/Office/HTML 中的正文、表格、版面签章等关键信息,为后续抽取提供标准化解析结果。
• 使用 阿里云百炼 Bailian + DashScope + Qwen 3.6 搭建 PDF 读取与问答流程,通过预签名 URL 上传 PDF,使用 DASHSCOPE_DOCMIND 解析文档,并以 SESSION_FILE方式接入百炼应用完成文档问答。
• 使用 Linear 进行项目需求拆解、任务排期和进度管理,按前端原型、后端 API、文档解析、信息抽取、问答接口和接口测试等模块推进交付。