拥有8年以上工作经验的AI算法工程师,我拥有深厚的技术栈和实战经验,专注于以下核心领域:
1. 图像识别与计算机视觉:
* 核心技术: 精通各类神经网络架构 (包括但不限于 CNN、Transformer 系列如 ViT、Swin Transformer),目标检测(YOLO系列、Faster R-CNN),图像分割(U-Net, Mask R-CNN),图像分类、OCR,以及生成模型在图像领域的应用(如 GANs 可控生成、Diffusion Models)。具备处理大规模图像数据集、数据清洗及增强的经验。
* 行业应用: 成功开发过工业质检(缺陷自动识别)、医疗影像分析(病灶分割与分类)、遥感图像解译(地物识别)、零售场景分析(顾客行为/货架分析)等落地项目。
2. 知识库构建与应用:
* 技术掌握: 深入理解并实践知识图谱构建流程(知识抽取NER/RE、知识融合、本体构建)、向量数据库(如 Milvus, FAISS, ChromaDB, Pinecone)的选型、部署与优化,熟悉 RAG 技术栈的各个组件。
* 应用场景: 专注于构建高效、精准的企业级问答系统、智能客服知识库、文档智能检索平台,解决海量非结构化信息的高效组织和查询难题。
3. 大型语言模型:
* 模型理解与应用: 熟悉主流大模型架构(如 GPT、LLaMA 系列、ChatGLM、Qwen、ERNIE等),具备大模型微调(PEFT技术如 LoRA/QLoRA、Prefix-tuning、Prompt Tuning)、模型压缩(量化 Quantization、剪枝 Pruning)、推理加速部署等关键技术能力。
* 开发经验: 熟练使用 Hugging Face Transformers、LangChain、LlamaIndex 等工具链进行大模型应用开发。具备将大模型能力与知识库(RAG)、工具调用(Function Calling)、Agent框架结合的能力,构建复杂的智能应用。
4. 全链路 AI 工程化能力:
* 模型训练与部署: 熟悉 PyTorch、TensorFlow 等深度学习框架,具备模型分布式训练经验,熟悉容器化技术(Docker)、API 化部署(如 Flask/FastAPI)以及云服务平台(AWS/GCP/Azure 或国内平台)的使用。
* 数据处理与优化: 具备扎实的 Python、数据处理(Pandas/Numpy)、SQL 等基础,关注模型性能优化(推理速度、资源占用)、效果评估指标设计与监控。
核心价值: 我的优势在于不仅具备前沿算法的理解和开发能力,更能从实际业务问题出发,设计和部署可落地的端到端(End-to-End)AI解决方案,特别是在融合图像识别、知识库信息检索与大模型理解推理能力方面,能创造出更强大的智能应用(如多模态交互、图文联合理解与分析、智能文档处理IDP等),帮助企业解决复杂问题并挖掘数据价值。
以下是我在企业级知识库智能化升级项目中的核心经验,结合了图像识别、大模型与知识库技术,实现了从数据治理到智能应用的完整闭环,显著提升了企业知识管理效率:
项目一:企业知识库智能分类与意图识别系统
项目背景
某大型制造业企业原有知识库存在文档分类混乱、搜索效率低(平均检索耗时>2分钟)的问题。传统关键词匹配无法理解用户意图,导致关键文档利用率不足30%。
技术方案与创新
1. 多模态文档智能分类
- 基于Transformer架构构建文档特征提取模型,融合文本(BERT嵌入)、图像(CNN提取布局特征)和元数据(作者、版本等),实现PDF/PPT/表格等11类文件的自动分类。
- 针对扫描件OCR文本模糊问题,引入对抗生成网络(GAN) 增强训练数据,提升脏污文档的识别鲁棒性。分类准确率达98.7%(工业界平均为92%)。
2. 用户意图识别引擎
- 采用层次化意图识别框架:
- 第一层:基于BiLSTM+CRNN的粗粒度意图分类(如“查询制度”“技术问题”);
- 第二层:结合知识图谱与微调大模型(Qwen-7B) 解析细粒度需求(如“2024年差旅报销标准”需关联财务制度、城市分级数据)。
- 通过用户行为序列建模(点击/停留时长),动态优化意图预测结果,使搜索意图匹配准确率提升至91%。
3. 知识库增强与RAG优化
- 构建企业专属知识图谱:从非结构化文档中抽取实体(产品型号、流程节点)和关系,存入Neo4j图数据库,支撑语义推理。
- 设计动态权重检索机制:根据用户角色(如财务/工程师)调整知识库检索优先级,关键信息召回率提升35%。
落地效果
- 知识库平均查询响应时间从120秒降至3.2秒,文档利用率从30%提升至85%;
- 支持125路高并发访问,赋能HR、法务等部门实现智能问答,替代60%人工咨询。
项目二:事物自动化处理系统
创新点
- 事物分类模型:采用YOLOv5改进版识别扫描件中的印章/签名区域,结合CRNN提取文字信息,实现合同、发票的自动归档(准确率99.2%)。
- 工作流引擎:基于LangChain构建智能体(Agent),自动触发文档审批、版本合并等操作,事务处理效率提升200%。
技术栈:Python/PyTorch/Transformer/Hugging Face/Neo4j/LangChain
价值总结:通过AI重构企业知识流,将静态文档库转化为动态智能中枢,为业务决策提供实时支持。