本作品为基于 Hadoop+Spark + 大模型的简历 - 岗位智能匹配系统,面向企业 HR 与求职人群解决招聘匹配低效痛点,搭建四层分布式架构,完整覆盖大数据预处理、NLP 语义计算、多 LLM 集成、可视化展示全流程。系统内置 12 步标准化数据流水线,依托 PySpark 完成简历、岗位原始数据分布式处理,实现数据上传、缺失 / 异常值清洗、文本结构化、中文分词全自动化;集成 jieba 分词并通过 Broadcast 广播优化分布式性能,搭配自定义 IT 专业词库、停用词库提升文本解析精度,分词专业术语识别率由 73% 提升至 96%。
底层自研通用 LLM 客户端,兼容 Moonshot、DeepSeek、通义千问、GPT 五类大模型接口,封装熔断器、限流、指数退避重试、流式输出、Token 统计五大企业级中间件,配套 8 套细分场景 Prompt 模板,可提供简历优化、职业规划、岗位匹配分析、市场洞察等 AI 增值能力;上层结合 TF-IDF、Word2Vec 词向量模型完成语义相似度计算,搭配六维度业务规则生成综合匹配分数,通过 Streamlit 搭建多角色可视化看板,支持批量简历对比、匹配结果导出。
本人独立负责项目底层大数据流水线全部开发与 AI 模块底层工程实现,完成 6 套 PySpark 处理脚本、统一 LLM 调用框架、中间件组件、Prompt 模板库编码,累计编写 Python 代码 2700 余行,完成全套单元测试与性能调优,解决分布式分词性能损耗、大模型接口调用不稳定、原始脏数据处理等核心工程问题,可独立交付可运行、可演示的大数据 + AI 垂直行业分析系统。