基于大数据+AI 的简历岗位人才匹配系统

猿急送>沈阳其它兼职程序员>雪隐之村>

案例列表

基本信息

案例ID：244071

技术顾问：雪隐之村 - 14年经验 - 东软

联系沟通

微信扫码，建群沟通

项目名称：基于大数据+AI 的简历岗位人才匹配系统

所属行业：企业服务 - 数据服务

->查看更多案例

案例介绍

本作品为基于 Hadoop+Spark + 大模型的简历 - 岗位智能匹配系统，面向企业 HR 与求职人群解决招聘匹配低效痛点，搭建四层分布式架构，完整覆盖大数据预处理、NLP 语义计算、多 LLM 集成、可视化展示全流程。系统内置 12 步标准化数据流水线，依托 PySpark 完成简历、岗位原始数据分布式处理，实现数据上传、缺失 / 异常值清洗、文本结构化、中文分词全自动化；集成 jieba 分词并通过 Broadcast 广播优化分布式性能，搭配自定义 IT 专业词库、停用词库提升文本解析精度，分词专业术语识别率由 73% 提升至 96%。
底层自研通用 LLM 客户端，兼容 Moonshot、DeepSeek、通义千问、GPT 五类大模型接口，封装熔断器、限流、指数退避重试、流式输出、Token 统计五大企业级中间件，配套 8 套细分场景 Prompt 模板，可提供简历优化、职业规划、岗位匹配分析、市场洞察等 AI 增值能力；上层结合 TF-IDF、Word2Vec 词向量模型完成语义相似度计算，搭配六维度业务规则生成综合匹配分数，通过 Streamlit 搭建多角色可视化看板，支持批量简历对比、匹配结果导出。
本人独立负责项目底层大数据流水线全部开发与 AI 模块底层工程实现，完成 6 套 PySpark 处理脚本、统一 LLM 调用框架、中间件组件、Prompt 模板库编码，累计编写 Python 代码 2700 余行，完成全套单元测试与性能调优，解决分布式分词性能损耗、大模型接口调用不稳定、原始脏数据处理等核心工程问题，可独立交付可运行、可演示的大数据 + AI 垂直行业分析系统。