本项目是基于 LLM(大语言模型)的 RAG(检索增强生成)系统测试实践,旨在探索 AI 时代软件测试的新方向。
我在项目中负责以下工作:
RAG 系统的功能测试:验证文档检索、上下文召回、答案生成等核心流程的准确性和稳定性
检索质量评估:设计测试用例评估检索模块的命中率、召回率,确保知识库内容能被准确召回
生成质量评估:从准确性、相关性、完整性、安全性等维度评估 LLM 生成结果的质量
数据校验:编写 SQL 脚本对测试数据进行清洗、统计和分析,定位系统异常
测试工具应用:使用 Claude Code、Hermes Agent 等 AI 工具辅助测试流程,提升测试效率
通过该项目,积累了 AI 系统测试的实战经验,掌握了 RAG 系统的测试方法和评估指标体系,能够胜任 AI 相关产品的测试工作。