多模态RAG旅游规划Agent 全栈开发 2026/04 - 至今
请求分流优化:搭建二级请求分流框架,依据场景复杂度做分层处理,通过分类提示词得出简单提问场景走
workflow流让llm快速回答,复杂任务走ReAct框架循环处理,提高整体问答响应速度降低延迟
混合检索与精排:融合向量检索与 BM25 关键词检索构建混合检索管线,借助 RRF 倒数排名融合算法合并,
并使用rerank模型实现精细化重排,最后筛选 Top-3 内容投喂大模型,整体将回答准确率提升 50%
记忆存储与上下文压缩:基于Redis实现前15轮短期会话存储,配合llm实时对滑动窗口进行摘要压缩实
现%60token降幅,根据对话判断借助Chroma长效留存用户习惯和旅游行程偏好,大幅提高检索相关性
配额管控优化:实现工具调用配额管控,按功能粒度分配AI工具使用权限,为各类任务设置单次最大5次工具
调用次数上限,触达限额即刻中止任务并弹窗提示,防止无限循环工具调用问题