【项目简介】 本项目是一款集成了大语言模型(LLM)与计算机视觉(OCR)技术的综合性在线语言学习平台。旨在通过AI技术解决传统语言教学中“批改效率低”和“哑巴英语”的痛点,实现了从手写作文识别批改到情景化口语对练的全流程智能化闭环。
【我的角色】 全栈架构师与独立开发者 负责从需求分析、数据库设计、前后端开发到AI模型接口对接的完整落地。采用 Java (Spring Boot) 处理核心业务逻辑,Python (FastAPI) 处理AI计算任务,前端使用 Vue3 + TypeScript 构建响应式交互界面。
【核心功能模块】
智能作文批改 Agent:
OCR图文识别: 集成 Tesseract/Python 脚本,支持用户上传手写作文图片,自动提取文本。
多维度深度评估: 调用 DeepSeek/LLM API,从拼写、语法、句式结构、逻辑连贯性等4大维度进行分析,生成包含“错误高亮”、“修正建议”及“智能润色”的详细报告。
格式化导出: 支持将分析报告一键导出为 PDF/Word 格式。
AI 沉浸式口语外教:
实时语音交互: 基于 Web Audio API 和 Whisper 模型实现高精度语音转文字(STT),结合 TTS 实现自然语音回复。
双模式训练: 提供“学习模式”(带中英字幕)和“沉浸模式”(纯英文环境),模拟真实对话场景。
发音与流利度评分: 利用 Librosa 音频库分析语速、停顿和发音准确度,提供毫秒级的实时反馈。
自适应学习系统:
AI 智能出题: 基于 RAG 思想,根据用户水平动态生成写作题目和范文。
学情可视化: 使用 ECharts 展示用户的分数趋势、词汇量统计及薄弱项分析。
【技术栈关键词】
前端: Vue3, TypeScript, Tailwind CSS, Element Plus, Vite
后端: Java (Spring Boot, Spring Security, JWT), Python (FastAPI)
AI/算法: LLM Integration (DeepSeek/GPT), LangChain思想, OCR, Whisper (ASR), TTS
数据库: MongoDB (存储非结构化多模态数据)