工作内容: RK3588 (4G)AI聊天系统
概述:把一个 开源的AI语音聊天系统移植到RK3588 (4GB内存)上,本地做流式ASR TTS and RAG
要在RK3588上面实现 语音转文字 ASR (用 Wisper-RKNN 或者 Sherpa-Onnx), 文字转语音 TTS (Piper TTS-RKNN),实现一个语音聊天系统,关键要求是流畅,所以需要是 流式 ASR 和 TTS. (上面两个库我们 都已经 单独跑通, ASR 我们用的是 C++的库),
现在需要把 这两个库整合到一个 开源的AI聊天系统中,也在RK3588板子上运行。你需要把该系统现在的 TTS和ASR 换成上面两种或其他 ASR,TTS,只要流畅和准确就行。
目前 我们选的是 https://github.com/KoljaB/RealtimeVoiceChat 在PC是效果很好,在板子上我们也跑通了,可AI对话 (调远方 DeepSeek API),但不流畅 ,感觉是整合问题,因为单独的 ASR TTS 是流畅的。
该系统还需要在 板子上 运行 RAG-Faiss (在调用远程大模型时用),这我们在PC上是运行成功的,需要移植到板子上。
另外,需要能 通过蓝牙连接手机 实现蓝牙通话,类似车载免提 (这个代码我们有大致的 可提供)
需要用 RK3588原生的 低功耗语音唤醒功能
另外,板子上需要接入一个按钮,按的时候 一键暂停声音,但不是关机。
不用花时间沟通具体商业逻辑,因为我们内部团队会做。
所以关键需求: ASR,TTS, RAG 在 4G 内存板子上 流畅运行 + 蓝牙拨号 + 1个按钮硬件