系统以树莓派 4B 为核心硬件平台,集成高分辨率摄像头(640×480 RGB 图像,30fps)与 ReSpeaker 2 麦克风阵列(16kHz 音频流采集),构建多模态数据采集模块。在算法层面,采用分层处理架构:通过 YAMNet 音频分类模型实现 521 种声音的全量识别,输出声音类别及置信度;基于 UniDepth-v2-vits14 深度感知模型实时生成深度图与障碍物信息(30fps);利用 YOLOv12 物体识别模型完成 80 余种物体的检测与动向判断。通过多模态信息融合技术,系统实现视觉流(物体特征、深度信息)与听觉流(声音事件特征)的协同处理,突破单一模态的感知局限。