整体要求:
兼职,无需上门远程完成,提供对应的开发板和传感器硬件套装。项目制结算。需要团队协作完成,至少需要3类角色3个人左右。项目周期大概1-2个月,按照任务节点交付,对每周工作时间无强制需求。项目背景在面试时沟通,每个角色都需要面试。交付后需要有一定的维护周期。
角色1: 系统 / WebRTC / 多媒体工程师
工作内容
• 熟悉Linux操作系统,在Arm架构下做端侧软件开发。
• 搭建 音频采集 + AEC 消回声 + 降噪 流程
• 搭建 USB 摄像头图像 pipeline(GStreamer 优先)
• 集成 WebRTC 或声网 RTC SDK 实现视频通话
• 实现本地网络配置 / Wi-Fi 配网
• 与主控(Orange Pi / RPi)进行驱动调试
• 输出可直接调用的音视频 API 提供给 ROS2 和 App
• 基础 OTA
任职要求
• 熟练使用 GStreamer / FFmpeg
• 有 WebRTC 端到端 开发经验(或 Agora/声网/腾讯通话 SDK 经验)
• Linux 下做过 USB Camera、音频驱动、UVC
• 熟悉一次音视频链路的延迟、抖动、丢包处理
• 做过智能摄像头、扫地机、智能音箱、视频会议设备优先
• 熟练使用C++ 和Python
角色2: ROS2 机器人控制工程师
• 对接 差速 2WD底盘,实现驱动和里程发布
• 使用 ROS2 写 底盘控制节点(twist → 电机控制)
• 支持 遥控 / WebSocket 控制 / rosbridge
• 与语音、AI、App 团队对接接口
• 视觉SLAM,避障功能。
任职要求
• 熟练使用 ROS2 Foxy/Humble
• 能独立写 Launch、Node、Topic、Service
• 做过至少一个真实机器人项目(如清洁、巡检、教育、小车)
• 熟悉 TF、URDF、控制器管理器
• Nav2、视觉SLAM经验
角色3: 语音交互 / 多模态 AI 工程师
工作内容
• 集成 Whisper / FunASR 做实时语音识别
• 集成 CosyVoice / VITS / Edge TTS 做语音合成
• 对接 LLM(ChatGPT / Qwen / DeepSeek)
• 构建简单的 指令 → 行为 映射(例如“靠近我”、“跟着我”)
• 与 ROS2 打通动作接口
• 构建语音对话状态机(简单版本)
任职要求
• 熟悉至少一个开源 ASR(Whisper/FunASR)
• 熟悉至少一个 TTS(CosyVoice/VITS)
• 熟悉 Python 多进程 / streaming
• 有“智能音箱 / 语音助手 / 家庭机器人”相关经验优先
• 懂多模态(Vision + Language)