猿急送>

北京其它兼职程序员

ID：422014

神经蛙

高级算法专家

公司信息：
阿里巴巴

工作经验：
10年

兼职日薪：
1000元/8小时

兼职时间：
周六
周日

所在区域：
北京
海淀

技术能力

【个人优势】
深耕智能语音领域：拥有丰富的工业级语音项目落地经验，熟练掌握语音识别（ASR）、语音合成（TTS）、声纹认证（ASV）、语音唤醒（KWS）全链路技术，能独立完成从模型训练、微调到端侧/云端部署的全流程开发。
极速交付能力（Vibe Coding 践行者）：深度应用 Vibe Coding 范式，精通 AI 编程助手（如 Cursor、Copilot、Claude Code等）的系统级调度。拥有极强的需求解构与 Prompt 架构能力，能够通过自然语言与 AI 协同，实现代码的指数级生成与迭代，大幅缩短项目开发周期，以极高效率交付全栈产品。
靠谱的契约精神：具有丰富的项目拆解经验，严格遵守开发规范，代码可维护性高；接单奉行“评估严谨、绝不逾期”的原则。

【专业技能】
语音识别 (ASR)：熟练掌握主流开源框架（如 WeNet、Kaldi、Whisper 等），精通针对特定方言、带噪环境、垂类领域的声学模型与语言模型微调能力。

语音合成 (TTS)：精通VITS、FastSpeech、CosyVoice、GAN、Diffusion、Flow-matching等合成/生成算法，能实现高质量、高自然度的声音克隆与情感语音合成。

声纹认证 (ASV)：精通基于ResNet等架构的说话人识别与日志分离（Diarization）技术。

语音唤醒 (KWS)：熟悉低功耗端侧唤醒词定制，掌握数据增强及小参数量模型（CNN/RNN）的训练与定点化压缩部署。

开发语言与框架：精通 Python、C++。精通 PyTorch，熟悉 ONNX、TensorRT 深度学习推理加速引擎。

AI 辅助编程 (Vibe Coding)：精通大模型 API 调用、Agent 编排（LangChain/Dify）。擅长以“架构师+代码审核员”的视角，引导大模型进行前后端全栈代码生成、测试用例编写及 Bug 排查。

项目经验

项目一：企业级智能客服语音分析质检系统
项目职责：语音算法核心开发者
项目描述：为某金融企业提供呼叫中心双轨录音的智能质检。系统需在复杂背景噪音下实现高精度的转写，并区分客户与坐席。
技术实施：
使用 WeNet 框架，基于企业提供的行业术语库进行模型微调，使垂类识别准确率提升至 96% 以上。
集成声纹识别与聚类算法（Speaker Diarization），实现说话人角色分离。
使用 TensorRT 对核心模型进行推理加速，单卡并发处理能力提升 3 倍。
项目成果：系统按时交付并平稳运行，大幅降低了人工质检成本。

项目二：智能硬件低功耗离线语音交互模块
项目职责：端侧语音算法负责人
项目描述：为某智能家居设备开发纯离线的“唤醒+命令词识别”一体化模块。
技术实施：
收集并合成增强数万条特定唤醒词音频，训练轻量级 KWS 模型。
设计 VAD（语音端点检测）+ 唤醒 + 离线命令词识别的级联架构，降低误唤醒率。
完成模型的 C++ 跨平台编译及 ONNX 模型量化，成功部署于资源受限的嵌入式芯片中。

项目三：某垂直领域AI语音转写与对话助手 (Vibe Coding)
项目职责：全栈独立开发者
项目描述：客户需要在一周内快速验证一款 Web 端产品，核心功能包括“网页端语音输入-实时转写-大模型提炼总结-文本转语音播报”，用于特定业务场景的信息自动化录入。
技术实施：
极速全栈构建：运用 Vibe Coding 开发模式，将产品需求解构为系统级 Prompt。使用claude code极速生成前端交互界面（如录音波形动画）与后端基础 API 骨架。
核心业务攻坚：将个人核心精力从“搬砖写代码”转移到“系统设计与难点解决”上。结合自身语音技术优势，快速打通浏览器音频流采集、WebSocket 实时传输以及后端 ASR/TTS 模块的无缝衔接。
质量把控：以“架构师兼 Code Reviewer”的视角审查 AI 生成的代码，解决跨浏览器录音兼容性及长连接断开等边界问题。
项目成果：凭借 AI 辅助编程的极速生成能力与扎实的语音算法底蕴，原计划两三周的全栈开发工作量，仅用 4 天即完成高质量交付。系统交互流畅无重大 Bug，帮助客户以极低成本完成了市场需求验证。

项目四：某内容平台定制化音色克隆与情感语音合成引擎
项目职责：TTS 算法负责人 / 核心开发者
项目描述：为某内容矩阵平台（主要业务为短视频与数字人播报）开发一套高质量的专属语音合成服务。客户期望只需少量录音数据（Few-shot），即可高保真复刻特定 IP 的音色，并支持多情感调节，彻底替代昂贵的人工配音。
技术实施：
小样本声音克隆（Few-shot Voice Cloning）：针对客户提供的非专业设备录音，使用深度学习降噪与音源分离算法提取纯净干声；构建自动化数据标注流水线，实现仅需5分钟有效音频即可高质量复刻目标音色。
核心模型优化：基于 VITS 端到端语音合成架构进行二次开发，剥离并增强了韵律预测模块，使合成音频不仅音色相似，还能逼真地还原发音人的语气停顿与情感起伏。
文本前端 (TN) 深度定制：针对业务场景，独立优化中文文本前端模块，有效解决了行业中常见的生僻多音字、特殊符号、日期数字以及中英文混读的准确发音问题。
长文本拼接与工程部署：设计智能断句算法，完美解决长文本（如小说段落）合成时的显存溢出与拼接处不自然的痛点；完成核心模型的 ONNX 导出与推理加速，封装成高并发的 API 供业务端调用。
项目成果：模型合成音频的 MOS（平均主观意见分）得分达到 4.1 以上，几乎达到真人水平。该系统帮助客户将单条视频的配音成本降低了 80% 以上，并成功稳定复刻并上线了数十个专属IP音色。

案例展示

AI语音对话系统

1. 垂直领域 AI 语音对话助手 MVP（极速全栈构建）项目描述：在一周内为客户构建并验证“语音输入-实时转写-大模型提炼-TTS播报”的 Web 端业务闭环。技术实施：极速构建：践行 Vibe Coding 理念，利用 Claude Code 极速生成前端波形交互
定制化音色克隆与情感语音合成引擎

项目描述：为短视频/数字人平台开发高保真 TTS 服务，通过少量录音（Few-shot）复刻特定 IP 音色及情感，替代人工配音。技术实施：小样本克隆：自研音频降噪与分离流水线，实现仅需 5 分钟有效干声即可高保真提取并复刻目标音色特征。声学与前端：优化 VITS 韵