【个人优势】
深耕智能语音领域:拥有丰富的工业级语音项目落地经验,熟练掌握语音识别(ASR)、语音合成(TTS)、声纹认证(ASV)、语音唤醒(KWS)全链路技术,能独立完成从模型训练、微调到端侧/云端部署的全流程开发。
极速交付能力(Vibe Coding 践行者):深度应用 Vibe Coding 范式,精通 AI 编程助手(如 Cursor、Copilot、Claude Code等)的系统级调度。拥有极强的需求解构与 Prompt 架构能力,能够通过自然语言与 AI 协同,实现代码的指数级生成与迭代,大幅缩短项目开发周期,以极高效率交付全栈产品。
靠谱的契约精神:具有丰富的项目拆解经验,严格遵守开发规范,代码可维护性高;接单奉行“评估严谨、绝不逾期”的原则。
【专业技能】
语音识别 (ASR):熟练掌握主流开源框架(如 WeNet、Kaldi、Whisper 等),精通针对特定方言、带噪环境、垂类领域的声学模型与语言模型微调能力。
语音合成 (TTS):精通VITS、FastSpeech、CosyVoice、GAN、Diffusion、Flow-matching等合成/生成算法,能实现高质量、高自然度的声音克隆与情感语音合成。
声纹认证 (ASV):精通基于ResNet等架构的说话人识别与日志分离(Diarization)技术。
语音唤醒 (KWS):熟悉低功耗端侧唤醒词定制,掌握数据增强及小参数量模型(CNN/RNN)的训练与定点化压缩部署。
开发语言与框架:精通 Python、C++。精通 PyTorch,熟悉 ONNX、TensorRT 深度学习推理加速引擎。
AI 辅助编程 (Vibe Coding):精通大模型 API 调用、Agent 编排(LangChain/Dify)。擅长以“架构师+代码审核员”的视角,引导大模型进行前后端全栈代码生成、测试用例编写及 Bug 排查。
项目一:企业级智能客服语音分析质检系统
项目职责:语音算法核心开发者
项目描述:为某金融企业提供呼叫中心双轨录音的智能质检。系统需在复杂背景噪音下实现高精度的转写,并区分客户与坐席。
技术实施:
使用 WeNet 框架,基于企业提供的行业术语库进行模型微调,使垂类识别准确率提升至 96% 以上。
集成声纹识别与聚类算法(Speaker Diarization),实现说话人角色分离。
使用 TensorRT 对核心模型进行推理加速,单卡并发处理能力提升 3 倍。
项目成果:系统按时交付并平稳运行,大幅降低了人工质检成本。
项目二:智能硬件低功耗离线语音交互模块
项目职责:端侧语音算法负责人
项目描述:为某智能家居设备开发纯离线的“唤醒+命令词识别”一体化模块。
技术实施:
收集并合成增强数万条特定唤醒词音频,训练轻量级 KWS 模型。
设计 VAD(语音端点检测)+ 唤醒 + 离线命令词识别的级联架构,降低误唤醒率。
完成模型的 C++ 跨平台编译及 ONNX 模型量化,成功部署于资源受限的嵌入式芯片中。
项目三:某垂直领域AI语音转写与对话助手 (Vibe Coding)
项目职责:全栈独立开发者
项目描述:客户需要在一周内快速验证一款 Web 端产品,核心功能包括“网页端语音输入-实时转写-大模型提炼总结-文本转语音播报”,用于特定业务场景的信息自动化录入。
技术实施:
极速全栈构建:运用 Vibe Coding 开发模式,将产品需求解构为系统级 Prompt。使用claude code极速生成前端交互界面(如录音波形动画)与后端基础 API 骨架。
核心业务攻坚:将个人核心精力从“搬砖写代码”转移到“系统设计与难点解决”上。结合自身语音技术优势,快速打通浏览器音频流采集、WebSocket 实时传输以及后端 ASR/TTS 模块的无缝衔接。
质量把控:以“架构师兼 Code Reviewer”的视角审查 AI 生成的代码,解决跨浏览器录音兼容性及长连接断开等边界问题。
项目成果:凭借 AI 辅助编程的极速生成能力与扎实的语音算法底蕴,原计划两三周的全栈开发工作量,仅用 4 天即完成高质量交付。系统交互流畅无重大 Bug,帮助客户以极低成本完成了市场需求验证。
项目四:某内容平台定制化音色克隆与情感语音合成引擎
项目职责:TTS 算法负责人 / 核心开发者
项目描述:为某内容矩阵平台(主要业务为短视频与数字人播报)开发一套高质量的专属语音合成服务。客户期望只需少量录音数据(Few-shot),即可高保真复刻特定 IP 的音色,并支持多情感调节,彻底替代昂贵的人工配音。
技术实施:
小样本声音克隆(Few-shot Voice Cloning):针对客户提供的非专业设备录音,使用深度学习降噪与音源分离算法提取纯净干声;构建自动化数据标注流水线,实现仅需5分钟有效音频即可高质量复刻目标音色。
核心模型优化:基于 VITS 端到端语音合成架构进行二次开发,剥离并增强了韵律预测模块,使合成音频不仅音色相似,还能逼真地还原发音人的语气停顿与情感起伏。
文本前端 (TN) 深度定制:针对业务场景,独立优化中文文本前端模块,有效解决了行业中常见的生僻多音字、特殊符号、日期数字以及中英文混读的准确发音问题。
长文本拼接与工程部署:设计智能断句算法,完美解决长文本(如小说段落)合成时的显存溢出与拼接处不自然的痛点;完成核心模型的 ONNX 导出与推理加速,封装成高并发的 API 供业务端调用。
项目成果:模型合成音频的 MOS(平均主观意见分)得分达到 4.1 以上,几乎达到真人水平。该系统帮助客户将单条视频的配音成本降低了 80% 以上,并成功稳定复刻并上线了数十个专属IP音色。
1. 垂直领域 AI 语音对话助手 MVP(极速全栈构建) 项目描述:在一周内为客户构建并验证“语音输入-实时转写-大模型提炼-TTS播报”的 Web 端业务闭环。 技术实施: 极速构建:践行 Vibe Coding 理念,利用 Claude Code 极速生成前端波形交互
项目描述:为短视频/数字人平台开发高保真 TTS 服务,通过少量录音(Few-shot)复刻特定 IP 音色及情感,替代人工配音。 技术实施: 小样本克隆:自研音频降噪与分离流水线,实现仅需 5 分钟有效干声即可高保真提取并复刻目标音色特征。 声学与前端:优化 VITS 韵