10分钟“复刻”专属音色，思必驰TTS技术如何练成的？

“声音复刻”又称“声音克隆”，是语音合成技术（TTS ，Text To Speech）的个性化应用，用户可通过少量的录音进行模型训练，得到与用户本人在音色和发音风格上非常相似的声音模型，快速“复刻”个性化声音，该“复刻”声音可使用在讲故事、播天气、读小说、导航播报等功能场景。

TTS（Text-To-Speech，语音合成）对比熟悉的ASR（语音识别）技术，是将文字转化为声音“朗读出来”，常见的Siri、小爱同学等语音助手的声音，都是TTS技术的“杰作”。

近日，思必驰DUI开放平台上线“声音复刻”技术服务，支持男声、女声、童声的复刻，支持中、英文文本，支持UTF-8等多种文本格式，支持SSML标签控制。同时，该服务支持8k、16k、32k等多种采样率，支持合成mp3、wav、pcm等多种音频格式……

快速定制专属音色

如果想用爱豆或亲人的声音做终端设备的语音播报，用户只需要录制≤5分钟语音内容，等待10分钟左右即可获得“专属音色”。

思必驰语音合成技术是如何通过少量的数据，训练出一个高还原度的声音模型呢？

思必驰TTS技术，基于多年累积的多说话人的声学特征，将新数据输入既有的模型参数里进行迁移学习和精调，通过20句录音等少量语料，就可训练出高相似度的声音模型。模型通过短时间训练完成“克隆”，保持了较高的MOS值（中文普通话场景下，相似度≥90%），还原度高。TTS技术上线DUI开放平台后，使用更便捷，提供API、SDK接入方式，满足标准化的服务要求。

技术的升级是渐进的，思必驰充分利用基于Attention的机制，及迁移学习技术，提升了声音复刻的效果，改善用户体验。受限于较少的数据量，如何保证稳定输出是训练模型时要面对的挑战。但在未来，少样本音色克隆仍是研究趋势。

复刻的声音还安全吗？

以智能语音技术的另一项黑科技——“声纹识别”来作为参照。人的“声纹”是类比指纹一样独一无二的存在，常被用作身份验证和解锁。常见的支付宝、微信的声音锁背后都是声纹技术。

“克隆”的声音可以 “瞒过”声纹唤醒吗？是否会有安全隐患？

常规声纹解锁，使用“复刻”的声音确实能解锁设备。但当思必驰在声纹技术中增加了反欺诈技术后，声音复刻便无法闯关带有防欺诈的声纹，安全性得到保障。

“克隆”专属声音，不仅是新鲜感、娱乐性，更是AI技术拓展应用惠及到了普通大众，能克隆出妈妈声音的音箱带给了孩子更多陪伴。

声音,技术,复刻,克隆,模型

--------------------------------------------------------------------THE END--------------------------------------------------------------------- 免责声明：本站转载的文章，版权归原作者所有；旨在传递信息，不代表本站的观点和立场。

10分钟“复刻”专属音色， 思必驰TTS技术如何练成的？

相关推荐