“声音复刻”又称“声音克隆”,是语音合成技术(TTS ,Text To Speech)的个性化应用,用户可通过少量的录音进行模型训练,得到与用户本人在音色和发音风格上非常相似的声音模型,快速“复刻”个性化声音,该“复刻”声音可使用在讲故事、播天气、读小说、导航播报等功能场景。
TTS(Text-To-Speech,语音合成)对比熟悉的ASR(语音识别)技术,是将文字转化为声音“朗读出来”,常见的Siri、小爱同学等语音助手的声音,都是TTS技术的“杰作”。
近日,思必驰DUI开放平台上线“声音复刻”技术服务,支持男声、女声、童声的复刻,支持中、英文文本,支持UTF-8等多种文本格式,支持SSML标签控制。同时,该服务支持8k、16k、32k等多种采样率,支持合成mp3、wav、pcm等多种音频格式……
快速定制 专属音色
如果想用爱豆或亲人的声音做终端设备的语音播报,用户只需要录制≤5分钟语音内容,等待10分钟左右即可获得“专属音色”。
思必驰语音合成技术是如何通过少量的数据,训练出一个高还原度的声音模型呢?
思必驰TTS技术,基于多年累积的多说话人的声学特征,将新数据输入既有的模型参数里进行迁移学习和精调,通过20句录音等少量语料,就可训练出高相似度的声音模型。模型通过短时间训练完成“克隆”,保持了较高的MOS值(中文普通话场景下,相似度≥90%),还原度高。TTS技术上线DUI开放平台后,使用更便捷,提供API、SDK接入方式,满足标准化的服务要求。
技术的升级是渐进的,思必驰充分利用基于Attention的机制,及迁移学习技术,提升了声音复刻的效果,改善用户体验。受限于较少的数据量,如何保证稳定输出是训练模型时要面对的挑战。但在未来,少样本音色克隆仍是研究趋势。
复刻的声音 还安全吗?
以智能语音技术的另一项黑科技——“声纹识别”来作为参照。人的“声纹”是类比指纹一样独一无二的存在,常被用作身份验证和解锁。常见的支付宝、微信的声音锁背后都是声纹技术。
“克隆”的声音可以 “瞒过”声纹唤醒吗?是否会有安全隐患?
常规声纹解锁,使用“复刻”的声音确实能解锁设备。但当思必驰在声纹技术中增加了反欺诈技术后,声音复刻便无法闯关带有防欺诈的声纹,安全性得到保障。
“克隆”专属声音,不仅是新鲜感、娱乐性,更是AI技术拓展应用惠及到了普通大众,能克隆出妈妈声音的音箱带给了孩子更多陪伴。
声音,技术,复刻,克隆,模型