长久以来,传统的语音合成技术,主要围绕着统计参数合成和拼接合成展开,两种方法虽各有利弊,但基本满足了可懂度的要求,语音合成技术得以在多种场景下应用,尤其是导航播报这样的强需求场景。
最近几年,基于深度学习的语音合成技术快速发展,语音合成系统中的模型逐步被深度学习模型所替代。
尤其是 2016 年,随着 wavenet 技术的问世,将参数合成技术带入了一个新的阶段。神经网络声码器的合成效果,逐步接近拼接合成的音质,而其流畅度明显好于拼接合成。从 wavenet,parallel wavenet,到 waveglow, wavernn 等, 神经网络声码器技术持续进步,算法复杂度不断下降,逐渐让工程化应用成为可能。
标贝科技,一直密切关注语音合成技术的演化,分析技术变革所带来的需求场景的可能的变化,充分结合自身的技术优势,投入到新技术的研发当中。
标贝科技所研发的语音合成相关模型,都是采用 TensorFlow 框架进行实现的。模型的训练情况,也是通过 TensorBoard 进行分析,从而进行优化。越来越复杂的模型,固然有其优势,但同时也产生了一些不稳定的因素,通过对模型的可视化分析,我们进行了一系列的改进,从而使得模型效果不断提升。
TensorFlow 是目前应用最为广泛的开源深度学习框架,不但提供了一些列底层实现,而且提供了很多高级功能,非常便于开展实验研究,快速发现和解决问题。
通过利用 TensorFlow,我们可以快速验证相关的算法,并进行改进,大大缩短了技术开发周期,降低了研发成本和风险 — 将输入维度从数万维降为数十维,并且降低了运算量。
同时,利用自有的技术和数据资源, 研发了一种基于 Attention 的高质量语音合成系统,通过利用 TensorFlow 搭建的训练平台对声音建模后,合成效果有了明显提升 — 更自然的抑扬顿挫、情感起伏,逼真度也有了进一步提升。
本次利用 TensorFlow 模型对合成系统的全新升级,标贝科技以 “声音超市” 的模式,对外提供一系列的语音合成解决方案。新的合成效果以及推广模式都已经得到广大合作伙伴的认可,行业影响力快速提升,成为了语音合成领域的知名企业。
同时,标贝科技利用新型合成技术进行了一次大胆的尝试 — 合成娱乐明星、知名 IP 的声音,直接用成果面对更大的用户市场来检验技术和算法。
明星的声音是具有极高辨识性的,这个辨识性不单单是指声线的独特。观众和粉丝群体会对这个声音有很高的心理预期。从更像真人到更像本人,除了声音要相似外,还要符合明星本人的个性和发音习惯,这就意味着 “及格线” 提高了。
我们联合《创造101》的成员陈意涵、魏瑾,利用新技术合成出她们的声音,将端口放到活动页面中,用户输入任何文字,就能听她们 “亲口” 送上独一无二的专属话语。
本次尝试,让标贝科技在活动当天就登上了当天的微博热门话题,当天全网总曝光量达千万次,数百万人使用了这两位明星端口合成语音。除了收获好评外,本次活动也让标贝科技看到了广大的用户市场对于高质量语音合成技术的惊喜和更多期待。
未来,标贝科技会利用 TensorFlow 框架所带来的技术红利结合不同的应用场景,通过 “声音超市” 的模式进行技术的落地。对标贝科技来说,仅作为场景需求的解决方是不够的,应用场景有多宽广、语音合成未来能有多好玩,也需要技术人员天马行空的 “造梦”,才能为用户带来更好的声音体验。