无需蝴蝶结变声器也能一秒变柯南——语音组成+深度学习（柯南蝴蝶结变声器制作）-人工智能-知优网

相信看过《名侦探柯南》的小伙伴，都会对柯南身上五花八门的黑科技“保命神器”记忆犹新吧。其中最被人熟知的，当属蝴蝶结变声器了。近年来，随着科技的发展，这种神奇的蝴蝶结变声器也已成为现实了。

【51CTO.com原创稿件】信任看过《名侦察柯南》的小伙伴，都会对柯南身上形形色色的黑科技“保命神器”浮光掠影吧。它们不单陪着柯南收支各种案发现场，帮忙破案，关键时刻还能帮柯南转危为安，逃出世天。而这其间最被人熟知的，当属蝴蝶结变声器了。近年来，跟着科技的开展，这种奇特的蝴蝶结变声器也已成为实际了。今日，就让小编带您一同去探求下它是怎么完结的吧！

语音组成的三个部分

简略来说，语音组成分为文本剖析、韵律剖析和声学剖析三个部分。经过文本剖析提取出文本特征，在此基础上猜测基频、时长、节奏等多种韵律特征，然后经过声学模型完结从前端参数到语音参数的映射。

语音组成的两种办法

语音组成首要选用波形拼接组成和核算参数组成两种办法。

波形拼接语音组成的进程很简单了解，即在语料库中抽取适宜的拼接单元，拼接成为语句。而参数语音组成则需求对音库进行参数化建模，依据练习得到的模型猜测出韵律参数和声学参数。

通常状况下，波形拼接语音组成需求对录音人进行长达几十个小时以上的录音收集，而参数语音组成则只需求十个小时的录音收集，即可完结一套定制化语音包的制造。

归纳比照来看，拼接组成的语音愈加靠近实在发音，但波形拼接语音组成需求有满意的高质量发音人录音才能够组成高质量的语音；核算参数语音组成尽管全体组成质量略低，可是在发音人语料规划有限的条件下，优势更为显着。

深度学习下的语音组成

近年来，深度学习已成为AI范畴的当红辣子鸡，不单开展势头迅猛，所触及范畴也越发广泛，无论是学术研讨仍是企业运用均呈现出指数级增加的趋势；伴跟着这项技能的不断老练，深度学习对智能语音范畴也发生巨大的冲击，极大的逾越了传统的语音组成技能。

1.传统的根据DNN/LSTM的组成

传统的根据HMM核算参数的语音组成是在练习进程中树立文本参数与声学参数之间的映射模型，经过高斯混合模型描绘每个建模单元。在建模进程中有三个环节会导致语音音质下降，第一是决策树的聚类，第二是声码器，第三是参数生成算法。针对决策树聚类问题，能够经过深层神经网络树立文本特征和声学特征之间的映射联系，代替传统的浅层模型，进步模型精度；比较典型的深层神经网络模型结构包含深层相信神经网络和长短时记忆递归神经网络；后者具有更强的序列学习才能，选用BLSTM-RNN建模时，还能够越过参数生成算法直接猜测语音参数，最终经过声码器就能够组成语音；总的来说，运用深层神经网络强壮的非线性建模才能，在必定程度上提升了语音组成体系的功能，可是并没有跳出原有的语音组成体系结构。

2. 根据WaveNet的组成

在已有的研讨中，很少有人会直接在时域上对已有音频建模。从直觉上剖析，构建一个自回归模型，能够猜测每一个samples是怎么被前面一切的samples所影响的，是一个适当艰巨的使命。谷歌提出的根据WaveNets的语音组成办法，跳出了传统语音组成结构，绕开声码器模块，直接对采样点进行猜测，面临这个充溢应战的问题，取得了打破。

WaveNet语音组成体系的输入包含文本特征以及从前时段的音频采样点。其间文本特征的有用表述起到非常重要的作用。假如在没有文本序列的状况下来练习网络，依然能够生成语音，可是无法听懂输出音频的内容。WaveNet语音组成体系存在的问题是模型每次输出单个采样点，核算功率难以满意有用要求。能够引进一些自适应的办法对已有模型进行优化，使其能够适用于不同发音人。也能够在模型的输入端供给更多的信息，例如情感或口音，这样使得生成的语音能够更多样化，更具表现力。

3.根据DeepVoice的组成

2017 年 2 月，百度研讨部分提出了深度语音（Deep Voice）体系，该体系是一个完全由深度神经网络构建的高质量文本转语音体系。

它将里边的许多模块用深度神经网络去完结，经过相似于WaveNet的组成器来组成，作用也是比较抱负的。已有的语音组成体系会在某些环节上选用深度学习，但在Deep Voice之前，没有团队选用全深度学习的结构。传统语音组成需求进行很多的特征处理和特征构建，但百度经过运用深度学习避免了这些问题。这使得 Deep Voice 的运用规模愈加广泛，运用起来也愈加便利。假如需求运用于新的数据集，传统的语音组成体系完结从头练习需数天到数周的时刻进行调理，而对Deep Voice进行手动操作和练习模型所需的时刻只需几个小时就满意。比较于WaveNet语音组成体系，现在这个体系的有用速度提升了400倍。

4.两个端对端的语音组成

第一个是Char2Wav，这个模型是直接对输入的文本进行编码，选用encoder-decoder模型。对输入特征进行编码，然后生成的中心编码信息放到解码器里进行最终的组成，组成选用SimpleRNN的组成器来组成语音，作用也是比较抱负的，并且是典型的End-To-End的语音组成模型。

再一个是谷歌提出的端对端的语音组成体系Tacotron，它跟Char2Wav比较相似，该模型可接纳Embeddings的输入，输出相应的原始频谱图，然后将其供给给 Griffin-Lim 重建算法直接生成语音。组成的作用也比较理性。

测验成果上，组成作用也比较抱负：Tacotron 在美式英语测验里的均匀片面定见评分达到了 3.82 分（总分是 5 分），在天然感（naturalness）方面优于已在生产中运用的参数体系（parametric system）。此外，因为 Tacotron 是在帧（frame）层面上生成语音，所以它比样本级自回归（sample-level autoregressive）办法快得多。

好了，说了这么多，你是否对树立在深度学习基础上的语音组成技能有了更进一步的了解呢？其实，现在咱们已可在许多范畴娴熟的运用这一技能了：在AI推手此前说到的纪录片《发明我国》中，节目负责人就成功组成了“年代之音”李易教师的声响；百度也曾在建议的“独具匠心”的张国荣诞辰60周年留念活动中，组成出张国荣生前的声响，并在张国荣最新电影《缘分》开场前初次发布对话实录视频，完结了粉丝与偶像“互动”的希望，以特别的办法，留念一代天王。。。。

语音组成技能的不断开展，一方面突显了科技开展的重要性，一方面也为咱们的日常日子带来了很多惊喜~

【51CTO原创稿件，协作站点转载请注明原文作者和出处为51CTO.com】