根据线性网络的语音组成说话人自适应-人工智能-知优网

一种基于低秩分解（low-rank plus diagonal，LRPD）的模型压缩算法被应用于线性网络。实验发现，当数据量较少的时候，通过LRPD来移除一些冗余的参数，从而能够使得系统合成的声音更加稳定。

【51CTO.com原创稿件】说话人自适应算法运用说话人少数语料来树立说话人自适应语音组成体系，该体系可以组成令人满意的语音。在本文中，咱们提出了依据线性网络的语音组成说话人自适应算法。该算法对每个说话人学习特定的线性网络，然后取得归于方针说话人的声学模型。经过该算法，运用200句方针说话人的自适应语料练习的说话人自适应体系可以取得和运用1000句练习的说话人相关体系附近的组成作用。

研讨布景

关于一个方针说话人，假如他（她）具有足够的练习数据，那么咱们便可以树立一个说话人相关的声学模型，依据该声学模型的体系称之为说话人相关的语音组成体系。运用该体系，咱们可以组成和方针说话人声响很像的语音。可是，大多数时分，方针说话人没有足够的数据，这使得组成出来的语音作用不太抱负。运用说话人自适应算法，可以依据比较有限的数据来取得较好的语音组成体系，该类算法节省了很多的录音、转录和检查工作，使得树立新的声响的价值变得很小。

本文中，咱们提出了依据线性网络（Linear Network, LN）的语音组成说话人自适应算法。该算法经过在源说话人声学模型的层间刺进线性网络，然后运用方针说话人的数据来更新该线性网络和神经网络的输出层，然后可以取得归于方针说话人的声学模型。别的，一种依据低秩分化（low-rank plus diagonal，LRPD）的模型紧缩算法被应用于线性网络。试验发现，当数据量较少的时分，经过LRPD来移除一些冗余的参数，然后可以使得体系组成的声响愈加安稳。

算法描绘

本文中，源说话人声学模型是一个依据多任务（multi-task）DNN-BLSTM的声学模型，见Fig. 1左边。声学模型的输入为语音学特征，输出为声学特征。声学特征包含梅尔倒谱系数等。试验证明，在声学模型的底层运用深层神经网络（Deep Neural Network，DNN）可以取得更好的底层特征，而且收敛速度上比较于不运用DNN更快。在输出层上，不同的声学特征运用各自的输出层，它们仅同享声学模型的隐层。

依据线性网络的自适应算法首要被提出于语音辨认范畴，它的体系结构见Fig. 1右侧。依据线性网络刺进的方位不同，它可以被分为线性输入网络（Linear Input Network，LIN）、线性隐层网络（Linear Hidden Network，LHN）和线性输出网络（Linear Output Network，LON）。

试验

本文提出的算法，在中文数据集上进行试验，该数据集包含3个说话人，每个说话人有5000句话，时长约5h。数据会集语音的采样率为16k，特征提取中的窗长和窗移别离为25ms和5ms。别离用A-male、B- female和C-female来命名这三个说话人。本试验中，源说话人声学模型练习进程所运用的语句数为5000。为了比照不同语句数目下的组成作用，方针说话人的自适应数据集对应的语句数从50到1000不等。在自适应数据集之外，咱们取200句话作为开发集，取20句话作为测验集（用于片面打分）。为了剖析性别对自适应作用的影响，进行了三对源说话人-方针说话人之间的试验：女生-女生、男生-女生和女生-男生。别的，运用客观衡量和片面测听两种方法来衡量模型的功能。客观衡量首要包含：Mel-Cepstral Distortion (MCD)、root mean squared error (RMSE) of F0、unvoiced/voiced (U/V) prediction errors和开发集的MSE。片面测听首要是对体系组成的声响样本进行天然度和类似度上的打分——mean opinion score (MOS) 。

以女生-女生（C-female – B-female）为例，Fig. 3显现了不同自适应语句数目和客观衡量之间的联系曲线图。其间，SD表明说话人相关体系，OL表明只更新源说话人声学模型输出层的说话人自适应体系，OL+Full-LN和OL+LRPD-LN别离表明依据Full-LN和LRPD-LN的说话人自适应体系。依据Fig. 3，跟着练习/自适应语句数的添加，一切体系间的客观衡量趋于附近。比照SD和别的三个自适应体系，自适应体系的功能在相同语句数目下要更优。别的，OL+LRPD-LN和OL+Full-LN比较于OL均呈现功能上的跳变（进步），阐明只更新输出层而不对其他层进行更新不可以得到较好的自适应作用。一起，当自适应语句数较少的时分，OL+Full-LN在客观功能上要差于OL+LRPD-LN，这是由于OL+Full-LN引进太多的参数量，呈现过拟合问题。反之，在语句数多的时分OL+Full-LN在客观功能上要优于OL+LRPD-LN，此刻OL+LRPD-LN由于参数量少，呈现欠拟合问题。

Fig. 4上比照了不同体系间的天然度和类似度。跟着语句数的削减，SD体系的功能呈现急剧下降，OL+LRPD-LN比较于SD和OL+Full-LN要愈加安稳。与客观衡量共同，在相同语句数下，OL+Full-LN和OL+LRPD-LN在功能上要优于SD。而且，OL+Full-LN和OL+LRPD-LN在200句话的功能和SD在1000句话时的功能附近。与客观衡量不同，OL+LRPD-LN在500句以下的时分功能上就优于OL+Full-LN。这是由于过拟合导致组成出来的声响不安稳（尽管客观衡量更优）声响的可懂度下降导致的。由此，咱们仍然可以得到相同的定论：当自适应语句数较少的时分，过拟合使得OL+Full-LN的功能变差。

定论

本文中，依据线性网络的说话人自适应算法被应用于语音组成范畴，依据LRPD的模型紧缩算法可以进步声响的安稳性。经过三对不同的源说话人-方针说话人的试验，咱们发现，当自适应语句数目十分少的时分，LRPD可以进步声响的安稳性。别的，经过提出的算法，运用200句方针说话人的练习语料练习的说话人自适应体系可以取得和运用1000句练习的说话人相关体系附近的作用。

【本月排行***0】