用于语音组成的深度前馈序列回忆网络-人工智能-知优网

我们提出了一种基于深度前馈序列记忆网络的语音合成系统。该系统在达到与基于双向长短时记忆单元的语音合成系统一致的主观听感的同时，模型大小只有后者的四分之一，且合成速度是后者的四倍，非常适合于对内存占用和计算效率非常敏感的端上产品环境。

摘要

咱们提出了一种依据深度前馈序列回忆网络的语音组成体系。该体系在到达与依据双向长短时回忆单元的语音组成体系共同的片面听感的一起，模型巨细只要后者的四分之一，且组成速度是后者的四倍，十分适合于对内存占用和核算功率十分灵敏的端上产品环境。

研讨布景

语音组成体系首要分为两类，拼接组成体系和参数组成体系。其间参数组成体系在引进了神经网络作为模型之后，组成质量和天然度都获得了长足的前进。另一方面，物联网设备（例如智能音箱和智能电视）的很多遍及也对在设备上布置的参数组成体系提出了核算资源的约束和实时率的要求。本作业引进的深度前馈序列回忆网络能够在坚持组成质量的一起，有用下降核算量，进步组成速度。

用于语音组成的深度前馈序列回忆网络语音合成深度前馈序列记忆网络第1张

咱们运用依据双向长短时回忆单元（BLSTM）的核算参数语音组成体系作为基线体系。与其他现代核算参数语音组成体系相似，咱们提出的依据深度前馈序列回忆网络（DFSMN）的核算参数语音组成体系也是由3个首要部分组成，声响组成器（vocoder），前端模块和后端模块，如上图所示。咱们运用开源东西WORLD作为咱们的声响组成器，用来在模型练习时从原始语音波形中提取频谱信息、基频的对数、频带周期特征（BAP）和清浊音符号，也用来在语音组成时完结从声学参数到实践声响的转化。前端模块用来对输入的文本进行正则化和词法剖析，咱们把这些语言学特征编码后作为神经网络练习的输入。后端模块用来树立从输入的语言学特征到声学参数的映射，在咱们的体系中，咱们运用DFSMN作为后端模块。

深度前馈序列回忆网络

紧凑前馈序列回忆网络（cFSMN）作为规范的前馈序列回忆网络（FSMN）的改善版别，在网络结构中引进了低秩矩阵分化，这种改善简化了FSMN，减少了模型的参数量，并加快了模型的练习和猜测进程。

用于语音组成的深度前馈序列回忆网络语音合成深度前馈序列记忆网络第2张

上图给出了cFSMN的结构的图示。关于神经网络的每一个cFSMN层，核算进程可表明成以下过程①经过一个线性映射，把上一层的输出映射到一个低维向量②回忆模块履行核算，核算当时帧之前和之后的若干帧和当时帧的低维向量的逐维加权和③把该加权和再经过一个仿射改换和一个非线性函数，得到当时层的输出。三个过程可顺次表明成如下公式。

用于语音组成的深度前馈序列回忆网络语音合成深度前馈序列记忆网络第3张

与循环神经网络（RNNs，包括BLSTM）相似，经过调整回忆模块的阶数，cFSMN有才能捕捉序列的长程信息。另一方面，cFSMN能够直接经过反向传达算法（BP）进行练习，与有必要运用沿时刻反向传达算法（BPTT）进行练习的RNNs比较，练习cFSMN速度更快，且较不容易遭到梯度消失的影响。

对cFSMN进一步改善，咱们得到了深度前馈序列回忆网络（DFSMN）。DFSMN运用了在各类深度神经网络中被广泛运用的跳动衔接（skip-connections）技能，使得履行反向传达算法的时分，梯度能够绕过非线性改换，即便堆叠了更多DFSMN层，网络也能快速且正确地收敛。关于DFSMN模型，添加深度的优点有两个方面。一方面，更深的网络一般来说具有更强的表征才能，另一方面，添加深度能够直接地增大DFSMN模型猜测当时帧的输出时能够运用的上下文长度，这在直观上十分有利于捕捉序列的长程信息。具体来说，咱们把跳动衔接添加到了相邻两层的回忆模块之间，如下面公式所示。由于DFSMN各层的回忆模块的维数相同，跳动衔接可由恒等改换完结。

用于语音组成的深度前馈序列回忆网络语音合成深度前馈序列记忆网络第4张

咱们能够以为DFSMN是一种十分灵敏的模型。当输入序列很短，或许对猜测延时要求较高的时分，能够运用较小的回忆模块阶数，在这种情况下只要当时帧邻近帧的信息被用来猜测当时帧的输出。而假如输入序列很长，或许在猜测延时不是那么重要的场景中，能够运用较大的回忆模块阶数，那么序列的长程信息就能被有用运用和建模，然后有利于进步模型的功能。

除了阶数之外，咱们为DFSMN的回忆模块添加了另一个超参数，步长（stride），用来表明回忆模块提取曩昔或未来帧的信息时，越过多少相邻的帧。这是有依据的，由于与语音辨认使命比较，语音组成使命相邻帧之间的重合部分乃至更多。

用于语音组成的深度前馈序列回忆网络语音合成深度前馈序列记忆网络第5张

上文现已说到，除了直接添加各层的回忆模块的阶数之外，添加模型的深度也能直接添加猜测当时帧的输出时模型能够运用的上下文的长度，上图给出了一个比如。

试验

用于语音组成的深度前馈序列回忆网络语音合成深度前馈序列记忆网络第6张

在试验阶段，咱们运用的是一个由男性朗诵的中文小说数据集。咱们把数据集划分红两部分，其间练习集包括38600句朗诵（大约为83小时），验证集包括1400句朗诵（大约为3小时）。一切的语音数据采样率都为16k赫兹，每帧帧长为25毫秒，帧移为5毫秒。咱们运用WORLD声响组成器逐帧提取声学参数，包括60维梅尔倒谱系数，3维基频的对数，11维BAP特征以及1维清浊音符号。咱们运用上述四组特征作为神经网络练习的四个方针，进行多方针练习。前端模块提取出的语言学特征，合计754维，作为神经网络练习的输入。

咱们比照的基线体系是依据一个强壮的BLSTM模型，该模型由底层的1个全衔接层和上层的3个BLSTM层组成，其间全衔接层包括2048个单元，BLSTM层包括2048个回忆单元。该模型经过沿时刻反向传达算法（BPTT）练习，而咱们的DFSMN模型经过规范的反向传达算法（BP）练习。包括基线体系在内，咱们的模型均经过逐块模型更新过滤算法（BMUF）在2块GPU上练习。咱们运用多方针帧等级均方差错（MSE）作为练习方针。

一切的DFSMN模型均由底层的若干DFSMN层和上的2个全衔接层组成，每个DFSMN层包括2048个结点和512个投影结点，而每个全衔接层包括2048个结点。在上图中，第三列表明该模型由几层DFSMN层和几层全衔接层组成，第四列表明该模型DFSMN层的回忆模块的阶数和步长。由于这是FSMN这一类模型***应用在语音组成使命中，因而咱们的试验从一个深度浅且阶数小的模型，即模型A开端（留意只要模型A的步长为1，由于咱们发现步长为2一直稍好于步长为1的相应模型）。从体系A到体系D，咱们在固定DFSMN层数为3的一起逐步添加阶数。从体系D到体系F，咱们在固定阶数和步长为10,10,2,2的一起逐步添加层数。从体系F到体系I，咱们固定DFSMN层数为10并再次逐步添加阶数。在上述一系列试验中，跟着DFSMN模型深度和阶数的添加，客观目标逐步下降（越低越好），这一趋势十分显着，且体系H的客观目标超过了BLSTM基线。

用于语音组成的深度前馈序列回忆网络语音合成深度前馈序列记忆网络第7张

另一方面，咱们也做了均匀片面得分（MOS）测验（越高越好），测验成果如上图所示。片面测验是经过付费众包渠道，由40个母语为中文的测验人员完结的。在片面测验中，每个体系生成了20句集外组成语音，每句组成语音由10个不同的测验人员独立点评。在均匀片面得分的测验成果表明，从体系A到体系E，片面听感天然度逐步进步，且体系E到达了与BLSTM基线体系共同的水平。可是，虽然后续体系客观目标继续进步，片面目标只是在体系E得分的上下动摇，没有进一步进步。

定论

依据上述主客观测验，咱们得到的定论是，前史和未来信息各捕捉120帧（600毫秒）是语音组成声学模型建模所需求的上下文长度的上限，更多的上下文信息对组成成果没有直接协助。与BLSTM基线体系比较，咱们提出的DFSMN体系能够在获得与基线体系共同的片面听感的一起，模型巨细只要基线体系的1/4，猜测速度则是基线体系的4倍，这使得该体系十分适合于对内存占用和核算功率要求很高的端上产品环境，例如在各类物联网设备上布置。

原文链接：https://arxiv.org/abs/1802.09194

团队：阿里巴巴语音交互智能团队

作者：毕梦霄/Mengxiao Bi，卢恒/Heng Lu，张仕良/Shiliang Zhang，雷鸣/Ming Lei，鄢志杰/Zhijie Yan
会议：ICASSP-2018