AI智能语音识别算法 下篇(人工智能语音识别算法) 人工智能 语音识别 第1张

一、神经网络

 AI智能语音识别算法 下篇(人工智能语音识别算法) 人工智能 语音识别 第2张

当前常用的语音识别框架如下图

 AI智能语音识别算法 下篇(人工智能语音识别算法) 人工智能 语音识别 第3张

其背后的逻辑是

 AI智能语音识别算法 下篇(人工智能语音识别算法) 人工智能 语音识别 第4张

在特征提取时采用的神经网络里面的DNN技术

 AI智能语音识别算法 下篇(人工智能语音识别算法) 人工智能 语音识别 第5张

DNN技术可以分为两种,一种是CNN模型,一种是RNN模型

 AI智能语音识别算法 下篇(人工智能语音识别算法) 人工智能 语音识别 第6张

 AI智能语音识别算法 下篇(人工智能语音识别算法) 人工智能 语音识别 第7张

二、解码器

解码器信息来源于声学模型、词典、语言模型。框图如下:

 AI智能语音识别算法 下篇(人工智能语音识别算法) 人工智能 语音识别 第8张

2.1 声学模型

常用的声学模型为GMM-HMM,即混合高斯模型-隐马尔科夫模型

HMM模型对时序信息进行建模,在给定HMM的一个状态后,GMM对属于该状态的语音特征向量的概率分布进行建模。

2.2 词典

字典:就是发音字典,中文中就是拼音与汉字的对应,英文中就是音标与单词的对应

用途:

根据声学模型识别出来的音素,在字典中来找到对应的汉字(词)或者单词,用来在声学模型和语言模型建立桥梁,将两者联系起来。

比方如下词语的映射表:

 AI智能语音识别算法 下篇(人工智能语音识别算法) 人工智能 语音识别 第9张

2.3 语言模型

语言模型是针对某种语言建立的概率模型,是用来计算一个句子的概率的概率模型。

划分以下两种:

2.3.1 N元统计语言模型:N-gram模型、平滑化

 AI智能语音识别算法 下篇(人工智能语音识别算法) 人工智能 语音识别 第10张

2.3.2 神经网络语言模型:

 AI智能语音识别算法 下篇(人工智能语音识别算法) 人工智能 语音识别 第11张

与统计语言模型不同的是,神经网络语言模型不通过计数的方法对nn元条件概率进行估计,而是直接通过一个神经网络对其建模求解。

用途:

1、决定哪一个词序列的可能性更大

2、已知若干个词,预测下一个词

例子:

1、I went to a party.

Eye went two a bar tea.

2、你现在在干什么?

转载请说明出处
知优网 » AI智能语音识别算法 下篇(人工智能语音识别算法)

发表评论

您需要后才能发表评论