Select Language

AI社区

AI技术百科

声学模型 acoustic mode

在这个模块,我们会讨论语音识别引擎里的声学(acoustic)模型。在今天的主流语音识别系统中,声学模型是一个混合(hybrid)模型,它包括用于序列跳转的隐马尔可夫模型(HMM)和根据当前帧来预测状态的深度神经网络。HMM是用于建模离散时间序列的常见模型,它在语音识别中已经使用了几十年了。

在研究HMM之前,我们先简单的回顾一下马尔科夫链。马尔科夫链是建模随机过程的一种方法。在马尔科夫链里,离散的事件通过一些状态来建模。状态之间的跳转是通过一个随机过程来控制。

让我们来看一个例子。对于一个预测天气的应用,状态可能是”Sunny(s)”, “Partly Cloud(p)”, “Cloudy(c)”, 和”Raining(r)”。如果我们像计算一个5天的天气预报,比如P(p,p,c,r,s),我们可以使用贝叶斯公式来把联合概率分解成一系列条件概率:

p(X1,X2,X3,X4,X5)=p(X5|X4,X3,X2,X1)p(X4|X3,X2,X1)p(X3|X2,X1)p(X2|X1)p(X1)

我们假设这是一阶马尔科夫模型,也就是某一天的天气只依赖于前一天的天气,也就是:

p(Xi|X1,,Xi1)=p(Xi|Xi1)

使用上面的一阶假设,上面的概率可以简化为:

p(X1,X2,X3,X4,X5)=p(X5|X4)p(X4|X3)p(X3|X2)p(X2|X1)p(X1)=p(X1)i=25p(Xi|Xi1)

因此,马尔科夫链的关键元素是状态的定义以及它们之间的跳转概率p(Xi|Xi1)

——它表示的从一个状态跳转到另外一个状态(包括自己)的概率。

比如,天气预报的马尔科夫链可能如下图所示:

图:马尔科夫链

注意:除了跳转概率p(Xi|Xi1)

,我们还需要知道初始状态的概率分布p(X1)

。我们假设初始状态的分布为:

p(p)=πp,p(c)=πc,p(r)=πr,p(s)=πs

有了状态的跳转概率和初始状态的概率,我们就可以计算P(p,p,c,r,s):

p(p,p,c,r,s)=p(s|r,c,p,p)p(r|c,p,p)p(c|p,p)p(p|p)p(p)=p(s|r)p(r|c)p(c|p)p(p|p)p(p)


我要发帖
百科知识
2021-05-11 23:49:38加入圈子
  • 68

    条内容
提供人工智能的一些知识分享,涉及AI算法、应用、数据、模型等内容