语音识别技术两度识别揭秘，准确率再升级！-明氏下载站

语音识别技术，作为人工智能领域的重要分支，涵盖了声学模型和语言学模型两大核心部分。声学模型主要负责将声音特征识别为具体的因素，现在多采用LSTM进行声学建模，效果较好。而语言学模型则负责将识别出的因素转换为具体的语言，无论是英文还是中文，一般使用的是n-gram技术。

关于语音识别的具体过程，主要包括以下几个阶段：

一、语音信号采集

语音信号采集是语音处理的前提。声音通过话筒进入计算机，被转换为电压信号。此后，A/D装置（如声卡）进行采样，将连续的电压信号转化为计算机能处理的数字信号。如今，声卡是计算机处理语音信息的关键部件，它具备信号滤波、放大、A/D和D/A转换等功能。操作系统附带的录音软件可驱动声卡采集语音信号并保存为语音文件。

二、语音信号预处理

采集完的语音信号需要进行一系列预处理，包括滤波、A/D变换、预加重和端点检测。滤波的主要目的是抑制超出频率范围或电源工频干扰的信号。A/D变换则将模拟语音信号转换为数字信号，在此过程中会产生量化误差。预加重处理的目的是使信号的频谱更为平坦，便于频谱分析。端点检测则是从包含语音的一段信号中确定语音的起点和终点，有效的端点检测能减少处理时间并排除无声段的噪声干扰。

三、语音信号的特征参数提取

为了从语音信号中抽取有助于识别单词的特征信息，需采用线性预测编码技术。此技术的核心思想是语音信号采样点之间存在相关性，可用过去的若干采样点的线性组合来预测当前和未来的采样点值。这些线性预测系数作为语音信号的特征参数，已广泛应用于语音处理各个领域。

四、向量量化

向量量化是一种数据压缩和编码技术，经过向量量化的特征向量可作为隐马尔可夫模型中的输入观察符号。它将若干个标量数据组成一个向量，在多维空间进行整体量化，以在信息量损失较小的情况下压缩数据量。

除了上述的语音识别过程，模板匹配法也是语音识别的一种常见方法。在训练阶段，用户会将词汇表中的每个词依次说出，并将其特征向量存入模板库。

语音识别技术中的随机模型法与概率语法分析法

随机模型法是当前语音识别研究的主流，其中隐马尔可夫模型尤为突出。语音信号在短时间内的特征稳定性可以通过隐马尔可夫模型以概率统计的方式描述。

概率语法分析法应用于大长度范围的连续语音识别。虽然不同人的语音语谱图有差异，但存在一些“区别性特征”。结合语音学家提出的这些特征以及词法、语法、语义等语用约束，可以构建一个知识系统以提高语音识别的性能。

高性能汉语数码语音识别算法简述

李虎生等人提出了一种高性能的汉语数码语音识别（MDSR）系统。该系统采用Mel频标倒谱系数（MFCC）作为主要语音特征参数，并提取共振峰轨迹和鼻音特征以区分易混语音。为减少系统资源需求和提高抗干扰能力，系统采用基于语音特征的实时端点检测算法。通过两级的识别框架，第一级识别确定候选结果，第二级识别区分易混语音对，使得MDSR系统的识别率达到了98.8%。

MDSR系统成功实施了一系列高性能的语音识别算法，使其识别率达到了98.8%。系统的识别框图如图1所示。

MDSR系统的语音前端处理包括两个部分：语音特征提取和端点检测。在语音特征提取中，主要识别参数包括MFCC及其一阶差分参数、共振峰轨迹、鼻音特征参数等。其中，MFCC参数已被实验证明能有效提高系统识别率。

针对共振峰轨迹，通过峰值选取算法提取共振峰轨迹以区分易混淆语音如“2”和“8”。对于鼻音特征，汉语数码语音中“0”的元音具有鼻音特征，这一特征可以用于提高“0”的识别率。鼻音特征参数包括低频能量比和频谱质心。

对于端点检测，提出了基于语音特征的实时端点检测算法（FRED）。该算法充分利用了汉语数码语音的特点，在实时提取特征参数后完成端点检测。该算法的特点在于，它利用语音的本质特征进行端点检测，能很好地适应环境变化和干扰，并有效提高识别率。FRED算法能将语音端点定在帧的量级上，实现特征参数的实时提取，节省系统运行时间并减少存储量。

在识别算法方面，MDSR的识别错误主要集中在少数几对易混淆的语音中。采用了两极识别框架，第一级完成识别结果的初步确定，第二级完成对易混淆语音的进一步辨识。第一级识别采用DHMM算法计算各个数码语音模型产生采入语音的概率Pr。

由于HMM模型存在人为假设的缺陷，所以在应用中需要结合实际情况进行进一步优化和调整。MDSR系统通过高效的算法和框架设计，实现了高识别率的汉语数码语音识别。

图1 MDSR系统框图

1. 语音前端处理

语音前端处理主要包括语音特征提取和端点检测。

1.1 语音特征提取

包括基本识别参数（MFCC及其一阶差分参数）、共振峰轨迹、鼻音特征参数等。

1.2 端点检测

采用FRED算法，基于语音特征进行实时端点检测。该算法充分利用汉语数码语音特点，能有效适应环境变化和干扰，提高识别率。

2. 识别算法

针对MDSR（数字语音识别系统）的识别性能提升，本文提出了一系列优化策略并进行了实验验证。

文章指出在第一级识别中，状态持续时间的分布不符合实际情况，因此采用Γ分布来描述状态持续时间，以提高识别性能。利用Viterbi算法修正状态路径中的概率。实验证明，这一改进显著提高了系统的识别性能。

在第二级识别中，主要关注的是对第一级识别错误的纠正。分析发现，大部分错误集中在少数几对易混语音中。文章提出利用表征各对易混语音区分特征的参数进行规则判决，并在局部使用HMM进行再识别。实验结果表明，这种方法能够显著提高系统的整体性能。

在实验中，文章使用了包含160人的语音库进行测试，并逐步引入了所提出的各种方法，以评估其对系统识别率的贡献。最终，通过采用一系列优化策略，系统的识别率达到了98.8%。

结论部分总结了本文的主要贡献和特点。采用了两极识别框架，增强了系统对易混语音的区分能力。利用汉语数码语音的语音学知识，提高了端点检测的抗干扰能力，并提取了用于区分易混语音的声学特征。各算法所需的运算量和存储量都较小，有利于MDSR在DSP系统上的实现。

本文提出的优化策略有效地提高了MDSR系统的识别性能，并实现了一个高性能的MDSR系统。基于国家自然科学基金项目等资助，李虎生等人在清华大学电子工程系进行汉语数码语音识别研究。他们面临的问题是语音搜索中的重复回复现象，这通常是由于语音输入不标准所致。为了提高识别性能，研究人员提出使用共振峰轨迹方法。在进行语音搜索时，建议尽量使用标准普通话，并清晰地表述搜索问题，以获取最贴切的答案。参考文献包括关于汉语数码语音识别、语音信号数字处理以及实验语音学的经典著作和论文。在进行语音输入时，应尽可能保持发音清晰和标准，以确保语音识别的准确性。