当前位置:首页 > 在线教育 > 语音信号处理_语音信号处理图片

语音信号处理_语音信号处理图片

第一次体验语音识别

1。概述

——语音作为最自然的人机交互方式,正在改变着人们的生活,丰富着多媒体技术的应用。语音识别技术是语音信号处理的一个重要分支,也是近年来的研究热点。随着科学技术的飞速发展,语音识别不仅广泛应用于台式PC和大型工作站,在嵌入式系统中也有一席之地,如智能家居、语音助手、车载语音识别系统等。相信在不久的将来,语音识别技术一定会渗透到人们生活的各个角落。

2.语音识别系统的分类

语音识别根据说话人的说话风格可以分为孤立词识别、连接词识别和连续语音识别。孤立词识别是指说话人一次只说一个词或短语,每个词或短语都被算作词汇表中的一个条目,一般用于语音电话拨号系统。连接语音识别支持一个小的语法网络,内部形成一个状态机,可以实现对简单家用电器的控制,而复杂的连接语音识别系统可以用于电话语音查询、航空订票等系统。连续语音识别指的是说话人日常自然的发音,通常被称为语音输入的听写机。

从识别对象的类型来看,语音识别可分为SpeakerDependent语音识别和Speaker Independent语音识别。特定人是指只对一个用户进行语音识别,而非特定人可以对不同的用户使用。

从公认的词汇量大小来看,可分为小词汇量(100字以内)、中词汇量(100~500字)和大词汇量(500字以上)。

独立大词汇量连续语音识别是近年来研究的重点和难点。目前,连续语音识别大多基于HMM(隐马尔可夫模型)框架,并引入声学和语言学知识对该框架进行改进。它的硬件平台通常是功能强大的工作站或PC。

三。语音识别原理

语音识别是对麦克风输入的语音信号进行分析和理解,并转换成相应的文本或命令。

一个完整的语音识别系统主要包括三个部分:

  1. 语音特征提取(前端处理部分):目的是滤除各种干扰成分,从语音波形中提取出能够代表语音内容随时间变化的特征向量序列。
  2. 声学模型和模式匹配(识别算法):声学模型通常是通过训练从获取的语音特征中生成的,目的是为每个发音建立一个发音模板。在识别中,将输入的语音特征与声学模型进行匹配和比较,以获得最佳的识别结果。
  3. 语义理解(后处理):计算机对识别结果进行语义和语法分析,理解发音的含义从而做出相应的反应,通常通过语言模型来实现。

语音识别的原理如下图所示:

待识别的语音通过麦克风转换成电信号后加入到识别系统的输入端。预处理后,提取语音特征,用反映语音信号特征的几个参数来表示原始语音。常用的语音特征包括线性预测系数(LPC)、线性预测倒谱系数(LPCC)、梅尔谱系数(MFCC)等。

接下来分为两个阶段:训练阶段和认可阶段。

  • 在训练阶段,对以特征参数形式表达的语音信号进行相应处理,得到代表所识别的基本单元共同特征的标准数据,用于形成参考模板,将所有可识别的基本单元的参考模板组合在一起,形成参考模式库;
  • 在识别阶段,待识别的语音信号经过特征提取后,按照一定的原理与参考模式库中的每个模板一一匹配,找到最相似的参考模板对应的发音,即为识别结果。

最后是语音处理,涉及语法分析、语音理解、语义网络等。

在语音识别过程中 语音识别中使用的模式匹配方法主要有动态时间扭曲(DTW)、隐马尔可夫模型(HMM)和人工神经网络(ANN)。

4.难点

识别率是衡量语音识别系统性能的重要指标。在实际应用中,识别率主要受以下因素影响:

  1. 对于汉语语音识别,方言或口音会降低识别率;
  2. 背景噪音。公共场所的强噪声对识别效果影响很大。即使在实验室环境中,敲击键盘和移动麦克风也会成为背景噪音。
  3. “英语口语”问题。它涉及自然语言理解和声学。语音识别技术的最终目标是让用户像“人与人的对话”一样自然。然而,一旦用户通过与人交谈的方式输入语音,口语中语法不规则、语序异常的特点会给语义分析和理解带来困难。
  4. 此外,识别率还与说话人的性别、说话时间等有关。
  5. 实时性是衡量语音识别系统性能的另一个指标。对于具有高速计算能力和大容量内存的PC,基本可以满足实时性要求。对于资源有限的嵌入式系统,实时性很难得到保证。

:href="//" target=" _ blank " title=" id=" back hohucom " style=" white-space : nowrap;"

中共鄂尔多斯市委员会政策研究室

扫描二维码推送至手机访问。

版权声明:本文由ABC留学网提供发布,如需转载请注明出处。

本文链接:https://www.jumpabc.net/zaixianjiaoyu/32179.html

分享给朋友: