通俗的讲解语音识别技术

今天给各位分享通俗的讲解语音识别技术的知识，其中也会对通俗的讲解语音识别技术进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文导读目录：

　　语音识别技术是指机器自动将人的语音转成文字的技术，又称自动语音识别 (Automatic Speech Recognition, ASR）技术。行业内常用“语音识别”来代指自动语音识别，后文都将使用这一代称。　　语音识别按实际应用场景主要分为近场语音识别和远场语音识别。　　近场语音识别主要指手持产品这种场景，比如手机上的语音智能产品——讯飞输入法的语音输入功能，可拾音距离＜1m，正常拾音距离范围≤10cm。　　近场语音识别流程，以讯飞输入法的语音输入为例：在近场识别中，用户是可以手动来对语音产品进行操控的，大概的流程如下：用户手动单击开始说话按钮→打开麦克风→交互界面显示出话筒和说话界面→产品系统同时开始检测人声→接收用户语音开始识别→若没有检测到声音或者声音连续x秒截止→检测识别流程结束。　　近场语音识别交互流程图如图1-1所示。图1 近场语音识别交互流程　　远场语音识别主要指“使用麦克风阵列前端处理算法”这种场景，可拾音距离一般≤10m，正常拾音距离范围为1m~5m。　　远场语音识别相对于近场语音识别的区别在于：远场语音识别需要借助语音激活检测(Voice Active Detection, VAD）和语音唤醒(Voia Trigger, VT) 在近场语音识别中，用户是单击按钮后才开始说话的，单击操作起到了VT的放果，同时由于信噪比比较高，可以不需要借助VAD，通过简单的算法便可判断出是否有语音。　　从用户的角度来说，真正意义上的语音识别是可以解放双手语音输入的，因此我们一般认为远场语音识别才是未来真正的人机交互方式。图2 远场语音识别交互过程　　人工智能语音识别技术通过这几十年的发展，尤其是深度学习技术的大举应用，语音识别流程结构进行了一次重大的变化。　　1990年到2010年，传统语音识别流程主要包含如下4个步骤：预处理、编码、解码、输出识别结果。图3 传统语音识别流程　　2010年后，由于深度学习大火，并且在图像和语音领域取得了很大的成果，使得深度学习语音识别成为主流语音识别方式。深度学习语音识别其实就是使用深度神经网络模型替换传统语音识别的各节点的步骤，以此通过更简洁的方式获取识别结果，并提高识别成功率。深度学习语音识别主要有以下几种形式: 　　2.2.1 Tandem结构　　基于DNN+FIMV+GMM(深度神经网络+隐马尔科夫模型＋混合高斯模型）的Tandem结构的语音识别技术出现在2011年前后。　　相对于传统语音识别，在Tandem结构中，我们使用DNN来提取特征。针对DNN的输入可以是 “连续若干帧的滤波器组输出”或“语音信号波形”，输出是上下文有关因素的分布。这其实就是一个多分类的问题，如果上下文有关的因素有上千个，那么这就是一个千分类问题。因为DNN是监督学习，所以它需要目标输出值或者标签，通常这个标准答案是由GMM-FIMM获得的。我们训练好DNN模型之后，从DNN的隐含层获取声学特征。传统的声学特征提取为13维的MFCC序列，我们在DNN中设置一个维度比较小的层，通常也就几十维，并以它作为语音信号的输出，得到的特征就可以代替MFCC序列。使用DNN来提取特征，其优点在于DNN的输入可以采用连续的帧，因而可以更好地利用上下文的信息，以提升识别成功率。图4 Tandem结构深度学习语音识别流程　　2.2.2 Hybrid结构　　基于DNN+HMM（深度神经网络+隐马尔科夫模型）的Hybrid结构的语音识别出现在2013年前后。　　Hybrid结构用DNN替换了GMM来对输入语音信号的观察概率进行建模。训练DNN-HIMM 模型之前，需要先得到每一帧语音在DNN上的目标输出值（标签）。为此需要通过事先训练好的GM-HIMM模型在训练语料上进行强制对齐。即要训练一个DNN-FIMM声学模型，首先需要训练一个GMM-HMM声学模型，并基于Viterbi算法给每个语音帧打上一个HMM状态标签，然后以此状态标签训练一个基于DNN训练算法的DNN模型。最后用DNN替换GMM-FMM模型中计算观察概率的GMM部分，但保留转移概率等部分。　　与传统的GMM采用单帧特征作为输入不同，DNN是将相邻的若干帧进行拼接来得到一个含更多信息的输入向量。这样DNN相比GMM更加能够提升识别成功率。图5 Hybrid结构深度学习语音识别流程　　2.2.3 Grapheme 结构　　2015年前后，基于LSTM+CTC(长短时记忆网络+连接时序分类模型）的端到端语音识别受到了广泛关注。　　相对于Hybrid结构的语音识别，Grapheme结构使用LSTM-CTC模型替换DNN-FIM模型。 LSTM模型是RNN的改进，用以替换DNN-HMM模型中的DNN部分，CTC ( Connectionist Temporal Classification, 可以理解为基于神经网络的时序类分类）模型则替换另一部分HMM模型。　　由于语音信号的非平稳性，我们只能做短时傅里叶变换，这就造成了一个句子会有很多帧，且输出序列中的一个词往往对应了好几帧，最终导致输出的长度远小于输入的长度。那么如何解决这个问题呢？为此引入了CTC模型的概念。CTC模型不需要对数据对齐和一一标注，这样就不用再依赖HMM模型，只需要一个输入序列（语音信号波形）和一个输出序列即可进行训练，直接输出序列预测的概率。　　LSMT-CTC模型的运行原理图如下图所示（以“皮卡丘” 为例)图6 LSMT-CTC模型的运行原理图　　CTC模型相对HMM模型更简洁，不需要再逐帧判别，大部分输入帧的输出为空，小部分输入帧的输出为音素。　　以上内容节选自图书《人工智能语音测试原理与实践》第二章“AI语音交互原理介绍”2.3小节“语音识别技术”，由于篇幅所限，节选章节中关于“预处理”的详细内容已省略。　　人工智能的研究方向和应用主要包括两个方面，即语音和图像，本书主要讲解的就是人工智能语音方面的知识。人工智能语音主要包括3大语音技术：一是语音识别技术，这是人工智能语音的核心技术，是机器自动将人的语音转成文字的技术；二是自然语言处理技术，相当于人的“大脑”主抓思考学习任务，是机器分析、理解和处理自然语言的技术；三是语音合成技术，相当于人的“嘴巴”主要负责说话，是机器将任意文字信息转化为语音并播报的技术。　　人工智能语音测试主要就是针对这3大语音技术的测试，本书根据不同的知识结构将内容划分为9章，分别为人工智能语音测试介绍、AI语音交互原理介绍、AI语音产品需求和适用场景、AI语音产品评价指标和行业标准、语音数据准备、AI语音产品黑盒测试、AI语音产品自动化测试、AI语音算法测试、AI语音性能测试。　　第1章和第2章详细介绍人工智能语音测试各种知识点和人工智能语音交互原理；第3章和第4章介绍人工智能语音产品需求和评价指标及其相对应的验收标准；第5章介绍如何准备语音数据，包括准备方案和具体方法；第6～9章介绍人工智能语音测试涉及的4大模块，即黑盒测试、自动化测试、算法测试、性能测试。　　传播先进文化、推动社会进步，蒙您欢喜，不要忘记点赞、分享、关注@清华大学出版社 IT专栏　　哦~　　语音识别，也被称为自动语音识别（Automatic Speech Recognition，ASR)，其目标是将人类的语音转换为文字。　　从语音识别的应用方式来看，语音应用经常被分为离线语音识别和实时在线语音识别两大类　　离线语音识别：指包含语音的音频文件已经存在，需使用语音识别应用对音频的内容进行整体识别。典型应用有音视频会议记录转写、音频内容分析及审核、视频字幕生成等。　　实时在线语音识别：指包含语音的实时音频流，被连续不断地送入语音识别引擎，过程中获得的识别结果即时返回给调用方。典型应用有手机语音输入法、交互类语音产品（如智能音箱、车载助手）、会场同声字幕生成和翻译、网络直播平台实时监控、电话客服实时质量检测等。　　预处理(格式转换、压缩编解码、音频数据抽取、声道选择（通常识别引擎只接收单声道数据）、采样率/重采样（常见的识别引擎和模型采样率一般为8kHz、16kHz）,FBank特征提取　　话音检测与断句　　对于离线语音识别应用，断句模块的作用是快速过滤并切分出音频文件中的人声片段，且尽最大可能保证每个片段都为完整的一句话；对于实时在线语音识别应用，断句模块则需要能够从一个持续的语音流中，第一时间检测出用户什么时候开始说话（也称为起点检测），以及什么时候说完（也称为尾点检测）。　　音频场景分析　　除断句外，由于一些应用本身的复杂性，导致原生的音频在被送入识别引擎之前，还需要进一步进行分析和过滤，我们把这类统称为音频场景分析。一般情况语种识别也会放在这里。　　识别引擎(语音识别的模型) 　　工程调度 & 异常处理　　本文主要介绍语音识别的相关基础知识，语音识别模型，以及目前算法侧可提供的离线语音识别服务能力。　　声音（sound)是由物体振动产生的声波。是通过介质（空气或固体、液体）传播。红白机，由电流带动主板上的 8bit 蜂鸣器，就可以产生简单朴素的音乐。电流控制蜂鸣器振动，振动的快，音阶就高；反之则低，同一时间点只有一种频率，所以听起来十分的朴素简单。（如果人的说话声音和蜂鸣器一样，语音识别将变得很简单)黑色圆形器件为蜂鸣器超级马里奥　　人说话的声音，对比蜂鸣器就会复杂很多，但是基本原理还是振动，从生物学的角度来看，是气流通过声带、咽喉、口腔、鼻腔等发出声音,同一时间内，会产生不同频率的是振动；从信号的角度来看，不同位置的震动频率不一样，最后的信号是由基频和一些谐波构成。声带、咽喉、口腔、鼻腔...一起发出声音　　人发出声频率在100Hz(男低音)到10000Hz(女高音)范围内。同一时间内一段人声会混杂着多组不同频率的波。在振动学里认为一个振动产生的波是一个具有一定频率的振幅最大的正弦波叫基频。这些高于基波频率的小波就叫作谐波。基波，谐波　　最终音频的波形图采样率为8k的音频　　在进行语音识别的时候，最原始的输入是一个音频文件。将音频文件读取到程序后，它们是一系列离散的采样点，通常采样率是16k/8k，即一秒钟采样16000/8000个点，每个采样点表示该时刻声音的振幅。在这个采样率下，一条只有几秒钟的输入音频，其序列长度也会非常长，且每个采样点所包含的语音信息比较少，因此原始音频不适合直接作为模型的输入。无论是传统方法的语音识别技术还是基于神经网络的语音识别技术，都需要进行语音的预处理。　　其中，预加重，分帧，加窗都是为快速傅立叶变换做准备的。这样做会使得傅立叶变换转换后的音频（准确说是频谱）质量更高。　　预处理流程的核心是快速傅立叶变换。　　快速傅立叶变换的作用看似杂乱无章的信号考虑分解为一定振幅、相位、频率的基本正弦(余弦)信号。公式推导和计算方式介绍起来比较复杂，感兴趣的同学可以看参考中的链接。　　这里以一张动图作为演示。一个更通俗的理解：可以将傅里叶变换想象为将一束白光通过三棱镜，然后分解为不同颜色的光谱。这个光谱包含了每种颜色（频率）的光波的相对强度。同样的，傅里叶变换允许我们分解一个信号，以确定不同频率的波的相对强度。　　Mel刻度，这是一个能模拟人耳接收声音规律的刻度，人耳在接收声音时呈现非线性状态，对高频的更不敏感，因此Mel刻度在低频区分辨度较高。Mel滤波器组就是一系列的三角形滤波器，把低频区的声音更好的提取出来，同时对高频区的声音进行一定的降噪。　　input: 一段3秒长的音频，8K的采样率原始语音向量 shape (3.5*8000, ) 　　output:FBank特征经过预处理后的向量 shape (350, 40) 　　语音预处理技术已经很成熟，使用 Kaldi 可以得到最终的处理结果。　　补充:有些语音识别的预处理模块还会对FBank做进一步的处理，得到MFCC 特征　　Kaldi 的学习坡度很陡峭，代码由C++ 编写。　　由于该技术框架出现的早(2009 年比tensorflow早了6年)，后续几乎所有模型/框架都会使用 Kaldi 进行预处理，并且后续代码的编写风格和数据集的结构，都延续了Kaldi别扭的规范。　　语音识别数据集的标注相对cv和nlp领域，较为复杂。　　目前标准中文公开的数据集只有两个AISHELL和SpeechNet，而且均为无背景噪音的普通话。这也间接的导致了现有很多开源模型的论文上的指标都特别好，工业生产不进行finetune的话根本没法用。　　这种的数据标注的格式是: 　　经典的语音识别概率模型，分为声学模型和语言模型两部分，现将语音转换为音素，再将音素转换为单词。　　对于声学模型来说，单词是一个比较大的建模单元，因此声学模型p（Y|w）中的单词序列w会被进一步拆分成一个音素序列。假设Q是单词序列w对应的发音单元序列，这里简化为音素序列，那么声学模型p（Y|w）可以被进一步转写为。一般会用隐马尔可夫模型来进行建模。音素表，由声学专家定义。　　语言模型，使用n-gram模型。　　传统语音识别缺点，精度差；优点，速度快可部署在嵌入式设备。　　2014年左右，谷歌的研究人员发现，在大量数据的支撑下，直接用神经网络可以从输入的音频或音频对应的特征直接预测出与之对应的单词，而不需要像我们上面描述的那样，拆分成声学模型和语言模型。简单来说构建一个模型，input ：语音，output：文本即可。　　ASR可以被看成是一种序列到序列任务，输入一段声音特征序列，通过模型计算后，输出对应的文字序列信号。在端到端ASR模型中，这种序列到序列的转换不需要经过中间状态，如音素等，而直接生成输出结果。　　如图所示，基于Transformer的ASR模型，其输入是提取的FBank或MFCC语音特征。由于语音特征序列一般比较长，在送入模型之前，通常会进行两层步长为2的卷积操作，将序列变为原来的1/4长。基于Transformer的ASR模型编码器和解码器与原始Transformer没有差别，在编码器端，是一个多头注意力子层和一个前馈网络子层，它们分别进行残差连接和层标准化（LayerNorm）操作，而在解码器端则会多一个编码器-解码器多头注意力层，用于进行输入和输出之间的交互。　　缺点:自注意力机制能够对全局的上下文进行建模，不擅长提取细粒度的局部特征模式　　除了Transformer外，也有部分工作是基于CNN来捕获局部的特征来进行语音识别，比如 ContextNet。由于受感受野范围的限制，CNN只能够在局部的范围内对文本进行建模，相比于RNN或Transformer，缺乏全局的文本信息。ContextNet通过引入“压缩和激发（Squeeze-and-Excitation，SE）”层{Squeeze-and-excitation networks}来获取全局特征信息。　　补充，Squeeze-and-Excitation，SE 模块捕获全局特征的能力，在图像领域的应用很多。目标检测，通过引该模块,可以再不损失提取局部特征的能力下，加强对全局特征的提取。该图是研究生大佬的毕设内容，使用了SE模块对目标检测基础网络进行了优化。　　缺点：然而由于只是通过平均池化和全连接来进行全局信息的交互，这种方法在语音识别领域仍然无法很好地获取全局特征。　　Conformer 是目前业界主流框架，通过一定的组合方式(Transfomer+CNN)应用到ASR任务上。考虑到语音序列建模的特点，Conformer加入了卷积模块，利用CNN的局部建模能力来获取序列的局部特征。　　Conformer结构是在Transformer模型编码器的基础上增加卷积模块, 构成Conformer 模块。（TEG的AI Lab 使用的就是WeNet版本 Conformer，主要是对卷积层有少许的改动，并进行了模型蒸馏和量化）　　WeNet 是一款面向工业落地应用的语音识别工具包(框架)，提供了从语音识别模型的训练到部署的一条龙服务，也是目前业界最常用的开源框架。　　Paraformer 是阿里INTERSPEECH 2022 提出的一个模型，并已经开源。一种具有高识别率与计算效率的单轮非自回归模型 Paraformer。该模型开箱可用，该开源模型的实际识别效果和TEG 的模型效果差不多。是目前唯一开箱即用的开源预训练模型，我认为主要原因是该模型的训练集中包含了工业级别的数据。　　模型结构　　模型的整体结构和Transformer基本相同，差异点在于额外增加了两个损失函数，那么为什么要增加这两个损失函数呢？从语音识别结果的常见错误进行分类，可分为三种错误，错误的插入，错误的删除，错误的替换。错误的插入，错误的删除可用MAE 去进一步优化，错误的替换可用MWER去进一步优化。　　论文亮点1：设计了一种生成负样本策略，和 MWER loss: (Multireference Word Error Rate )多义字错误损失加强处理同音替换错误的能力。　　论文亮点2：神经网络结构进一步的并行化，进而极大的提高了解码效率，可以处理长音频。　　不足，同Confermer 相比，舍弃了CTC 损失。引入CTC(Connectionist Temporal Classification) 损失函数的作用是防止是一种避开输入与输出手动对齐的一种方式。简单来说会避免这种现象的产生。　　工程方面的亮点，基于阿里魔塔框架进行了和其他模型的组合。结合了语音检测和标点符号识别，开箱即用。缺点，推理速度在生产环境，较TEG模型比仍然很慢。相同资源下，转化实时率对比：　　开源模型 0.02 ，TEG模型 0.004 　　服务的流程主要包括，调用场景合法判断，底层模型的选择(默认支持模型一)，音频预处理，模型调用，异常处理，日志收集和结果返回。以jar包的形式提供给调用方。　　主要这里使用到两个开源的模型。　　模型一　　通用基础模型(Paraformer语音识别-中文-通用-16k-离线-large-长音频版) 　　特点:该模型将语音检测，语音识别，以及标点符号处理三合一。　　模型二　　热词模型(Paraformer语音识别-中文-通用-16k-离线-large-热词版) 　　特点：该模型可使热词表中的词汇召回率进一步的提高　　热词模型中对于热词提高召回的原理官方并没有做出解释。个人猜测是与WeNet Conformer 热词版本的实现原理类似，在最后的Softmax 词语预测后接了一个beam search 的概率搜索。对热词表出现的词的概率进行加权。　　单条语音单预测节点转换速度约为 1s 可转 14s 音频　　单日最多转换约 2000 小时(合计)的录音文件（约使用4块 P40 型号的GPU，合集20个节点）　　需要将数据集标注为这种格式，切分短音频+短句对应的文字，目前仅通用基础模型支持微调　　《Kaldi语音识别实战》微信读书　　https://weread.qq.com/web/reader/ 　　《Conformer的来龙去脉你都了解清楚了吗？——语音识别论文解读》https://weibo.com/ttarticle/p/show?id=2309404773315696001660 　　《快速傅立叶变换》知乎　　https://zhuanlan.zhihu.com/p/347091298 　　《端到端语音识别技术在58同城的探索实践》　　https://ishare.58corp.com/articleDetail?id=100358 　　《ASR中常用的语音特征之FBank和MFCC（原理 + Python实现）》　　https://blog.csdn.net/Magical_Bubble/article/details/90295814 　　《Paraformer》　　https://arxiv.org/pdf/2206.08317.pdf 　　《语音识别教程》　　https://blog.csdn.net/qq_21275321/article/details/127573231 　　《CTC 损失函数介绍》　　https://zhuanlan.zhihu.com/p/42719047/ 　　语音识别在方言领域的识别还有很大的提高空间　　【山东威海大姨的微信语音转文字变成英文？多么纯正的英音啊！-哔哩哔哩】 https://b23.tv/65SGMcL　　声学模型和语言模型都是当今基于统计的语音识别算法的重要组成部分。隐马尔可夫模型(HMM)在许多系统中被广泛使用。语言建模也用于许多其他自然语言处理应用，如文档分类或统计机器翻译。　　现代通用语音识别系统普遍基于隐马尔可夫模型，是输出一系列符号或数量序列的统计模型。隐马尔科夫模型被用于语音识别，因为语音信号可以被视为分段平稳信号或短时平稳信号。在短时间尺度(例如10毫秒)内，语音可以近似为平稳过程。语音可以被认为是一个随机的马尔可夫模型。　　隐马尔科夫模型流行的另一个原因是，它们可以自动训练，使用起来简单且计算可行。在语音识别中，隐马尔可夫模型将输出一系列n维实值向量(n是整数，例如10)，每10毫秒输出一个。向量由倒谱系数组成，这些系数是通过对短时间语音窗口进行傅立叶变换并使用余弦变换对频谱进行去相关，然后取其中第一个(最重要的)系数而获得的。隐马尔可夫模型在每个状态下均倾向于具有对角协方差高斯混合的统计分布，这将给出每个观测向量的可能性。每个单词，或者(对于更通用的语音识别系统)每个音素，将具有不同的输出分布；一个单词或音素序列的隐马尔可夫模型是通过将单独训练的单词和音素的隐马尔可夫模型串联而成的。　　上述是最常见的基于隐马尔可夫模型的语音识别方法的核心要素。现代语音识别系统使用多种标准技术的各种组合，以便与上述基本方法进行对比改善。典型的大词汇系统需要音素的上下文依赖（因此具有不同左右上下文的音素具有与HMM状态不同的实现）；它会使用倒谱归一化来规范不同的扬声器和录音条件；为了进一步使说话人归一化，可以使用声道长度归一化(VTLN)进行男女归一化，此外，最大似然线性回归(MLLR)用于更一般的扬声器改编。这些特征会有所谓的δ和δ-δ系数以捕获语音动态，此外还可以使用异方差线性判别分析(HLDA)；或者可以跳过δ和δ-δ系数并使用插接和基于LDA的投影，然后通过异方差线性判别分析或全局半连接协方差进行变换（也称为最大似然线性变换，或MLLT）(也称为最大似然线性变换，MLLT)。许多系统使用所谓的判别训练技术，这种技术省去了HMM参数估计的纯统计方法，而是优化了训练数据的一些分类相关的测量。例子有：最大互信息（MMI），最小分类错误（MCE）和最小电话错误（MPE）。　　语音的解码(当系统呈现新的话语并且必须计算最可能的源句子时的术语)可能使用维特比算法寻找最佳路径，这里有两种选择，一种是动态创建包含声学和语言模型信息的组合隐马尔可夫模型，另一种是预先静态组合的隐马尔可夫模型(有限状态传感器或FST方法)。　　解码的一个可能的改进是保留一组好的候选项，而不仅仅是保留最好的候选项，并且使用更好的评分函数(重新评分)对这些优秀的候选语句进行评分，这样我们就可以根据这个精确的分数选出最好的候选语句。候选集可以保存为列表(即最佳列表方法)或作为模型的子集(格子)。重新评分通常是通过尝试最小化贝叶斯风险(或其近似)实现的：我们不是以最大概率选取源句子，而是试图选取相对于所有可能的转录，选择最小化给定损失函数的句子(即，我们选取以其估计概率加权的，并与其他句子平均距离最小化的候选者)。损失函数通常是Levenshtein距离，对于特定的任务它的数值是不同的；当然，可以删减一组可能的转录语句以保持易处理性。已经设计了有效的算法来重新划分表示为加权有限状态换能器的格子，其中编辑距离表示为验证某些假设的有限状态换能器。　　动态时间规整是一种历史上用于语音识别的方法，但现在已经在很大程度上被更成功的基于隐马尔可夫模型的方法所取代。　　动态时间规整是一种用于测量可能随时间或速度变化的两个序列之间相似性的算法。例如，即使在一个视频中的人走得慢，而在另一个视频中走得快，或者即使在一次观察过程中有加速和减速，也可以检测到行走模式的相似性。DTW已经应用于视频、音频和图形中–事实上，任何可以转化为线性表示的数据都可以用DTW进行分析。　　一个众所周知的应用是自动语音识别，以应对不同的说话速度。一般来说，这是一种允许计算机在具有特定限制的两个给定序列(例如时间序列)之间找到最佳匹配的方法。也就是说，序列被非线性地“规整”以相互匹配。这种序列比对方法经常在隐马尔可夫模型中使用。　　神经网络是20世纪80年代后期在ASR中出现的一种有吸引力的声学建模方法。从那时起，神经网络已经逐渐用于语音识别的许多方面，例如音素分类，孤立单词识别，视听语音识别、视听说话者识别和说话者适应。　　与隐马尔科夫模型相比，神经网络对特征统计特性的明确假设较少，并且具有多种特性，使得它们成为语音识别领域中具有吸引力的识别模型。当用于估计语音特征片段的概率时，神经网络允许以自然和有效的方式进行判别训练。然而，尽管它们在分类短时间单位（如个体音素和孤立单词）方面有效，但早期的神经网络很少成功地完成连续识别任务，这是由于它们对时间相关性建模的能力有限。　　这种限制的一种解决方法是在基于HMM的识别之前使用神经网络对语音数据进行预处理，特征变换或降维。近年来，LSTM和相关的递归神经网络和时延神经网络(TDNN)在这一领域的表现已经被证明是有效的。　　深度前馈和递归神经网络　　深度神经网络与自动去噪编码器也正处于研究中。深度前馈神经网络(DNN)是一种在输入和输出层之间具有多个隐藏单元层的人工神经网络。与浅层神经网络相似，DNN可以模拟复杂的非线性关系。DNN架构生成合成模型，其中额外的层允许从较低层合成特征，提供了巨大的学习能力，因此具有建模复杂语音数据模式的潜力。　　2010年，工业研究人员与学术研究人员合作，在大词汇量语音识别中成功实现了DNN，其中采用了基于决策树构造的上下文相关HMM状态的DNN大输出层。请参见微软研究院最近出版的《Springer》著作中对截至2014年10月的发展以及最新技术的讨论。另请参见自动语音识别的相关背景和各种机器学习范例的影响，特别是包括深度学习的技术。　　深度学习的一个基本原则是摒弃手工制作的特征工程而使用原始特征进行学习。这一原理首先在深度自动编码器的架构中成功地探索到“原始”频谱图或线性滤波器特征，显示出优于Mel-倒谱图的特征，后者包含从光谱图固定转换的几个阶段。语音波形的真正“原始”特征最近被证明可以生成出色的大规模语音识别结果。　　自2014年以来，人们对“端到端”ASR有了很大的研究兴趣。传统的基于语音的方法(即基于 HMM 的模型)需要单独的组件和对语音、声学和语言模型的训练。端到端模型共同学习语音识别器的所有组件。这一点很重要，因为它简化了培训过程和部署过程。例如，所有基于隐马尔可夫模型的系统都需要一个 n-gram语言模型，典型的n-gram语言模型通常需要几千兆字节的内存，使得它们无法部署在移动设备上。因此，谷歌和苹果的现代商用ASR系统(截至2017年)部署在云系统中，需要网络连接才可以正常使用。　　端到端ASR的第一次尝试是使用基于Connectionist Temporal class ification(CTC)的系统，该系统由Google DeepMind的Alex Graves和多伦多大学的Navdeep Jaitly于2014年引入。该模型由递归神经网络和CTC层组成。RNN-CTC模型共同学习发音和声学模型，但是由于类似于HMM的条件独立假设，它无法学习语言。因此，CTC模型具有直接学习将语音声学映射到英语字符的能力，但这些模型会犯许多常见的拼写错误，必须依赖单独的语言模型来清理转录本。后来，百度利用非常大的数据集扩展了这项工作，并用中文和英文展示了一些商业上成功的案例。2016年，牛津大学推出了LipNet，第一个端到端语句级唇读模型，使用时空卷积结合RNN-CTC架构，在受限语法数据集中超越了人类的水平。谷歌DeepMind 在2018年推出了一个大型CNN-RNN-CTC架构，其性能是人类专家的6倍。　　基于CTC模型的另一种方法是基于attention-based的模型。卡内基梅隆大学和Google Brain的Chan等人和蒙特利尔大学的Bahdanau等人于2016年同时引入了基于attention-based 的ASR模型。名为“听、听、拼”(Listen, Attend and Spell，LAS)，字面上是“听”声音信号，注意信号的不同部分，一次“拼”出一个字符的抄本。与基于CTC的模型不同，基于attention-based的模型没有条件独立假设，可以直接学习语音识别器的所有组件，包括语音、声学和语言模型。这意味着，在部署过程中，不需要携带语言模型，这使得它在部署到仅具有特定内存存储器的应用程序上非常实用。截至2016年底，基于attention-based的模型取得了相当大的成功，包括超越CTC模型(有或没有外部语言模型)。自最初的LAS模型以来，已经提出了各种扩展。潜在序列分解（LSD）是由卡耐基梅隆大学、麻省理工学院和谷歌大脑提出的，可以直接发出比英文字符更自然的子词单元；牛津大学和谷歌DeepMind 将LAS扩展为“观看，收听，参加和拼写“（Watch, Listen, Attend and Spell，WLAS）处理唇读超过人类表现。。

通俗的讲解语音识别技术的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于通俗的讲解语音识别技术、通俗的讲解语音识别技术的信息别忘了在本站进行查找喔。

未经允许不得转载！ 作者:谁是谁的谁，转载或复制请以超链接形式并注明出处。

原文地址：http://www.zgj9.cn/post/14435.html发布于：2026-01-26

通俗的讲解语音识别技术

送给宝贝的毕业祝福

选择性销售

金本位制有三种形式是哪三种

长城的介绍十篇