人工智能时代，如何看待语音识别技术的现状？

2020-08-06 15:28:11 来源: 阅读：-

导语：当前，物联网和人工智能发展迅速，新产品和新应用不断涌现，导致人们的生活工作发生了重大变化。随着人工智能的第三次兴起，交互式终端出现了新的观点。通过语音控制直接控制机器，机器可以理解人的语言并按照

导语：

当前，物联网和人工智能发展迅速，新产品和新应用不断涌现，导致人们的生活工作发生了重大变化。随着人工智能的第三次兴起，交互式终端出现了新的观点。通过语音控制直接控制机器，机器可以理解人的语言并按照人的指示进行操作，以腾出双手，丰富人们的多样化生活方式。想象有一天，语音识别技术的发展已经足够成熟，我们将能够使用语音命令直接控制机器，例如人与人之间的对话，而无需使用传统的工作方法（例如鼠标，键盘或其他外部按钮）。当前，从智能手机到智能家居，甚至在互联网上，市场上的爆炸性产品都在拥抱智能语音。对于想要直接与机器进行通信的人们，首先必须使机器能够识别对人类语言的分析，然后，在完成识别分析后，可以将其转换为内部的正常操作指令，以进行以下操作。因此，作为跨学科学科的语音识别技术正逐渐成为人类互动的重要手段。因此，语音识别已成为当今在热浪中将人工智能渗透到人们生活中的最广泛方法。

语音识别已成为当今在热浪中将人工智能渗透到人们生活中的最广泛方法

智能语音是利用智能语音交互作用的能力，这样机器就可以像人一样理解并说人类语言，最终，人们可以自然地进行交互。引入智能语音交互的第一步是语音识别。没有语音识别，后续的语义转换，翻译，交换等等，这是一个空旷的地方。

在20世纪50年代，达特茅斯会议上已经明确定义了人工智能技术，而“智能演讲”也开始萌芽，但是由于硬件等技术的延迟，尚未发现许多人工智能问题。当时，普林斯顿大学的实验室开发了带有单音节音节的语音识别系统。当时的语音，理论和模型都很简单，因此研究很快陷入停顿。到80年代，随着神经网络和BT算法概念的出现，语音识别的研究再次成为一项突破，并引发了第二波人工智能浪潮。将人工神经网络（ANN）的方法与非马尔可夫算法相结合，在连续单词识别系统的开发中使用长短语，这意味着研究方向发生了重大变化，这使得连续研究成为可能大量词典中的语音识别。

智能语音识别技术发展历程

同期，开元和其他人将高斯模型（Gmm）和in-Markov模型结合在一起，而卡内基梅隆大学开发了SPHINX系统，结合矢量量化技术，它成为第一个针对非特定人群的连续语音识别系统即（VQ）和HMM。 SPHINX将尹马尔科夫模型（HMM）指定为语音识别系统的基础模型。因此，语音识别方法的研究不再局限于基于标准模板的传统方法，而是向统计模型扩展。根据祈祷法则，90年代后计算机的硬件不断增加。 2006年引入了人工智能领域的高级培训方法，从而导致了图像识别的重大发展。在2009年，Sinton等人将使用深度神经网络对语音识别进行声学建模； 2010年，于栋，东丽等人开始研究语音识别模型，首先是向基于深度学习的模型过渡以及尹·马可夫的结合。 2017年，经过深入研究的Google AlphGo击败了Checker环，人工智能进入了爆发期。得益于人工智能高速发展的第三次浪潮，智能语音识别已成为市场空间巨大的最成熟的现代人工智能技术之一。

智能语音识别已成为市场空间巨大的最成熟的现代人工智能技术之一

在过去的十年中，互联网行业在中国迅速发展，互联网上三大世界领先企业，三大巨头和其他科技公司的结构已经形成，以体验包括知识演讲在内的智能人工智能行业，该行业目前正在国内蓬勃发展。在国家语音识别技术的研究中，情况的变化相对滞后，即使在ISIS的应用领域，其他行业也倾向于被超越。我们的业务以云云和百度公司以及垦星信号公司为代表，着重介绍了语音识别技术，并发展了快速且相对成熟的技术进步。

下面的表提供了该国最知名的语音识别公司的比较数据。

国内几家知名的语音识别公司对比

2012年9月，云文胜发布了中国第一个语音云平台，该平台首次在智能交互领域引入了深度学习。同时，百度公司提供了基于语音的搜索服务，并将此语音搜索服务集成到100度地图中，以100度模式进行搜索等。在各种Internet应用程序中，用户可以通过语音通信发送搜索命令，服务器在检查语音后会收到语音语音请求，然后返回结果，从而可以节省打值时间等步骤，极地方便了人们的使用。柯大新研究公司在智能语音技术领域积累了大量的知识。目前，它在语音合成，语音识别等许多技术上均居世界首位，并且是中国最大的智能语音技术提供商。随着教育领域语音识别系统的出现，该公司应该具有强大的语音识别算法和软件技术，它与华中国际公司的结合共同推出了一种低成本的语音AI芯片，该芯片目前在汽车，家用产品中已积累了很深的知识。语音行业。得益于许多内部人工智能公司的存在，我国的语音识别技术还实现了许多与特定人无关的自然而持久的表达方式。

语音识别的现状分析如何？

近年来，随着人工智能的快速发展，智能语音识别的发展也迅速。人类在智能语音技术的帮助下，概述了释放人的手的宏伟计划，其中包括执行语音控制，家用电器等人的指令。如今，心理语音识别从一开始就已成为最简单的单词识别，现在可以与一个简单的人合作进行。以下是按类别，市场条件和当前发展弱点对语音识别的概述。

1、语音识别的分类有哪些？

根据应用的方向，智能语音主要用于两个主要领域：2B和2C。在2c结束时，主要重点是医疗，教育，融资，服务等。

根据语音识别的内容，它们主要分为“封闭域识别”和“开放域识别”。识别封闭字段意味着只能在开发人员指定的一组单词/多个单词中识别它，而不在集合中识别。另一方面，开放的识别数据不能预先确定识别词的集合，并且它们与生活的紧密联系可能很困难，并且目前的研究需要进行重大改进。通常，开放字段的识别模型较大，并且需要大量操作。如果将大多数语音识别模型直接集成到开放域方案中，则当前仅将它们托管在云中，这会导致更高的功耗并影响模型识别功能。

语音识别助手小爱同学已经能够很好地满足日常语音操作服务

目前，近年来智能语音产业的规模持续增长，2014年至2018年，中国智能语音产业规模从3增长到155.7亿元，增长420％;随着云计算技术，深度学习等的发展，智能语音在智能家居，医学教育，汽车电子等方面的应用与车载、智能手机及智能家居等电子行业的占比将超过四分之一。

2、当前语音识别技术的市场需求有哪些？

当前，尽管不同公司的语音识别方法有所不同，但它们基本上与术语模板，基于HMM代表或基于神经网络的统计模型一致。基于由六个不同的深度神经网络组成的声学模型以及由四个不同的深度神经网络组成的语言模型，可以确定与人的比例相当的精确值。 DeepSpeech语音识别系统，它使用了对末端进行深入研究的方法，即该系统不需要其他组件来消除噪声，提取特征等。深层神经网络和循环神经网络的引入使语音识别更加准确，并使它更接近生活。

2010-2018年全球语音识别技术行业市场规模统计情况

与其他图形识别不同，语音识别的最大特征是时序，这需要一定距离的记忆和LSTM的持续时间，而神经网络的记忆恰好与此特征相对应。 Hochreiter等。他们提出了LSTM-用于为口语表达建立长期记忆机制的神经网络“ 0”，如果增加红杉类型的层数，这将提高模型的语音识别效率，但同时会导致梯度损失。因此，例如，Highway LSSTM通过引入用于控制进入相邻层的机制（例如ResiduallSTM）并通过在两者之间创建速度路径2来避免由过多序列引起的梯度消失，从而在语音识别方面取得了良好的结果LSTM水平。

随着诸如2014年的Echo Amazon之类的智能唱片的问世，一波智能家居的浪潮已经飙升。]智能家居作为改善用户体验的大型应用场景，为智能音响技术创造了良好的市场环境4。语音识别在智能家居和其他应用中，例如门槛较低，但是客户端的隐私，实时性和稳定性实际上有很高的要求。当前，最终声音产品市场使用神经网络算法，该算法通常与云结合使用，不仅可以计算功率和昂贵的资源，还可以确保实时性和隐私性，而这在很大程度上没有响应人的真正需求。尤其是考虑到云中数据处理的安全性和网络的扩展，这种智能交互式声音产品的应用范围已经扩大，这已成为将操作直接包括在终端设备中的趋势。作为目前广泛用于语音识别的LSTM的示例，我们可以引用LSTM，尽管它具有很高的准确性，但是参数比常规的神经网络大得多，因此，如何优化LSTM神经的计算能力的问题更多。终端上的网络需要进一步研究以开发终端语音识别。本文的主要目的是优化可以在终端设备中使用的语音识别LSTM算法。

3、当前语音识别的主要不足点有哪些？

在引入诸如语音的深入研究之类的技术之后，错误的频率迅速降低，识别的准确性和速度得到显着提高，但是在许多领域中，有必要改进：
对重点和背景噪音的关注不足。信噪比直接影响数据收集模型。我们训练时的大多数训练模型已从噪音中去除，训练重点相对简单。要在所有情况下更有效地收集足够的数据样本，还有许多工作要做。
高度的语义错误。尽管目前在错别值较低的国家中有些词可能会被误解。语言是人类文明的结晶，人们通过语言传达一种交流感，如何使语言在语义依赖前后，转折点和歧义性成为人类文明，这种多样化的文化现象被有效地用于机器识别中，目前只有九根毛。
多种情况无法很好地定位人们。当前，市场上的大多数产品主要用于录制消息，这可以由扬声器根据音色，范围和其他特性来判断，这对于随后的音频分离和其他后续的处理分析以及在应用程序开发中引入声音识别至关重要。可能会有障碍。
目前，语音识别通常是孤立的，不能与历史联系在一起；它不能进行情感分析。在日常生活中，人与人之间的交流经常伴随着其他线索，有助于理解对方的语言。例如，表情和对手嘴唇的动作，讨论的话题，双方的经验等。如果智能手机中的语音识别助手有权读取联系人列表，则语音助手可以轻松识别通讯簿中的姓名，例如，如果启用了地图上的语音搜索功能，则可以缩小目的地的导航区域。当引入这些辅助信号时，语音识别水平无疑会提高。但是，如何选择有用的上下文类型并有效使用它们的问题需要进一步深入研究。
在语音神经网络中使用，其计算算法较大[6]，因此，当前的语音识别模型主要基于云的使用，而使用云资源进行的计算也会导致时间延迟。只有少数几个模型已经为移动终端做好了充分的准备，并且在没有网络的情况下会更加有效。算法数量的增加会导致延迟的增加，而延迟会直接影响客户体验的使用。因此，有效地降低网络的计算能力并提高生产率是迫切需要解决的问题。

总结：

本文从多个方面介绍了智能语音识别研究的背景和意义，主要是在语音识别技术发展的历史中，从市场需求的角度介绍了国内外语音识别技术的发展和劣势，分析了语音识别技术的当前发展趋势以及一个有待改进的地方，并提出了研究意义的理论基础。如何更好地发展语音识别技术将是今后我们必须考虑的重点！

人工智能时代，如何看待语音识别技术的现状？

导语：

语音识别的现状分析如何？

总结：

相关阅读 read

相关图库hot

热点排行

精彩图文