当前位置: 首页 > 原理解释

语音识别技术原理-语音识别工作原理

语音识别是最近这几年最火的话题,但别光看那些新闻稿,还是得从果农抓虫口误说起。
那会儿种地靠经验,只要往地里扔个塑料杯,就能知道里面有啥虫子,出于老农知道杯子里啥放得进去。
后来有了机器,哪怕你往土里倒了一杯奶,要么倒了两杯,只要把杯子转快点,让声音变长,机器就能算出这里面可能有啥东西,就连能算出具体是啥。
这实际上就是语音识别的雏形,核心就是听你讲话,再认出你说了啥。 这玩意儿最早是 20 世纪 60 年代 IBM 搞出来的,那时候他们拿一台超级计算机,专门靠算字来识别声音。
那时候的“超级计算机”实际上就是格罗莫尔计算机,那是当时最强的电子机器,能每秒跑几百万次运算。有个叫奥古斯丁的人,他花了十几年工夫,用这台机器去读 400 本英语书,发现这些书里的句子读出来跟人读的不忒一样,但能看出来大约意思。
后来他试了各种句子,发现只要句子够长,机器就能把每个词都读准,就连能认出是啥词。
这就证明白要是给机器充足的 computation,它就能听懂人话。 但要想让机器真正听懂人话,光靠算字还不够。讲话的时候人一直在变,语气、速度、口音都不一样,机器就得适应这些变化。
比如你讲话语速快,机器就得把字拆得碎一点;你讲话慢,机器就得把字连起来。
这就得靠声学模型去处理声音的生理特征,比如人讲话有鼻音、有元音,机器如何区分?这得靠声学模型给声音打标签,告诉它哪些地方是鼻音,哪些是元音,然后再把这些声音拼起来,变成机器能读懂的代码。 这套流程实际上挺复杂的,数据是命门。
要是你没数据,要么数据忒少,机器就学不会。
比如你想让机器识别“苹果”,你得先给它一堆苹果的声音,把每个声音都标个码,告诉它这是啥。
要是声音忒少,机器就认不出来了,得靠人工标注。
这就像学画画,你得先有大量画,然后画完了再标上“忒阳”、“云朵”之类的标签,不然机器就学不会如何画忒阳。 数据收集起来不好办,得把成千上万句对话都找出来,还得把每个字都标出来,比如用拼音 TTS 生成的声音,要么真人录好的。但难题是这些数据忒多了,如何存?
如何算?得靠超级计算机,还得靠各种算法。
比如有个算法叫 HMM,它是给每一个声音打标签的,比如“元音”、“辅音”、“停顿”。但一个声音可能有好几种标签,比如“苹果”可能是“元音”+“辅音”,也可能是“辅音”+“元音”。
这就得把不同标签的声音混在一起,让机器学会如何组合。 还有个难点是方言和口音。
比如你南京话,你哥们儿说四川话,机器如何知道是南京话还是四川话?这得靠更复杂的模型去区分这些细微差别。
比如两个声音挺像,但一个是带着鼻音,一个是没有鼻音,机器就得学会如何去区别。 那机器到底是如何算的?这实际上是概率的难题。机器算的是两个东西的可能性:一个是这句话是不是它说的,另一个是它当前能识别出这句话。
比如你目前说“苹果”,机器得算出“苹果”这个词出现的概率是多少。
要是概率高,那就认;要是概率低,就持续听。
这就像猜题,你猜“苹果”可能,猜“西瓜”也可能,但机器只认概率高的那个。 除了 HMM,还有另一种方式叫神经网络。
这玩意儿像人脑一样,把声音喂进去,再输出结局。但它不中,出于人脑有 1000 多个神经元,而神经网络只有几千个。
要是神经网络能当确实人脑用,那得靠多少神经元?目前用的神经网络,前馈的神经网络只有几千个节点,搞不定如此复杂的语音。
故此目前的神经网络实际上是个变种,比如把 HMM 里的参数换成神经网络的权重,再用反向传播去更新这些权重。
这样既保留了概率模型的优点,又有了神经网络的学习本事。 实际上语音识别的大方向一直没变,就是要把人说的话变成机器能懂的数据。
这过程分几步走:先变声音,再变信号,然后变语法,最终变代码。声音变信号是声学处理,信号变语法是统计学习,最终变代码是序列标注。整个流程就是要把人说的话,一步步变成机器能用的信息。 但要说数据还是最关键的。
没有充足多、充足高质量的数据,机器就是瞎编。
比如你想让机器识别“狗”,你得给它狗叫声,还要给它其他声音。
要是只有狗叫声,机器就只认狗,听不到别的。
故此数据质量直接拍板了机器本事。 还有个难题就是精度。有些语音识别精度能到 95%,有些能到 80%。
这取决于数据量和算法。目前最好的准率大约 95% 左右,还有提升空间。 最终说说应用。它在客服系统里用,客服听你的声音,机器就把你的需求搞清楚了。在医疗里,医生听描述,机器帮你诊断。在交通里,车听你的指令,导航就自动开车。 说到底,语音识别就是个把“人话”变成“机器话”的过程。它靠超级计算机算,靠海量数据学,靠声学模型拆解,靠神经网络拼接。别看还有大量难点,比如方言听不懂、噪音干扰大、语义理解不准,但随着数据越来越丰富,算法越来越先进,这东西迟早能帮人类做大量事。
相关标签:

猜你喜欢

热门阅读

  • 赖柴尔定理-赖柴尔定理
  • 迪拜哪个国家的城市?-迪拜在哪国城市
  • 李毅吧番号及出处-李毅吧番号及出处
  • 贴春联的由来简介50字-春联由来简述
  • 思乡的名言和出处-思乡名言及出处

其他分站