“真”技术背后的历练：远场语音识别的六大难点-苏宁头条

智能电视的普及，普及的就是当今技术的发展革新，而人工智能的出现或许又是这种发展革新的又一个新突破点，人工智能下，我们看到的是越来越多的电视开始实现人机交互这种方式，一问一答的模式。

即电视实现对问答一方做出语音识别行为的一种判断方式，那么这种判断方式通过何种行为实现呢？我们说是通过远场语音和近场语音来实现。

而相较于近场语音来说，远场语音识别最大的优势点在于它的距离通常会在1米到10米之间，从而在这个距离当中，只要问答者有提问的意向产生，电视便会做出识别并反应。

而创维A5电视，即采用AI声控的方式，让我们免遥控解放双手，并且10m+远场语音识别的能力，在家庭中也更加方便了我们的生活。

那么实现远场语音识别技术的背后，经历的技术难点有哪些呢？

1.语音激活测验（VAD）：顾名思义，指的就是判断什么时候有语音什么时候没有语音（静音），后续的语音信号处理或是语音识别都是在VAD截取出来的有效语音片段上去进行计算的。

在近场识别的时候，这个算法可有可无：比如语音输入法中可以用手按着说话按键说话，结束之后再松开，这是牵扯不到后续计算的，但是远场语音就必须克服在有距离的限制下对语音的后续计算与处理。

2.语音唤醒（VT）：可以理解为喊名字，引起电视这个“听者”的注意。比如苹果的“heySiri”，Google的“OK Google”，创维的“小度”等，VT的目的是告诉电视（或手机），接下来的话是对你讲的哦，认真听好了。

VT通常是在检测到人声之后进行工作的，它要判断人说的话是不是激活词（激活词就是上面的“heySiri”、“OK google”以及“小度”等），如果是激活词，那么后续的语音就进行识别，否则后续的语音不进行处理。

3.回声消除（Echo Cancelling）：在近场语音的环境下，播放音乐或是语音播报的时候可以使用按键进行停止，但远场环境下想要通过语音来进行控制，就必须得实现回声消除，不然，可能会对“电视”识别造成识别重复或者是错误。

4.低信噪比（signal to noise ratio，SNR）和混响（Reverberation）：远场环境下要求拾音麦克风的灵敏度高，这样才能在较远的距离下获得有效的音频振幅，同时近场环境下又不能爆音（振幅超过最大量化精度）。这样的环境下，噪音必然会很大，从而使得语音质量变差，所以，要解决这个问题的技术点，就必须在有效的距离下进行不间断的采集有效振幅以及混响状态，达到一个稳定值并最终得到解决。

5.鸡尾酒会问题（cocktail-party problem）：这个问题很有意思，说的就是这是指有多个说话人情况下的语音识别问题，比如鸡尾酒会上很多人讲话。如果你要听清一个人讲话那么像手势、口型、表情以及聊天话题这些干扰因素，就都会对你造成影响，这种环境下的语音识别是相当有挑战的。

6.关于语音识别的未来：简单来说，便是以后我们是否会实现《钢铁侠》中的智能助手贾维斯这样的故事情节，并且除了语音之外，显示屏和手势控制也是非常高效的交互手段。而对于语音助手，除家庭助手之外，就像电影《Her》中想象的一样，将来可能会成为真正的助手，与你真正形影不离。

当远场语音经历这些层层技术难点后，所展现出来的，便是真正的“真”技术，创维A5全生态AI，远场声控，全天候24小时待命，开口即是陪伴，特有的楔形ThinkBar，前置四位阵列式麦克风，使得收音也更加的全面准确，待机状态下，电视也可变为人工智能音箱，带给你最极致的享受。

创维电视65A5

去购买