当前位置: 主页 > 招投标信息中心（供需平台） > 高新科技 > 正文

声智科技携手百度，助力小度智能音箱成为“三好生”

华中企业新闻网 2018-06-12 17:03 网站编辑

6月11日，百度“新声出道”的小度新品发布会在北京百度科技园K6熊掌报告厅召开，新品“小度智能音箱”正式在后厂村C位“出道”，尝鲜价89元。这款“后厂村C位出道”的百元AI实力担当产品——“小度智能音箱”凭借“好听、好用、好玩”的特性，新晋成为智能音箱届的“三好生”！

这款定价89元的小度智能音箱是如何成为智能音箱届的“三好生”？声智科技作为小度智能音箱的技术合作伙伴，带您一起解锁小度智能音箱背后的秘密武器！

（1）好听：采用全球首款3麦克风阵列设计，硬件毫不妥协！

小度智能音箱作为一款定价89元的智能音箱，其跨级音质体验是百元档音质最佳的人工智能音箱。小度智能音箱音质出众，却身量小巧，而且有着毫不妥协的远场语音交互体验。它是如何平衡ID、音质设计和产品体验之间的矛盾呢？

作为一款支持远场语音交互的智能音箱，一定离不开麦克风阵列。麦克风阵列的主要作用是帮助机器适应更加复杂的场景。麦克风阵列是由一定数目的声学传感器组成，用来对声场的空间特性进行采样并处理的系统，将会影响真实环境下的语音唤醒和识别率，是决定用户体验的关键因素。

然而，当前市场上的麦克风阵列方案中，常见的阵型多为4麦，6麦，8麦等阵元的线型、环型、菱型等阵列方案，亚马逊的Echo还采用过6+1麦的方案，亚马逊主流产品仍在沿用6麦环形和8麦跑道型方案。从技术原理来看，更多数量麦克风的阵列方案在远场语音交互效果上更具有优势，但是多麦阵型也限制了ID设计的想象空间，对音箱设计提出包括ID、成本等更多苛刻要求。

图为麦克风阵列模组

声智科技为小度智能音箱量身打造的全球首款3麦环型麦克风阵列，很好的平衡了ID、成本、音质设计和产品体验之间的矛盾。这款全球首款3麦克风阵列构型灵活，打破了音腔设计的局限，并释放ID设计的无限空间，同时平衡了成本和效果之间的矛盾。

声智科技推出的这款全球首款的3麦环型麦克风阵列内置通话降噪、混响抑制、回声抵消、噪声抑制、语音增强、波束形成、增益控制、语音识别等远场语音交互技术，5米内的嘈杂环境中，仍可以有卓越的远场语音唤醒性能、精准的远近场语音识别，实现轻松唤醒，无惧环境，想说就说，声随心动，保证远场语音交互的完美体验。而且，相比4麦、6麦、8麦阵列方案的成本偏高，3麦阵列方案价格更加亲民，相比2麦又有效果优势。

不仅如此，为了释放ID设计的无限空间，声智科技针对小体积智能音箱尺寸特性，进行了独家的技术优化。小尺寸智能音箱的麦克风阵列与喇叭的位置，以及ID结构都较为受限，特别是麦克风阵列与大音量喇叭相距很近，带给语音交互技术处理极大的压力，特别是自噪声抑制和远场信号处理的难度极具增加。为了在这样的特殊结构设计获得更好的语音交互效果，声智科技独家设计优化，采用抗强噪唤醒技术（AKS技术）、垂直抗强噪识别技术（VAN技术）、OpenAEC技术等提升远场语音交互体验。

（2）好用：完整远场语音唤醒和识别服务，又快又准！

为了让小度智能音箱更好用，提升产品的净推荐值NPS，声智科技通过SoundAI Voice Kit（以下简称SVK）为小度带来更敏捷、更贴合人性化的语音交互设计。

SVK是一款集成声波配网、波束形成、声源测向、定向拾音、噪声抑制、混响消除、回声消除、语音唤醒、端点检测、语音识别、语义理解、语音合成、双工通话等全链路的智能语音交互开发套件，兼容主流智能语音硬件架构，支持DuerOS、AliGenies、小爱平台、腾讯叮当、Amazon Alexa等主流AI平台, 助力品牌厂商实现智能硬件产品的极速开发和量产上市。

什么样的响应时间才能带来完美的语音交互体验？人机语音交互是让机器模拟人的行为，让机器适应人类的交互习惯。大多数情况下，在生活中人与人对话时，一个过快的回答会给用户带来轻浮感和抢话感，而一个过慢的回答会给用户带来迟缓感和愚钝感。因此智能音箱的响应时间对于用户体验至关重要。

此次，小度智能音箱采用了声智科技的SVK完整的远场语音唤醒、远场语音识别（Far-Field ASR）服务。声智科技精准的“远场语音唤醒技术”和”远场语音识别技术”，面向垂直领域深度优化，达到平均96%以上的准确率。而且，不仅识别率极大的提升，也带来了更符合人性化的语音交互速度体验，使得小度智能音箱从唤醒到内容的全链条响应速度达到全球极致的1.4S以内，而用户唤醒以后的机器应答响应时间更是做到了400~500毫秒的极致速度。

什么样的语音唤醒体验才能带来完美语音交互体验？语音唤醒是智能音箱用户的第一体验。声智科技通过宽场景高灵敏唤醒技术，很好的平衡了唤醒率和误唤醒率。众所周知唤醒率和误唤醒是一对跷跷板，当唤醒效果很好的时候，误唤醒通常也会很高，智能音箱毫无征兆的突然唤醒也是很麻烦的事情。为解决这个矛盾，声智科技的技术不走讨巧路线，而是采用全新的唤醒模型，优先保证用户的体验，在此基础上再降低误唤醒率，同时还要提升强噪环境下的唤醒率。

当然，不同麦克风器件的选择带来不同的语音交互效果，信噪比（SNR）70dB以上的麦克风要比信噪比60DB的麦克风的远场和抗噪效果更好，但是选用高信噪比的麦克风，其结果就是成本会高出很多。彻底屏蔽硬件的差异化，面向低成本高失真产品，努力帮助客户降低成本，声智科技推出了低成本高容错唤醒技术。即便在一致性和失真度非常大的情况下，也要出色的保证用户体验的效果，这是声智科技给所有客户一直的承诺。

什么样的语音识别体验才能带来完美语音交互体验？由于远场智能产品的场景特殊性，远场语音识别相对更加垂直，比如智能音箱的识别偏重于音乐和百科领域，智能汽车的识别偏重于地图和音乐领域，而对于地域性的覆盖，则是远场语音识别着重考虑的，并不能简单把方言划归为一个技术系列，特别是消费电子领域的高度标准化思维，对于远场语音识别的场景兼容更加看重。所以声智科技的Far-Field ASR就要在垂直领域考虑更多场景难题，不仅如此，为保证云端服务的稳定性和并发能力，声智科技采用端云强耦的技术架构，合理在端云分配计算能力，与Amazon AWS、阿里云等主流云计算平台采用相同的服务可靠性标准，SLA高达99.99%。

（3）好玩：满足儿童与极客不同需求，解决宽场景难题

真正的产品落地需要考虑众多应用场景的难题，声智科技的Far-Field ASR就要在垂直领域考虑更多场景难题，比如老人和小孩的识别怎么办？南方和北方的语言差异怎么办？而并非只是简单的技术叠加。

智能音箱市场的用户群中有20%+是儿童，如何满足儿童用户群体的需求，提供零沟通距离，优质精选内容，保证健康安全又不失好玩有趣的语音交互体验？声智科技推出了远近场的儿童语音识别技术，针对儿童的语音特点，例如：儿童生理上发育不够成熟，不善于掌握发音部位与方法，辅音发音分化不明显。而且，儿童发音单音重复较多，往往发出单个的、重叠的音，他们会说“车车”、“糖糖”、“兔兔”、“饭饭”，而不说“汽车”、“糖”、“兔子”、“饭”这样的儿童的交流方式，声智科技进行声学模型优化训练，升级打造ASR技术，使得儿童识别率更准确，更贴合儿童的交互习惯。

除了儿童模式，小度智能音箱还推出了极客模式。极客模式下，一次唤醒之后，用户可以进行多轮对话。针对用户多轮对话的语音交互需求，声智科技推出了支持多轮对话的端云交互技术，从麦克风阵列、语音唤醒、端点检测和语音识别四个技术链条进行深度优化，满足了百度对于用户体验的极致追求。其中，端点检测技术既要保证响应速度，又要准确识别断句以保证语言连贯性，在复杂场景下的技术实现非常困难。声智科技率先突破这些技术难关，将会推动智能音箱技术向着更加智能的方向快速发展。

随着用户认知度提升、整体产业链的成熟、用户体验提升等因素，2018年智能音箱将会持续爆发。但语音交互技术仍需继续发力，声智科技作为国内知名的语音交互技术提供商，将持续聚焦在技术领域，与众多合作伙伴一道推动智能语音行业的发展。

来源：云企网-华中企业新闻网

精品推荐

中电光谷《企业社会价值报告》连续三年荣获“五星佳”

合作伙伴

新浪云企网武汉新市民网荆楚资讯网中视网网易中视名家书画艺术网中国文旅传媒网中国融媒网武汉网