语音控制IC低功耗微控制器(MCU)的语音控制,什么构成了良好的语音控制解决方案,语音用户界面 (VUI) 使人类能够使用语音与机器通信
在本文中,我们将讨论在低功耗和资源受限的微控制器单元 (MCU) 上部署语音控制的原因和方式,以及将其转化为现实世界的应用。
但首先,让我们定义几个核心概念——人机界面 (HCI)、语音用户界面和语音控制:
- 人机界面 (HCI) 是一个定义明确的概念,可以描述为人类用户和计算机之间的通信点。通信通道分类可以基于人类的许多感官:视觉、听觉、触觉等。
- 语音用户界面 (VUI) 使人类能够使用语音与机器通信。机器可以采用某种形式的语音识别将人类语音转换为命令和查询。
- 语音控制是 VUI 的一种实现,允许人类使用简单、简洁的命令来操作设备或电器。
应广单片机语音控制IC芯片的特点:
1.高性能:采用高性能的处理器和算法。
2.低成本:的价格非常实惠,相比其他品牌的单片机芯片,具有更高的性价比。
3.易用性:编程语言简单易学。
4.语音识别:具有高效的语音识别功能,可以识别用户的语音指令,从而实现智能化的控制。
5.语音提示:可以通过芯片内置的音频放大器播放提示音,使用户了解设备的工作状态和相关信息。
6.语音回放:可以将用户的声音录制下来并存储在芯片中,以便在需要时进行回放。
7.ADC性能:应广单片机语音控制IC芯片内置高性能的ADC(模数转换器),可以将模拟信号转换为数字信号,方便处理器进行处理。
8.OTP烧录芯片:应广单片机语音控制IC芯片支持OTP(一次性可编程)烧录芯片,可以将程序代码和数据烧录到芯片中,从而避免重复烧录和数据泄露的风险。
VUI 已经存在了几年,近年来由于 Amazon Echo、Google Home、Apple Home Pod 等设备及其相关语音助手也部署在智能手机、电视、汽车和其他设备上而变得非常流行。这些设备中的大多数依赖于复杂的、基于云的语音识别引擎。这些引擎处理复杂的人类语音,允许用户使用自然语言与机器交互。
然而,这些能力伴随着(多方面的)代价,首先是用户隐私受到损害,因为用户查询被上传到云端进行处理,并在那里存储不同时间长度(从几小时到几个月,取决于服务供应商)。此外,设备必须连接到云才能运行,而云上的处理通常耗能且速度较慢,这反过来又使设备 BOM 成本飙升,因为必须将相对复杂的连接硬件集成到设备中,这通常会导致重大的设计修改。
在许多用例中,通过在电池供电、资源受限、离线、支持 MCU 的设备上部署小型、任务优化的语音控制引擎,可以降低功能齐全的基于云的语音助手的价格。由小型专用 VUI 引擎驱动的语音控制可以在简单的基于 MCU 的硬件模块上实现,作为现有控件(旋钮、按钮、触摸屏等)的直接替代品。当然,这种解决方案的功能存在局限性,但正如我们即将看到的那样,对于许多任务和用例,这些局限性被其优势所掩盖。
MCU 语音控制实现的主要限制是,它们通常具有词汇支持有限的特点——只能识别一小部分单词,用户必须记住这些单词才能正确操作设备。换句话说,用户不能使用自然语言,而是必须使用支持的单词和命令来提出请求。例如,配置为检测命令“下一首歌曲”或甚至只是“下一首”的系统可能无法识别“播放下一首歌曲”。
这种限制有一个好处——简单。使用简短、简洁的命令,大大降低了设备由于环境噪音或其他干扰而“误解”命令的风险。当考虑到 MCU 上的语音控制旨在处理的任务时,这一点变得非常明显。
让我们回顾一些用例。
语音控制IC应用的领域
大型电器
许多具有按钮\旋钮\触摸界面的大型电器也用脏手或湿手操作(烤箱、灶具、洗衣机、洗碗机)。部署在 MCU 驱动的硬件模块上的语音控制对于保持电器清洁和易于操作非常有用(您是否曾尝试用湿手指操作触摸界面?)。从制造的角度来看,部署在批量生产的 MCU 驱动的硬件模块上的语音控制可以作为现有按钮、旋钮和触摸界面的直接替代品,集成成本最低。
机器人吸尘器
机器人吸尘器 (RVC) 可以独立运行或通过遥控器运行(遥控器总是会丢失……)。 MCU 语音控制模块仅支持几个命令(“清洁厨房”、“停止”、“充电”),可以显著改善用户体验,对 BOM 和成本的影响很小,同时性能优于基于云的语音助手,后者在嘈杂的环境和短命令方面往往存在困难。
公共亭和自动售货机
随着 Covid-19 的出现,卫生问题成为主要关注点,尤其是在公共领域。 MCU 语音控制模块可以提供一种有效、低成本的选择,以升级现有的满足公共卫生需求的机器。 支持的命令可以显示\打印在设备上,以缓解对自然语言支持的不足,同时降低错误率。
可穿戴设备、可听设备和其他微型设备(TWS 和助听器)
此类设备的特点是电源有限(电池小,无法实现持续的云连接)、计算资源有限(无法实现大词汇量语音识别引擎)和表面空间有限(按钮和点击界面不方便),这使得 MCU 电源语音控制成为理想的解决方案。
带语音控制的红外遥控器(用于电视、家庭娱乐和 HVAC 系统)
遥控器是操作电视、家庭娱乐系统、空调系统、吊扇和任何触手可及的设备的首选界面。在遥控器上添加设备上的 VUI 可以实现更好的个性化(例如,通过扬声器验证,Netflix 等智能电视应用程序可以通过用户的个人资料启动),还可以解决“寻找遥控器”的麻烦。售后通用语音控制遥控器可以为旧系统提供轻松升级。
什么构成了良好的语音控制解决方案?
MCU 驱动的语音控制解决方案必须解决一些关键挑战,才能被视为现有界面(旋钮、按钮、触摸)的高效、有效和可靠的替代方案:
服务质量 - 语音控制引擎“理解”(正确检测)发出的命令或单词的概率。存在两种类型的错误 - 错误接受和错误拒绝。用户对每种错误类型的敏感度可能因用例而异,并且必须相应地调整语音控制引擎。一般来说,用户期望真实接受率为 95% 或更高,并且每 24 小时错误接受不超过 1 次。换句话说,VUI 性能应该使得用户不会费心去拿遥控器或按钮。
噪声鲁棒性 - 能够在嘈杂的环境中为前面审查的所有情况提供高质量的检测(有些是噪声源)。良好的 VUI 实现预计仅在 SNR 水平低于 5db 时才会出现可察觉的性能下降。
功率和计算要求——这些对于确定候选实现是否适合用例至关重要。对于电池供电的实现,功耗应在毫瓦范围内。这样的 VUI 实现应该能够在 Cortex-M0+ 或类似的 MCU 上运行,消耗的电量小于 50MCPS 和 80KB 内存。
安全性——MCU 语音控制解决方案可能需要/需要选择性地响应特定实体发出的命令。这可以通过集成到系统中的说话人验证技术来实现。
MCU 的 VUI 实现挑战
构建具有竞争力的 VUI 引擎是一场平衡多个(通常是相反的)约束的游戏:
- 服务质量(真实接受率与每小时错误接受率)
- 对噪声的鲁棒性
- 对混响的鲁棒性
- 极其有限的计算和内存资源
- 对口音的鲁棒性
- 数据采集成本
在深度学习研究中,提高模型性能的常用方法是增加模型复杂性和训练数据量。这些技术不适用于“现实世界”,因为现实世界的目标是以经济的方式(数据采集资源有限)构建针对资源非常有限的 MCU 的模型(本例中为 VUI 引擎)(模型复杂度必须保持在最低限度)。
不同约束带来的压力意味着需要分析不同的模型尺寸缩减技术和旨在充分利用有限数据采集资源的高级数据工程方法。可以部署后处理量化和量化感知训练、结构化和非结构化修剪、低秩近似和稀疏性以及知识提炼等技术。虽然这些技术可以减少计算和内存占用,但模型性能仍然需要考虑:
- 多种音频信号处理技术
- 多种特征提取技术
- 从 CNN 到 RNN 和 Transer 的不同模型架构
- 从有效和高效的数据收集程序到数据增强和噪声混合参数的各种音频数据工程方法
最后,当实现令人满意的模型架构、数据采集和训练方案时,仍然需要克服许多实施挑战:
- 代码可移植性和可维护性
- 高性能和高精度定点算法
- 多平台优化
- API 简单性和可用性
CEVA WhisPro 是一种基于神经网络的语音识别技术,旨在开发以语音为主要人机界面的产品。WhisPro 扩展了 CEVA 的智能声音 IP 产品组合,为开发人员提供了基于云或边缘语音控制设备的整体解决方案。
结论
有效的 VUI 引擎(例如 CEVA 的 WhisPro 语音控制技术)是我们将语音用作智能云服务和边缘设备的主要人机界面的关键部分。语音识别模型需要具有较高的识别率。固有的 AI 技术应支持各种用例和语言的一系列命令,而不会影响功率或计算要求。最后,为了阻止未经授权使用语音激活设备,必须具备诸如说话人验证之类的安全功能。