

设备语音AI：将语音转化为新键盘

行业资讯

发布时间：2026-03-18 09:19

摘要：多年来，行业一直在各种应用中实施语音人工智能，成效各异。如今，几个因素正在汇聚推动主流采用，基于语音的用户界面（UI）现已准备好迎接黄金时代。...

多年来，行业一直在各种应用中实施语音人工智能，成效各异。如今，几个因素正在汇聚推动主流采用，基于语音的用户界面（UI）现已准备好迎接黄金时代。

这些因素包括语言模型的重大进步、具备设备端AI处理的节能系统（SoC）、语音输入的普及、上下文感知AI的出现，以及广泛的生态系统和开发者支持。这些驱动因素共同推动语音输入发挥潜力，成为新的键盘。

几十年来，计算机和客户端-设备接口从基于文本的终端演变为图形界面、鼠标界面、笔式界面、多点触控，以及有限成功但成功的手势命令。每一次重要的用户界面范式转变都反映了技术的飞跃，同时也加深了对人机界面吸引力和成功因素的更深入理解。

随着亚马逊设备的唤醒词“Alexa”，语音输入进入了消费者意识。其他厂商开始使用特定关键词唤醒设备，提供有限的词汇以实现设备内语音处理。然而，由于不准确和设备处理能力不足，导致其仅用于唤醒词，阻碍了语音作为用户界面的广泛应用。

如今，模型开发和部署的重大进展意味着设备内、基于语音的界面终于成为主流。大型语言模型（LLM）以及近年来的小型语言模型（SLM）的普及，以及代理人工智能的快速演变，共同塑造了用户界面范式的最新转变。

人工智能语音识别的示意图。 — 图1：语音输入即将发挥潜力，成为新的键盘。（来源：Adobe Stock）

LLM的演进与SLM的兴起

基于人工智能的自动语音识别在过去二十年中经历了显著演变，从循环神经网络和门控循环单元模型，发展到基于注意力的编码-解码模型，如今则发展到基于变换器的大型语言模型。随着首批基于变压器的模型的引入，转向基于LLM的语音模型带来了显著的准确性提升。

采用变换器架构的语音原生模型现在已实现接近人类的精度。语音对语音（STS）型号实现了不到300毫秒的自然对话往返延迟，这对于用语音替代键盘至关重要。像OpenAI的Whisper和谷歌的语音转文字系统现在实现了近乎人类转录的质量。此外，多语言和口音感知模型使语音界面更具包容性。

GPT-1 只有 1.17 亿参数，而 GPT-4 大约有 1T 参数。几乎不可能在设备上运行如此规模的模型。即使原始计算能力不是问题，所需的能量也使得它们在设备上应用时不可行。因此，SLM迅速成为商业、边缘和语音应用的首选基础。

与其大型兄弟模型不同，SLMs通常规模为1B到7B参数，这得益于架构的精炼、数据精选的训练流程以及专家技术的混合，实现了高准确性和稀疏激活。近年来，这些模型进一步优化了仅语音的SLM，参数远少于此。例如Qwen2系列、SmolLM、TinyLlama、Gemma-3系列、Microsoft的VibeVoice以及Nvidia Canary-1B-V2，其中一些为多语言能力进行了优化。

此外，最新的SLM模型利用混合精度处理以保持高准确性。虽然一直推动减少AI推理的位宽，但音频LLM要么使用8位权重配16位推理，要么运行16位浮点数据类型的LLM。

SLM在效率、延迟和隐私方面的优势远远超过了参数规模的巨大。通过解决早期语音助手的局限性，SLM正在推动向设备内语音AI的转变，使其变得可行。

具备设备内AI处理的节能SoC

由于高的设备推理处理性能以及消费者对隐私和低延迟的需求，行业从云处理向设备内语音AI的转变正在加速。实时语音代理，如gpt-realtime等平台支持的，现在支持句中语言切换和情感感知回应。

随着监管压力的加大，企业越来越多地转向内部SLM来将敏感音频保存在设备或私有云中，从而消除采用的障碍。硬件也在不断发展。现代神经处理单元和数字信号处理器（DSP）现在可以实时运行0.5B到3B参数的SLM，这意味着每部手机、可穿戴设备、机器人或汽车很快都能本地托管语音代理。

早期智能音箱的一个局限是大部分处理在云端，设备内处理仅限于有限的词汇。对于时间敏感的应用，数据传输会增加延迟，并带来隐私和安全问题。然而，在设备本身上运行许多新型AI模型需要一个能效计算平台，能够快速且准确地进行本地语音AI处理。

Cadence的语音管道图。 — 图2：为了替代键盘，SoC必须在设备上运行SLM并执行所需的语音和音频处理。（来源：Cadence Design Systems， Inc.）

要让语音输入取代键盘，设备内处理还必须提供更好的用户体验，促使消费者更换现有输入设备，依赖基于语音的AI指令。此外，需要能够运行SLM并在设备上执行所有必要的语音和音频处理的SoC。SoC供应商可以利用Cadence的Tensilica HiFi iQ DSP等解决方案，实现所需的计算和AI性能及节能，促进这一转型。

语音输入无处不在

语音助手非常适合移动、多任务处理或无障碍场景，现已嵌入手机、智能音箱、电视、汽车、机器人、可穿戴设备及其他边缘设备中。例如，汽车中的语音输入能让驾驶员专注于道路，而不必在多层级的触摸菜单中操作。外科医生还可以在手术过程中向计算机系统发出基于语音的指令，以访问患者数据。在打字或触控不切实际的环境中，基于语音的界面减少了摩擦。

语音比起浏览数字菜单或输入查询更直观、更贴近个人化。与此同时，用户越来越期待对话界面能模拟人类对话。

情境感知人工智能和多模态应用场景

语音界面将发展为上下文敏感型，能够理解用户意图、位置、历史和情感语气，实现个性化和主动的互动。声音将与手势、凝视、触觉和视觉线索结合，创造更丰富的体验。例如，你可能会说“给我看看”，同时指向屏幕或物体。随着语音用户界面在医疗、物流、制造和客户服务领域的广泛应用，它们正在简化工作流程，缩短培训时间，并提升可及性。

借助改进的降噪技术，输入可以无失真地向语音转文字的AI模型进行语音交流。例如，声音锥形是指麦克风从人面向或说话的方向接收到声音，消除了本可能降低音质的背景噪音。

广泛的生态系统与开发者支持

现代语音开发平台，如亚马逊Alexa技能、Google Actions和苹果SiriKit，提供了强大的框架，显著加速了语音应用的创建。除了对话式界面，这些平台还与各种API、物联网设备和云服务紧密集成，使语音交互成为高度复杂系统的直观前端。例如，开发者可以将语音技能连接到后端微服务，触发智能家居例程，查询企业数据源，或通过MQTT或HomeKit等协议控制物理设备。

随着SLMs、突破性的STS架构和低功耗推理芯片的兴起，世界正进入语音优先计算的时代。语音正成为我们日常使用的设备和系统的主要接口，包括智能手机、可穿戴设备和汽车，以及未来可能使用的设备，如增强现实/虚拟现实眼镜和机器人。随着物理人工智能的持续发展和这些技术的融合，语音将超越触摸和打字，成为人类与数字系统交互最自然、无处不在且具上下文感知的方式。

上一条：Embedded World 2026 总结：应对日益增长的集成复杂性

下一条：Digi收购Particle以扩大嵌入式物联网覆盖范围

观众报名

展位申请