多年来,行业一直在各种应用中实施语音人工智能,成效各异。如今,几个因素正在汇聚推动主流采用,基于语音的用户界面(UI)现已准备好迎接黄金时代。
这些因素包括语言模型的重大进步、具备设备端AI处理的节能系统(SoC)、语音输入的普及、上下文感知AI的出现,以及广泛的生态系统和开发者支持。这些驱动因素共同推动语音输入发挥潜力,成为新的键盘。
几十年来,计算机和客户端-设备接口从基于文本的终端演变为图形界面、鼠标界面、笔式界面、多点触控,以及有限成功但成功的手势命令。每一次重要的用户界面范式转变都反映了技术的飞跃,同时也加深了对人机界面吸引力和成功因素的更深入理解。
随着亚马逊设备的唤醒词“Alexa”,语音输入进入了消费者意识。其他厂商开始使用特定关键词唤醒设备,提供有限的词汇以实现设备内语音处理。然而,由于不准确和设备处理能力不足,导致其仅用于唤醒词,阻碍了语音作为用户界面的广泛应用。
如今,模型开发和部署的重大进展意味着设备内、基于语音的界面终于成为主流。大型语言模型(LLM)以及近年来的小型语言模型(SLM)的普及,以及代理人工智能的快速演变,共同塑造了用户界面范式的最新转变。

基于人工智能的自动语音识别在过去二十年中经历了显著演变,从循环神经网络和门控循环单元模型,发展到基于注意力的编码-解码模型,如今则发展到基于变换器的大型语言模型。随着首批基于变压器的模型的引入,转向基于LLM的语音模型带来了显著的准确性提升。
采用变换器架构的语音原生模型现在已实现接近人类的精度。语音对语音(STS)型号实现了不到300毫秒的自然对话往返延迟,这对于用语音替代键盘至关重要。像OpenAI的Whisper和谷歌的语音转文字系统现在实现了近乎人类转录的质量。此外,多语言和口音感知模型使语音界面更具包容性。
GPT-1 只有 1.17 亿参数,而 GPT-4 大约有 1T 参数。几乎不可能在设备上运行如此规模的模型。即使原始计算能力不是问题,所需的能量也使得它们在设备上应用时不可行。因此,SLM迅速成为商业、边缘和语音应用的首选基础。
与其大型兄弟模型不同,SLMs通常规模为1B到7B参数,这得益于架构的精炼、数据精选的训练流程以及专家技术的混合,实现了高准确性和稀疏激活。近年来,这些模型进一步优化了仅语音的SLM,参数远少于此。例如Qwen2系列、SmolLM、TinyLlama、Gemma-3系列、Microsoft的VibeVoice以及Nvidia Canary-1B-V2,其中一些为多语言能力进行了优化。
此外,最新的SLM模型利用混合精度处理以保持高准确性。虽然一直推动减少AI推理的位宽,但音频LLM要么使用8位权重配16位推理,要么运行16位浮点数据类型的LLM。
SLM在效率、延迟和隐私方面的优势远远超过了参数规模的巨大。通过解决早期语音助手的局限性,SLM正在推动向设备内语音AI的转变,使其变得可行。
由于高的设备推理处理性能以及消费者对隐私和低延迟的需求,行业从云处理向设备内语音AI的转变正在加速。实时语音代理,如gpt-realtime等平台支持的,现在支持句中语言切换和情感感知回应。
随着监管压力的加大,企业越来越多地转向内部SLM来将敏感音频保存在设备或私有云中,从而消除采用的障碍。硬件也在不断发展。现代神经处理单元和数字信号处理器(DSP)现在可以实时运行0.5B到3B参数的SLM,这意味着每部手机、可穿戴设备、机器人或汽车很快都能本地托管语音代理。
早期智能音箱的一个局限是大部分处理在云端,设备内处理仅限于有限的词汇。对于时间敏感的应用,数据传输会增加延迟,并带来隐私和安全问题。然而,在设备本身上运行许多新型AI模型需要一个能效计算平台,能够快速且准确地进行本地语音AI处理。

要让语音输入取代键盘,设备内处理还必须提供更好的用户体验,促使消费者更换现有输入设备,依赖基于语音的AI指令。此外,需要能够运行SLM并在设备上执行所有必要的语音和音频处理的SoC。SoC供应商可以利用Cadence的Tensilica HiFi iQ DSP等解决方案,实现所需的计算和AI性能及节能,促进这一转型。
语音助手非常适合移动、多任务处理或无障碍场景,现已嵌入手机、智能音箱、电视、汽车、机器人、可穿戴设备及其他边缘设备中。例如,汽车中的语音输入能让驾驶员专注于道路,而不必在多层级的触摸菜单中操作。外科医生还可以在手术过程中向计算机系统发出基于语音的指令,以访问患者数据。在打字或触控不切实际的环境中,基于语音的界面减少了摩擦。
语音比起浏览数字菜单或输入查询更直观、更贴近个人化。与此同时,用户越来越期待对话界面能模拟人类对话。
语音界面将发展为上下文敏感型,能够理解用户意图、位置、历史和情感语气,实现个性化和主动的互动。声音将与手势、凝视、触觉和视觉线索结合,创造更丰富的体验。例如,你可能会说“给我看看”,同时指向屏幕或物体。随着语音用户界面在医疗、物流、制造和客户服务领域的广泛应用,它们正在简化工作流程,缩短培训时间,并提升可及性。
借助改进的降噪技术,输入可以无失真地向语音转文字的AI模型进行语音交流。例如,声音锥形是指麦克风从人面向或说话的方向接收到声音,消除了本可能降低音质的背景噪音。
现代语音开发平台,如亚马逊Alexa技能、Google Actions和苹果SiriKit,提供了强大的框架,显著加速了语音应用的创建。除了对话式界面,这些平台还与各种API、物联网设备和云服务紧密集成,使语音交互成为高度复杂系统的直观前端。例如,开发者可以将语音技能连接到后端微服务,触发智能家居例程,查询企业数据源,或通过MQTT或HomeKit等协议控制物理设备。
随着SLMs、突破性的STS架构和低功耗推理芯片的兴起,世界正进入语音优先计算的时代。语音正成为我们日常使用的设备和系统的主要接口,包括智能手机、可穿戴设备和汽车,以及未来可能使用的设备,如增强现实/虚拟现实眼镜和机器人。随着物理人工智能的持续发展和这些技术的融合,语音将超越触摸和打字,成为人类与数字系统交互最自然、无处不在且具上下文感知的方式。