点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:语音模态:人工智能下一个前沿领域
首页> 网安频道> 技术前沿 > 正文

语音模态:人工智能下一个前沿领域

来源:参考消息2026-01-29 17:28

  参考消息网1月28日报道美国《福布斯》杂志网站1月7日发表题为《语音模态:人工智能与工作流程的下一个前沿领域》的文章,作者是美国代罗公司联合创始人兼首席技术官阿金基亚·辛格,编译如下:

  我们仍然生活在一个键盘主导的世界里,但种种迹象表明我们不应如此。美国斯坦福大学的研究人员发现,在智能手机上,语音识别的速度大约是打字速度的三倍(每分钟约160个单词,而打字只有50多个单词),而且错误率更低。与此同时,全球正在使用的语音助手已达约84亿个,数量超过了全球人口总数。从理论层面讲,语音技术早已占据优势。

  然而在实践中,大多数人仍然习惯于在触屏上敲击。

  作为一位为无需整天坐办公室的人群开发人工智能技术的首席技术官,我发现了一个普遍规律:当人们真正开始使用语音功能时,工作效率会大幅提升。

  我相信,下一波消费级人工智能产品将由那些将语音作为主要交互界面而非附加功能的团队打造,并围绕用户操作痛点进行系统性设计。

  语音技术带来的生产力提升显而易见。正如斯坦福报告所示,研究反复证明语音输入与语音识别速度远超打字。即使将一小部分日常打字任务转变为语音操作,每周也能节省可观的时间。

  语音也是一项包容性技术。在全球化团队中,语言壁垒的代价体现在错失信息细节、文档处理速度减慢以及组织内部的“影子翻译”等方面。实时语音翻译和多语言助手正在改变这一现状。新型设备端模型仅需占用较少资源,就能实现多种语言的低延迟识别和翻译,从而在提高速度和准确性的同时,将数据存储在设备端而非云端。这使得语音交流更加实用,也更容易被信任。

  那么,既然语音交流速度更快,为何并非人人都在使用?

  以下四个反复出现的问题促使用户重新选择打字:

  首先,隐私保护模糊不清。近期某知名语音助手因未经授权录制私人对话被控侵权、最终以9500万美元达成和解的集体诉讼案,让“持续监听”模式蒙上风险阴影。即便特定应用程序操作合规,用户对语音技术的信任心理已然受损。

  其次,语音交流本质具有社交属性。你可以在拥挤的火车上打字输入敏感内容,但你不太可能在开放式办公室里大声口述绩效评估或薪资谈判内容。即使是像“起草一份提交给某供应商的升级报告”这类日常工作,当同事在场时也会让人感到尴尬。

  第三,延迟会破坏使用体验的流畅感。从技术层面讲,现代语音模型可以实时传输转录文本,但一旦转录流程复杂,涉及大语言模型和网络跳转,延迟就会逐渐出现。

  最后,实际应用场景充满变数。如果助手反复误读客户姓名或项目代码,即便其余转录内容准确无误,用户的信任感也会瞬间崩塌。

  如果你正在构建或采购以音频为核心模态的消费级人工智能产品,你不能仅仅“添加一个麦克风按钮”。以下四个原则至关重要:

  1.将延迟视为用户体验特性,而非后端技术细节。

  明确设定“用户停止说话”至“屏幕显示有效响应”的时间标准,并设计精准达标方案。在用户说话时实时传输部分文本。快速生成初稿并在后台优化。高亮显示低置信度的短语以便用户快速审查。微小的延迟优化累积起来,能显著提高产品使用率。

  2.让隐私清晰可见且可控。

  默认用户已经知晓相关负面新闻。尽可能将简短指令和草稿的处理默认设置为设备端本地处理,并明确告知用户。确保麦克风状态清晰可辨。提供简单的控制选项:避免存储音频数据,使用有时限的历史记录,并提供便捷的删除功能。用通俗易懂的语言解释数据何时以及为何离开设备。说明越具体,用户就越有可能将语音用于实际工作。

  3.设计时考虑“他人在场”的情境。

  大多数语音交互都发生在有他人在场的情况下。构建针对简短、低音量指令优化的“安静模式”。让用户能够在同一流程中流畅地切换语音和打字:先口述要点,再输入敏感语句,同时不丢失上下文。如果能控制硬件,定向麦克风、可穿戴设备和更精准的波束成形技术可减少用户“对着房间说话”的不适感。

  4.从一开始就支持多语言并具备专业场景适配能力。

  在分布式团队中,混合语言对话是常态。将语码转换和翻译作为核心功能而非事后补充。允许企业自定义词汇表(例如客户名称、工作代码和库存单位),并通过修正机制持续优化模型,使行业术语成为助力而非故障源。跨多种语言的实时设备端翻译已经在主流消费设备中实现,用户对此类“优质体验”的期待正日益提升。

  最优秀的语音界面不仅限于生成文本,而是更能理解用户意图并采取行动。当用户说“将此记录为一个漏洞,分配给基础设施团队,并为非技术利益相关者总结风险”时,系统应自动创建工单、正确分派任务并生成简要说明,而非简单将一段文字扔进笔记应用。

  这种从语音听写到协调的转变,使音频不再仅仅是一种便利工具。它将语音转化为覆盖日历、文档、工单和工作流程的执行层,也正是这种转变使得那些深入了解用户领域的团队能够超越通用助手,脱颖而出。真正的问题在于,你是否愿意重新设计工作流程,将键盘作为备选方案而非默认选项。

  这意味着在一个高摩擦流程中试点语音应用,精准衡量成效,并为延迟、隐私及多语言支持设定具体目标。如果能成功实现,音频将不再是一个炫酷的附加功能,而是成为基础设施:这层无形架构能加速团队协作、汇聚多元声音,并将口头意图实时转化为行动。(张琳)

[ 责编:田津金 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 1月28日,国网宝鸡供电公司输电运检中心秦岭输电运维班成员赵鹤在变电站张贴新春对联。陕西省宝鸡市凤县的秦岭深处坐落着一座特殊的“融冰”电站——110千伏秦岭融冰变电站。由于当地处在冷暖气流交汇带,雨雪天气极易导致输电线路覆冰。

  • 1月30日,山东省泰安市高新区北集坡街道组织的“品书香 赏非遗逛大集”活动热闹开集,丰富多彩的文艺节目和便民服务项目吸引周边村镇居民前来逛大集办年货。

独家策划

推荐阅读
【回顾】2024年网络公益行动优秀网络公益项目
2025-12-29 11:25
【优秀案例展示|海报】“AI筑梦基础教育”公益项目
2025-12-28 11:10
【优秀案例展示|海报】“AI筑梦基础教育”公益项目
2025-12-28 11:10
【优秀案例展示|海报】阿里公益天天正能量
2025-12-28 11:10
【优秀案例展示|海报】淘宝手艺人·星火扶持计划
2025-12-28 11:10