人工智能资讯|勇敢面对OpenAI：Google Gemini 2.5实时音频表现居榜首，功能调用准确率达到71.5%。-数智化转型网szhzxw.cn

谷歌本周宣布对其原生音频模型 Gemini 2.5 Flash Native Audio 进行重大更新，旨在将 AI 交互从简单的“文本转语音”转变为真正类人实时的交流。数字化转型网www.szhzxw.cn

此次更新的核心在于其“原生”处理能力。与传统人工智能需要先将语音转换为文本后处理不同，该模型能直接感知音调、情绪和声音暂停，使对话更加自然流畅。

谷歌数据显示，新版本对开发者指令的合规率已从84%提升到90%，在处理多步工作流程时显示出更高的准确性。在音频基准测试ComplexFuncBench中，其功能调用准确率达到71.5%，超过OpenAI gpt-realtime（66.5%），显示出在现场语音代理领域的强劲竞争。

目前，这项技术已完全集成到Google AI Studio、Vertex AI、Gemini Live和Search Live中。开发者现在可以通过 Gemini API 体验这一升级模型，利用其更强的一致性和多回合对话记忆功能，构建更可靠、更具情感感知的 AI 助手。数字化转型网www.szhzxw.cn

若您对人工智能感兴趣，可添加数字化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商，可联系数字化转型网小助手思思（17757154048，微信同号）

若您为人工智能服务商，可添加数字化转型网小助手Nora，加入人工智能行业交流群。

若您为人工智能创业者，可添加数字化转型网社群主理人Carina，加入人工智能创业交流群。

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于网络；编辑/翻译：数字化转型网（Professionalism Achieves Leadership 专业造就领导者）默然

人工智能资讯|勇敢面对OpenAI：Google Gemini 2.5实时音频表现居榜首，功能调用准确率达到71.5%。

江门：江海“四大政策”持续激发经济动能

腾讯ARC开源音频模型 AudioStory：用大语言模型生成长音频

北京市经济和信息化局2021年度项目供应商公开比选（第八批）比选成交公告

习近平总书记重要讲话在上海经济界引发热烈反响以更奋发有为精神状态创造新业绩

人工智能资讯|人工智能招聘平台 Jack & Jill 完成 2000 万美元种子轮融资：利用对话式人工智能重新定义求职流程

联系我们

微信扫一扫关注我们

人工智能资讯|Firefox宣布新任CEO：AI功能必须成为可选

人工智能资讯|谷歌深度将Atmosphere编程工具Opal整合进Gemini，创建了自定义AI助手Gems，无需代码

相关推荐

联系我们

微信扫一扫关注我们