数智化转型网szhzxw.cn 人工智能资讯 人工智能资讯|微软正式发布 GPT-realtime 模型,主打更逼真语音与多模态输入

人工智能资讯|微软正式发布 GPT-realtime 模型,主打更逼真语音与多模态输入

微软正式宣布,其最新的语音转语音 (S2S) 模型 GPT-realtime 已在 Azure AI Foundry 平台上正式发布。这款新模型将微软在语音技术方面的多项改进整合到一个统一的产品中,其核心优势聚焦于自然的语言处理、卓越的音频质量以及更精准的指令跟随能力。

开发者现在可以通过全新的 Real-time API 访问 GPT-realtime。该模型旨在提供更自然、富有表现力的语音输出和更高质量的音频体验。作为此次发布的一部分,微软还推出了两种全新的语音选项——Marin 和 Cedar,旨在为用户带来逼真且清晰的语音合成效果。

微软在公告中强调了新模型的几项关键改进,包括增强的功能调用能力、更高的指令执行准确性,以及创新的图像输入支持。这项新功能允许用户在语音对话中加入图像并进行讨论,从而实现多模态交互,而无需依赖视频流。

除了技术层面的升级,微软还对定价模型进行了调整。与之前的 gpt-4o-realtime 预览版本相比,正式版的 gpt-realtime 价格降低了20%,成本将依据每百万代币(token)的使用量进行计算。

此次发布标志着微软正致力于为广大开发者和企业扩展其实时 AI 能力。通过将富有表现力的语音合成、高质量音频和多模态输入相结合,GPT-realtime 有望为从高级客户支持系统到创新的辅助功能工具等广泛的应用场景提供强大的技术支持。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)萍水

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。http://www.szhzxw.cn/92452.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部