OpenAI 近日正式推出了三款新型实时语音模型,旨在为开发者提供更先进的语音应用解决方案。这三款模型分别是 GPT‑Realtime‑2、GPT‑Realtime‑Translate 和 GPT‑Realtime‑Whisper,各自针对不同的应用场景。数智化转型网www.szhzxw.cn
GPT‑Realtime‑2 是首款具备 GPT‑5 级推理能力的语音模型。该模型能够处理复杂的请求,并以更自然的方式持续进行对话。它被专门设计用于实时语音交互,能够在用户提问或发出指令时,同时进行推理并保持对话的连贯性。此外,GPT‑Realtime‑2 还可以调用工具、处理用户的打断与更正,根据当前情境作出更贴切的回应。数智化转型网www.szhzxw.cn
第二款模型,GPT‑Realtime‑Translate,专注于实时翻译功能,支持 70 多种输入语言和 13 种输出语言。其设计目的在于尽可能地跟上说话者的语速,提供近乎 “同声传译” 的体验。这使得在跨语言通话、会议或直播等场景下,用户能够更流畅地交流。数智化转型网www.szhzxw.cn
GPT‑Realtime‑Whisper 是一款实时流式语音转写模型,着重于低延迟的语音转文本能力。该模型能够在说话者讲话的同时即时完成转录,为各类实时产品带来更快、更灵敏的表现。无论是直播字幕的实时生成,还是能跟上讨论节奏的会议记录,这款模型都展现了其广泛的应用潜力。数智化转型网www.szhzxw.cn
在接入方式与定价方面,OpenAI 表示这三款新模型已纳入其 Realtime API 体系。GPT‑Realtime‑2 的定价为每 100 万音频输入 Token 收费 32 美元,而每 100 万音频输出 Token 则收费 64 美元。GPT‑Realtime‑Translate 的费用为每分钟 0.034 美元,而 GPT‑Realtime‑Whisper 的定价为每分钟 0.017 美元。开发者可以通过 Playground 直接测试这些新模型,或在已有应用中快速集成。
在生成式 AI 不断朝向多模态和实时交互发展的背景下,OpenAI 这次推出的三款语音模型将为开发者提供更便捷的工具,推动语音智能的应用创新。数智化转型网www.szhzxw.cn
若您对人工智能感兴趣,可添加数智化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商,可联系数智化转型网小助手思思(17757154048,微信同号)

若您为人工智能服务商,可添加数智化转型网小助手Nora,加入人工智能行业交流群。

若您为人工智能创业者,可添加数智化转型网社群主理人Carina,加入人工智能创业交流群。

声明:本文来自数智化转型网,版权归作者所有。文章内容仅代表作者独立观点,不代表数智化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。

本文由数智化转型网(www.szhzxw.cn)转载,编辑/翻译:数智化转型网(Professionalism Achieves Leadership 专业造就领导者)白龙
