数智化转型网szhzxw.cn 资讯 人工智能资讯|致远推出鸸鸧3.5大模型:以下一个状态预测重构多模态智能,具身运营能力惊艳行业

人工智能资讯|致远推出鸸鸧3.5大模型:以下一个状态预测重构多模态智能,具身运营能力惊艳行业

当大模型不再只是“描述图像”或“从文本生成图像”,而是能够像人类一样在复杂环境中理解、规划和执行跨模态作时,多模态AI正在经历质的飞跃。10月30日,北京智源人工智能研究院正式发布其下一代多模态世界模型——鸸鹋3.5。首次将自回归的“下一个状态预测”(Next-State Prediction,NSP)引入多模态序列建模,标志着AI从“感知和理解”走向“智能作”迈出了关键一步。

NSP 架构:教 AI “预测世界将如何变化”

Emu3.5 的核心突破在于其统一的 NSP 框架:该模型将文本、图像和动作指令等多模态输入视为连续的状态序列,通过预测“下一个状态”来实现端到端的智能推理。这意味着 Emu3.5 不仅了解当前场景,还能预测行动后的结果,并据此规划最佳行动路径。

人工智能大脑大模型(二)

例如,当用户输入“将这张照片中的咖啡杯移到桌子的右侧,使整体色调变亮”时,Emu3.5不仅可以准确识别物体和背景,还可以进行分级移动和调整光线等复合作,确保每个输出都符合物理逻辑和视觉一致性。

具身智能初显:跨场景运营能力全面升级

在测试中,Emu3.5 表现出了较强的跨模态泛化和具身运营能力:

文图协同生成:根据复杂的描述生成高细节图像(如“赛博朋克风格的雨街,湿漉漉的路面上倒映的霓虹灯”);

智能图片编辑:支持语义级修改(如“将角色服装款式改为复古西装”),无需手动选择;

时空动态推理:可以连贯地编辑视频帧序列,例如“让奔跑的角色突然停下来转身”。

这种能力使其在机器人控制、虚拟助手和智能设计等需要“感知-决策-执行”循环的场景中极具前景。

多模态融合的新范式:打破信息孤岛

与早期仅对齐特征的多模态模型不同,Emu3.5 将文本、视觉和动作统一为可预测的状态流,从而实现真正的跨模态自由切换和协同推理。研究人员可以利用它来高效地处理异构数据,而普通用户则可以通过自然语言完成以前需要专业软件的创造性任务。

致远表示,鸸鹋3.5将首先应用于教育(智能课件生成)、医疗(多模态病历分析)、娱乐(AI导演),并将继续开源部分能力,推动多模态生态的发展。

结语:从“了解世界”到“作世界”

鸸鹋3.5的发布,不仅是技术参数的升级,更是AI角色的转变——从被动的响应“工具”演变为主动的规划“协作者”。当模型开始预测“接下来会发生什么”时,它才真正开始了向通用智能迈进的旅程。而智源正在以NSP架构为支点,借力多模态AI的下一个突破。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。http://www.szhzxw.cn/100898.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部