人工智能资讯|致远推出鸸鸧3.5大模型：以下一个状态预测重构多模态智能，具身运营能力惊艳行业-数智化转型网szhzxw.cn

当大模型不再只是“描述图像”或“从文本生成图像”，而是能够像人类一样在复杂环境中理解、规划和执行跨模态作时，多模态AI正在经历质的飞跃。10月30日，北京智源人工智能研究院正式发布其下一代多模态世界模型——鸸鹋3.5。首次将自回归的“下一个状态预测”（Next-State Prediction，NSP）引入多模态序列建模，标志着AI从“感知和理解”走向“智能作”迈出了关键一步。

NSP 架构：教 AI “预测世界将如何变化”

Emu3.5 的核心突破在于其统一的 NSP 框架：该模型将文本、图像和动作指令等多模态输入视为连续的状态序列，通过预测“下一个状态”来实现端到端的智能推理。这意味着 Emu3.5 不仅了解当前场景，还能预测行动后的结果，并据此规划最佳行动路径。

例如，当用户输入“将这张照片中的咖啡杯移到桌子的右侧，使整体色调变亮”时，Emu3.5不仅可以准确识别物体和背景，还可以进行分级移动和调整光线等复合作，确保每个输出都符合物理逻辑和视觉一致性。

具身智能初显：跨场景运营能力全面升级

在测试中，Emu3.5 表现出了较强的跨模态泛化和具身运营能力：

文图协同生成：根据复杂的描述生成高细节图像（如“赛博朋克风格的雨街，湿漉漉的路面上倒映的霓虹灯”）;

智能图片编辑：支持语义级修改（如“将角色服装款式改为复古西装”），无需手动选择;

时空动态推理：可以连贯地编辑视频帧序列，例如“让奔跑的角色突然停下来转身”。

这种能力使其在机器人控制、虚拟助手和智能设计等需要“感知-决策-执行”循环的场景中极具前景。

多模态融合的新范式：打破信息孤岛

与早期仅对齐特征的多模态模型不同，Emu3.5 将文本、视觉和动作统一为可预测的状态流，从而实现真正的跨模态自由切换和协同推理。研究人员可以利用它来高效地处理异构数据，而普通用户则可以通过自然语言完成以前需要专业软件的创造性任务。

致远表示，鸸鹋3.5将首先应用于教育（智能课件生成）、医疗（多模态病历分析）、娱乐（AI导演），并将继续开源部分能力，推动多模态生态的发展。

结语：从“了解世界”到“作世界”

鸸鹋3.5的发布，不仅是技术参数的升级，更是AI角色的转变——从被动的响应“工具”演变为主动的规划“协作者”。当模型开始预测“接下来会发生什么”时，它才真正开始了向通用智能迈进的旅程。而智源正在以NSP架构为支点，借力多模态AI的下一个突破。

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于网络；编辑/翻译：数字化转型网（Professionalism Achieves Leadership 专业造就领导者）默然

人工智能资讯|致远推出鸸鸧3.5大模型：以下一个状态预测重构多模态智能，具身运营能力惊艳行业

NSP 架构：教 AI “预测世界将如何变化”

具身智能初显：跨场景运营能力全面升级

多模态融合的新范式：打破信息孤岛

结语：从“了解世界”到“作世界”

华东CIO大会发言嘉宾>>立邦涂料中国流程IT总部副总裁谢宝财确认出席！

低代码开发平台有哪些局限性？

第四届全球数字贸易博览会动态|第四届全球数字贸易博览会数字文娱展区企业座谈会顺利召开

MDM主数据管理中的建模体系的作用是什么？

工业和信息化部关于进一步推进中小企业信息化的指导意见

联系我们

微信扫一扫关注我们

NSP 架构：教 AI “预测世界将如何变化”

具身智能初显：跨场景运营能力全面升级

多模态融合的新范式：打破信息孤岛

结语：从“了解世界”到“作世界”

人工智能资讯|Adobe 和 OpenAI 联手：让照片编辑变得简单而有

人工智能资讯|IBM 推出 Granite4.0Nano 系列：专为边缘 AI 设计的小型开源模型

相关推荐

联系我们

微信扫一扫关注我们