数智化转型网szhzxw.cn 人工智能资讯 人工智能资讯|AI图像编辑突破!字节跳动与香港中文大学合作开源DreamOmni2,解决AI理解抽象概念的挑战

人工智能资讯|AI图像编辑突破!字节跳动与香港中文大学合作开源DreamOmni2,解决AI理解抽象概念的挑战

一项新的突破性技术在人工智能图像编辑和生成领域引起了广泛关注。由字节跳动与香港中文大学、香港科技大学和香港大学联合开发的DreamOmni2系统已正式开源,标志着图像编辑和生成技术的最新发展。

DreamOmni2 的发布旨在增强人工智能在图像处理中遵循指令的能力,实现真正的多模态指令理解。该系统可以同时理解文本指令和参考图像,显着改善了以前模型在处理抽象概念(如风格、材质和照明)方面的局限性。用户与 AI 之间的交互变得更加自然,就像在与理解自己意图的伙伴交谈。

为了训练AI理解复杂的文本和图像指令,DreamOmni2开发团队创建了一个创新的三阶段流程。首先,通过训练提取模型,AI可以准确地从图像中提取特定的元素或抽象属性。然后,使用提取模型生成多模态指令编辑数据,形成包括源图像、指令、参考图像和目标图像的训练样本。最后,通过进一步提取和组合生成更多的参考图像,构建了丰富的多模态指令生成数据集。这些步骤为系统的高质量训练奠定了坚实的基础。

在模型架构方面,DreamOmni2提出了一种索引编码和位置编码偏移方案,确保模型能够准确识别多个输入图像。同时,视觉语言模型(VLM)的引入有效地弥合了用户指令和模型理解之间的差距。这种创新设计提高了系统在处理指令时的准确性,使其能够更好地理解用户的真实意图。

测试表明,与多模态指令编辑任务相比,DreamOmni2 的性能优于所有开源模型,接近顶级商业模型。与传统的商业模型相比,DreamOmni2在处理复杂的指令时可以提供更高的准确性和一致性,避免不必要的更改和图像缺陷。

DreamOmni2的开源不仅为AI创作提供了新的可能性,也为相关领域的研究人员提供了统一的评价标准。这项技术的发布预示着AI图像编辑和生成领域的一场新革命。业内专家表示,DreamOmni2的成功将极大地推动AI技术的普及和应用。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/99897.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部