在图像编辑领域,一项革命性的技术正在改变游戏规则!涂展智能与北京大学UniWorld团队推出了新一代图像编辑模型——UniWorld-V2。该模型不仅在图像处理的细节控制上超越了纳米香蕉,而且在理解中文指令方面也展现出了出色的表现。
UniWorld-V2基于创新的视觉强化学习框架——UniWorld-R1,率先将强化学习策略优化应用于图像编辑,显著提高了编辑的准确性和灵活性。与传统的监督微调方法相比,UniWorld-R1的设计旨在解决数据过拟合和泛化能力差的问题,使模型能够更好地响应多样化的编辑指令。
例如,当用户要求AI将女孩的手势更改为“OK”时,UniWorld-V2可以准确理解并修改。相比之下,Nano Banana 未能准确捕捉用户的意图。更令人惊讶的是,在海报编辑示例中,UniWorld-V2 可以渲染复杂的中文艺术字体,如“月圆中秋”,保证了清晰的效果和准确的语义。
该模型精细化的控制能力也令人瞩目。通过简单的框选作,用户可以指定编辑区域并实现高级调整,例如将特定对象移动到框外。此外,UniWorld-V2在光影处理方面还能够展现出出色的表现,将物体自然地融入场景中,增强整体的和谐度。
在测试基准测试GEdit-Bench和ImgEdit中,UniWorld-V2以7.83和4.49的高分领先于其他知名模型,如OpenAI的GPT-Image-1和Gemini2.0。这些成果背后有UniWorld-R1框架强大的通用性,不仅增强了UniWorld-V2的性能,也为其他模型带来了显著的提升。
UniWorld-R1 的论文、代码和模型在 GitHub 和 Hugging Face 上公开发布,为未来的研究奠定了基础。这项技术的发布不仅推动了多模态领域的发展,也为图像编辑技术带来了新的可能性。
论文地址:
https://arxiv.org/abs/2510.16888
GitHub 链接:
https://github.com/PKU-YuanGroup/UniWorld
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然
