数智化转型网szhzxw.cn 人工智能资讯 人工智能资讯|中国图像编辑新王!UniWorld-V2 发布:选修,精准渲染中文字体,性能超越 GPT-Image 和 Gemini

人工智能资讯|中国图像编辑新王!UniWorld-V2 发布:选修,精准渲染中文字体,性能超越 GPT-Image 和 Gemini

在图像编辑领域,一项革命性的技术正在改变游戏规则!涂展智能与北京大学UniWorld团队推出了新一代图像编辑模型——UniWorld-V2。该模型不仅在图像处理的细节控制上超越了纳米香蕉,而且在理解中文指令方面也展现出了出色的表现。

UniWorld-V2基于创新的视觉强化学习框架——UniWorld-R1,率先将强化学习策略优化应用于图像编辑,显著提高了编辑的准确性和灵活性。与传统的监督微调方法相比,UniWorld-R1的设计旨在解决数据过拟合和泛化能力差的问题,使模型能够更好地响应多样化的编辑指令。

例如,当用户要求AI将女孩的手势更改为“OK”时,UniWorld-V2可以准确理解并修改。相比之下,Nano Banana 未能准确捕捉用户的意图。更令人惊讶的是,在海报编辑示例中,UniWorld-V2 可以渲染复杂的中文艺术字体,如“月圆中秋”,保证了清晰的效果和准确的语义。

该模型精细化的控制能力也令人瞩目。通过简单的框选作,用户可以指定编辑区域并实现高级调整,例如将特定对象移动到框外。此外,UniWorld-V2在光影处理方面还能够展现出出色的表现,将物体自然地融入场景中,增强整体的和谐度。

在测试基准测试GEdit-Bench和ImgEdit中,UniWorld-V2以7.83和4.49的高分领先于其他知名模型,如OpenAI的GPT-Image-1和Gemini2.0。这些成果背后有UniWorld-R1框架强大的通用性,不仅增强了UniWorld-V2的性能,也为其他模型带来了显著的提升。

UniWorld-R1 的论文、代码和模型在 GitHub 和 Hugging Face 上公开发布,为未来的研究奠定了基础。这项技术的发布不仅推动了多模态领域的发展,也为图像编辑技术带来了新的可能性。

论文地址:

https://arxiv.org/abs/2510.16888

GitHub 链接:

https://github.com/PKU-YuanGroup/UniWorld

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/101641.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部