继“元宝春节十亿红包”活动成功启动后,腾讯魂源团队于1月28日正式宣布其最新魂源Image 3.0图像对图像模型(HunyuanImage3.0-Instruct)开源。该模型采用专家(MoE)架构混合,总参数大小达800亿(约130亿激活参数),在LMArena全球图像编辑排名中排名第七,跻身顶级行列,成为全球最强的开源图像对图像模型。
核心技术突破:“先思考,然后编辑。”魂源图片3.0采用原生多模态架构,深度整合文本与视觉理解。该模型通过使用数千万数据并注入思维链(CoT)来学习分析图像内容和用户意图,从而生成准确的编辑指令。结合自开发的MixGRPO算法,该模型在遵循指令并保持未编辑区域一致性方面表现出色。
全面的剪辑经验和多场景赋能。该模型支持添加、删除、修改、样式转换、字符和文本修改、旧照片恢复以及多张图片的融合等多种功能。对于普通用户来说,它是创建表情包和在社交媒体上分享的强大工具;对于专业设计师来说,这大大提升了电商海报制作和游戏角色定制的效率。
对开源社区的全力投入。目前,腾讯魂源已将该模型的权重和完整代码托管在GitHub和Hugging Face上。除了标准版本外,还发布了简化版,以降低开发者的入门门槛。开发者和研究人员现在可以直接访问这些资源,基于这个强大的基础平台进行应用开发和二级开发。
若您对人工智能感兴趣,可添加数字化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商,可联系数字化转型网小助手思思(17757154048,微信同号)

若您为人工智能服务商,可添加数字化转型网小助手Nora,加入人工智能行业交流群。

若您为人工智能创业者,可添加数字化转型网社群主理人Carina,加入人工智能创业交流群。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然
