近日,腾讯 Robotics X 实验室联合腾讯混元团队正式推出专为具身智能打造的基础模型 HY-Embodied-0.5。此举旨在解决通用视觉语言模型(VLM)因缺乏精细三维空间感知与物理交互能力,难以落地物理世界的行业痛点,标志着大模型认知链路正实质性延伸至机器人控制领域。数智化转型网www.szhzxw.cn
该系列模型并非通用基座的简单微调,而是从架构到训练范式的彻底重构。团队同步推出两款主力模型:MoT-2B(总参4B,激活2B)主打端侧实时响应,MoE-32B(总参407B,激活32B)追求极致推理性能。
技术上,团队首创视觉与语言模态非共享参数的混合 Transformer(MoT)架构,配合原生分辨率视觉编码器 HY-ViT2.0与视觉潜在 Token 机制,有效避免了小模型在多模态训练中的灾难性遗忘。训练层面,依托超1亿条高质量具身专属数据,结合拒绝采样微调、强化学习与在线蒸馏等多阶段后训练策略,驱动模型思维链自主进化。数智化转型网www.szhzxw.cn
性能验证显示,MoT-2B 在涵盖感知、推理、规划的22项权威评测中斩获16项最佳,超越 Qwen3-VL-4B 及 RoboBrain2.5等同参数竞品;旗舰版 MoE-A32B 综合成绩亦能与 Gemini3.0Pro 等国际标杆抗衡。
实机测试中,搭载该基座的机器人在打包、堆叠等任务上表现优于主流基线模型。这一进展为具身智能从虚拟仿真走向物理实操提供了高性能的底层基座支撑。
若您对人工智能感兴趣,可添加数字化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商,可联系数字化转型网小助手思思(17757154048,微信同号)数智化转型网www.szhzxw.cn

若您为人工智能服务商,可添加数字化转型网小助手Nora,加入人工智能行业交流群。

若您为人工智能创业者,可添加数字化转型网社群主理人Carina,加入人工智能创业交流群。

声明:本文来自数字化转型网,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。

本文由数智化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数智化转型网(Professionalism Achieves Leadership 专业造就领导者)邵敏
