数智化转型网szhzxw.cn 人工智能资讯 人工智能资讯|微博推出挑战大语言模型的低成本AI模型VibeThinker-1.5B

人工智能资讯|微博推出挑战大语言模型的低成本AI模型VibeThinker-1.5B

近日,中国社交媒体公司微博的人工智能部门发布了开源的VibeThinker-1.5B,这是一个拥有15亿个参数的大型语言模型(LLM)。该模型是阿里巴巴 Qwen2.5-Math-1.5B 的微调版本,现在可以在 Hugging Face、GitHub 和 ModelScope 上免费获得,供研究人员和企业开发人员在麻省理工学院许可下使用,甚至用于商业目的。

VibeThinker-1.5B 虽然体积小,但在数学和代码任务中表现异常出色,实现了行业领先的推理性能,甚至超过了竞争对手 DeepSeek 的 R1 模型,后者拥有 6710 亿个参数。该模型还与 Mistral AI 的 Magistral Medium、Anthropic 的 Claude Opus4 和 OpenAI 的 gpt-oss-20B Medium 等多个大模型竞争,同时需要的基础设施和投资成本显着降低。

值得注意的是,VibeThinker-1.5B 在后期训练阶段仅花费了 7,800 美元的计算资源,这一成本远低于类似或更大规模模型所需的数十万甚至数百万美元。LLM的训练分为两个阶段:第一阶段是预训练,模型通过大量的文本数据来学习语言和常识的结构。第二阶段,即后期训练,使用较小的高质量数据集来帮助模型更好地理解如何协助、推理和符合人类期望。

VibeThinker-1.5B 使用一种称为“频谱到信号原理”(SSP) 的训练框架,该框架将监督微调和强化学习分为两个阶段。第一阶段关注多样性,而第二阶段则通过强化学习优化最优路径,使小模型能够有效地探索推理空间并实现信号放大。

在多个领域的性能测试中,VibeThinker-1.5B 的表现优于许多大型开源和商业模型。其开源版本挑战了对模型参数规模和计算能力的传统认知,展示了小模型在特定任务中实现卓越性能的可能性。

若您对人工智能感兴趣,可添加数字化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商,可联系数字化转型网小助手思思(17757154048,微信同号)

若您为人工智能服务商,可添加数字化转型网小助手Nora,加入人工智能行业交流群。

若您为人工智能创业者,可添加数字化转型网社群主理人Carina,加入人工智能创业交流群。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。http://www.szhzxw.cn/102124.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部