数智化转型网szhzxw.cn 人工智能资讯 人工智能资讯|LeCun 新提案:用CV思路重塑语言模型,性能大幅提升!

人工智能资讯|LeCun 新提案:用CV思路重塑语言模型,性能大幅提升!

在当今的人工智能领域,Yann LeCun 提出的 JEPA(联合嵌入预测架构)正在重新定义大语言模型(LLM)的训练方式。这位诺贝尔奖得主不是在批评现有的 LLM,而是亲自出手进行改造。传统的 LLM 训练方法主要依赖于输入空间中的重构与生成,如预测下一个单词,这种方法在视觉领域已被证明存在局限性。

LeCun 和他的团队认为,可以借鉴计算机视觉(CV)领域的先进技术来提升语言模型的表现。JEPA 的核心思想是通过在抽象表征空间中预测缺失的特征,以高效地学习世界知识。Meta AI 团队已经在图像和视频处理上成功应用了 JEPA,而现在,他们希望将这一理念扩展到语言模型领域。

为了填补这个空白,研究人员 Hai Huang、Yann LeCun 和 Randall Balestriero 共同提出了 LLM-JEPA。这一新模型将文本和代码视为同一概念的不同视角,首次成功将 JEPA 的自监督学习架构应用于 LLM。通过结合 JEPA 在嵌入空间学习的优势,LLM-JEPA 不仅保留了 LLM 强大的生成能力,还在性能和鲁棒性上实现了双丰收。

实验证明,LLM-JEPA 在多个主流模型(如 Llama3、OpenELM、Gemma2等)和多样化的数据集(如 GSM8K、Spider 等)上表现出色,显著超越了传统 LLM 训练目标。此外,它在防止过拟合方面显示出了强大的鲁棒性,为语言模型的未来发展提供了新的方向。

尽管目前的研究主要集中在微调阶段,但初步的预训练结果显示出巨大的潜力。团队计划在未来的工作中进一步探索 LLM-JEPA 在预训练过程中的应用,期待为语言模型的性能提升注入新的动力。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)萍水

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。http://www.szhzxw.cn/94545.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部