能力密度是如何定义的？它的内在原因是什么？-数智化转型网szhzxw.cn

数字化转型网（Professionalism Achieves Leadership 专业造就领导者）人工智能专题

与全球关注人工智能的顶尖精英一起学习！数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区，与各位研习社同学一起成长！欢迎扫码加入！

刘知远：这个“能力密度”的概念是我们最近半年提出的。关于如何有效地、准确地衡量能力密度，大家可以参考我们发表在 arxiv 上的论文，论文题目是《Densing law of LLMs》。所谓的能力密度，可以理解为模型在各种评测集上展现出来的能力，除以其参数规模，或者说是激活的参数规模。我们观察过去一年半发布的代表性模型，发现其能力密度大约每 100 天增加一倍。这意味着每过 100 天，我们可以用一半的参数实现相同的能力。这一现象背后有多个因素影响：

1. 数据质量：更高的数据质量取决于数据治理。高质量的数据能够提升模型的训练效果。

2. 模型架构：采用更稀疏激活的模型架构，可以用更少的激活参数承载更多的能力。

3. 学习方法：包括 OpenAI 在内的所有一线团队都在开展所谓的“scaling prediction”。

在真正训练模型之前，我们会进行大量的风洞实验，积累各种预测数据，以确定模型需要什么样的数据配比和超参配置，从而达到最佳效果。综合这些因素，模型可以用更少的参数承载更多的能力。我们将这一现象类比为芯片行业的摩尔定律。摩尔定律告诉我们，每 18 个月，芯片上的电路密度会增加一倍。这一过程是通过不断的技术发展实现的。

进一步结合刚才翟老师和国浩老师提到的底层算力优化，我们可以将这种优化映射到模型训练阶段，从而极大地降低成本。当然，我们并不是说 DeepSeek 的算力可以用 1/10 的成本实现与国外模型相同的能力，但这与 Densing law（能力密度定律）有一定的重叠。Densing Law 更多地强调模型密度的不断提高，这不仅体现在训练阶段成本的降低，也体现在推理阶段。模型可以用更低的推理成本和更快的推理速度完成相同的能力。我们认为，未来AI的发展一定会沿着这条路线前进。

过去几年的发展也在不断验证这一点。一个直观的体验是，像 OpenAI 这样的公司，其API模型的价格（例如 ChatGPT 水平的模型和 GPT-4水平的模型）在过去几年中快速下降。这不仅仅是因为价格战，而是因为它们可以用更少的资源实现相同的能力，从而以更低的成本提供服务。我们认为，高效性是未来AI发展的一个重要方向，也是我们迎来智能革命的一个重要前提。

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网（www.szhzxw.cn）转载而成，来源

能力密度是如何定义的？它的内在原因是什么？

数字化转型网（Professionalism Achieves Leadership 专业造就领导者）人工智能专题

2023福布斯中国杰出商界女性100

人工智能资讯|山东能源集团携手华为首发盘古矿山大模型，开能源行业AI大模型先河

【行业资讯】BPM 流程智能化先锋奖→蓝凌再获行业认可

人工智能资讯|Anthropic确认Claude模型质量下降问题已修复

叶健松副厅长带队赴吉林省开展汽车产业调研和合作交流

联系我们

微信扫一扫关注我们

数字化转型网（Professionalism Achieves Leadership 专业造就领导者）人工智能专题

为什么 DeepSeek 的 R1 模型在这个时间点出现？之前有没有基于基础模型直接做强化学习的尝试？之前也有模型在思维链上做过类似工作，为什么 DeepSeek 的 R1 模型会如此出圈？

MoE 架构会是通向 AGI 道路上的最优解吗？

相关推荐

联系我们

微信扫一扫关注我们