近日,Meta的人工智能研究团队与爱丁堡大学合作开发了一项新技术,可以预测大型语言模型(LLMs)中推理的正确性,并在检测到错误时进行修复。这种方法被称为基于电路的推理验证(CRV),旨在深入观察LLM的内部“推理电路”,在模型解决问题时检测计算错误的迹象。
研究表明,CRV可以通过构建和观察内部激活的计算图,高精度地检测LLM中的推理错误。这一突破意味着研究人员可以利用深层内部信息,有针对性地干预模型的错误推理。
思维链推理(CoT)作为一种提高LLM在复杂任务上性能的方法,已被广泛应用,但其可靠性仍然是一个问题。现有的验证方法主要分为两类:“黑盒”方法通过分析最终生成的代币或置信度分数进行验证;“灰盒”方法试图观察模型的内部状态,但这些方法无法解释计算失败的根本原因。
CRV 采用“白盒”验证方法,假设模型在执行任务时使用神经元的特定子图。通过用训练有素的“解码器”替换标准密集层,研究人员使目标法学硕士可解释,从而可以观察其内部工作原理。然后,CRV 构建一个“归因图”,映射模型不同部分之间的因果信息流,并提取描述图特征的“结构指纹”。最后,训练一个“诊断分类器”来预测推理步骤是否正确。
研究团队对 Llama3.1 模型进行了实验,结果表明 CRV 在各种数据集和指标上优于其他验证方法,证明了其强大的有效性。此外,研究发现,不同推理任务中的错误特征是特定领域的,这意味着不同类型的推理依赖于不同的内部电路。
最重要的是,CRV 不仅仅是一种相关性分析;它提供了透明的计算视图,使失败的预测能够追溯到特定组件。因此,研究人员可以实时抑制错误特征,以纠正模型的推理路径。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然
