根据一项新的研究,大型语言模型 (LLM) 在长时间接触无意义的在线内容后,性能可能会显着下降。研究表明,这些模型的推理能力和信心受到影响,引发了人们对其长期健康的担忧。来自美国多所大学的研究团队提出了“LLM脑退化假说”,从人类因过度接触低质量在线内容而可能遭受的认知损伤中汲取灵感。
为了验证这一理论,研究人员使用 2010 年的 Twitter 数据进行了对照实验。他们训练了四个较小的模型,包括 Llama3-8B-Instruct 和 Qwen 系列模型,将不同比例的“垃圾”数据与高质量控制数据进行了比较。
研究人员以两种方式定义“垃圾”数据。第一种方法(M1)根据交互量进行过滤,将互动量少于30个字符、互动量大(点赞、转发或评论数超过500次)的帖子视为垃圾内容,而互动量低的较长帖子(超过100个字符)则被视为对照内容。第二种方法(M2)使用 GPT-4o-mini 根据质量对内容进行排名,将阴谋论、夸大言论和引人注目的标题标记为垃圾内容,而更深思熟虑的材料则被视为高质量内容。
研究发现,随着垃圾数据比例的增加,模型在推理准确率方面的表现急剧下降。例如,在ARC挑战基准测试中,推理准确率从74.9%下降到57.2%。对于需要长文本理解的任务,准确率甚至从 84.4% 下降到 52.3%。基于交互量的垃圾内容定义对模型的影响更为明显,表明与标准语义检查相比,交互量引入了不同维度的数据质量。
此外,在接触大量互动驱动的垃圾内容后,模特表现出一些“黑暗”的人格特征,包括更高的自恋和纵倾向。安全指标也有所下降,尽管接触低质量的垃圾内容有时会增加某些积极特征。
错误分析显示,“跳跃思想”是最常见的问题,超过 70% 的错误完全不涉及推理,尤其是在接触基于交互的垃圾内容时,跳跃率达到 84%。在执行逻辑推理链时,模型往往无法完成推理步骤,导致基本错误。
研究团队呼吁重新评估大型语言模型如何收集和过滤在线数据,并表示数据选择和质量控制对于防止永久性退化至关重要,他们建议对部署的模型进行定期“认知健康检查”。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然
