周四,Loud Institute宣布启动其首个“弹弓”人工智能资助计划,旨在“推进人工智能的科学和实践”。该计划通过为研究人员提供传统学术机构无法比拟的资源(包括资金、计算能力以及产品和工程支持)来加速人工智能研究和创新。作为回报,接受者需要产生切实的成果,例如初创公司、开源项目或其他形式的研究成果。
第一轮入选的项目有15个,聚焦于当前人工智能领域最具挑战性的问题之一——AI评估系统。其中几个项目已经在业界享有盛誉,例如命令行编码基准测试工具 Terminal Bench,以及最新版本的 ARC-AGI 项目,该项目长期以来一直专注于评估通用人工智能(AGI)能力。
同时,多个团队正在尝试从新的角度解决评估瓶颈。加州理工学院和德克萨斯大学奥斯汀分校开发的 Formula Code 项目旨在评估 AI 代理在优化现有代码时的表现;哥伦比亚大学团队推出的 BizBench 旨在构建“白领 AI 智能体”的综合测试标准,重点关注 AI 在业务和决策任务中的真实表现。此外,一些项目正在探索强化学习和模型压缩的新方法,以建立更加通用和可扩展的评估框架。
值得注意的是,SWE-Bench 联合创始人 John Boda Yang 也加入了本轮计划。他将领导新项目 CodeClash。受到 SWE-Bench 成功的启发,该项目计划通过动态、竞争机制评估人工智能编码能力。
Yang 在接受 TechCrunch 采访时表示:“我相信,持续使用第三方核心基准进行开放评估是推动整个行业进步的关键。然而,我也担心,如果未来的评估系统被个别公司垄断,可能会削弱研究的开放性和可比性。
通过“弹弓”计划,Loud Institute正试图在学术界和工业界之间架起一座新的桥梁,让前沿的AI研究能够更快地转化为实际应用。这一举措被视为重塑当前人工智能领域评估体系的重要一步。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然
