
OpenAI宣布昨天(TH -2)推出了新的基准测试“ PaperBench”,旨在审查AI代理复制领先的AI研究的能力。结果表明,即使是最先进的模型也没有超过人类的基准。 PaperBench要求AI代理从一开始就在ICML 2024会议上发表的20个聚光灯和口头纸,并了解论文的基本贡献,独立开发代码基础并成功地进行相关的实验。为了确保评估是公平和客观的,研究团队设计了一个分层评分标准,该标准将每个复制任务打破了8,316个独立的-Dready -Ready -Ready -ying -ying子任务。 Openai表示,所有评分标准都与原始帕普尔一起制定了,以确保评估的准确性和实用性。该团队还基于大语言模型开发了一个判断系统,该系统可以自动与REPP相关AI代理。测试结果表明,AI的表现最高的代理Claude 3.5十四行诗(新版本)是由人类开发的,平均副本标记仅为21%。研究小组还邀请顶级医生研究完成相同的测试,结果表明,AI模型并未超过人类专家在研究复制方面的技能。目前,OpenAI已打开相关的代码,以促进对行业中AI代理工程能力的进一步研究。