股票融资网站 AI科学家谁靠谱一试便知!普林斯顿新基准:最强模型仅21%准确率
2024-10-25编辑:LRS股票融资网站 普林斯顿大学新发布的CORE-Bench基准测试,通过270个基于90篇跨学科科学论文的任务,可评估AI智能体在计算可重复性方面的表现,最简单任务的准确率可以达到60%,最难任务准确率仅有21% 大模型的能力越来越强,用户在一些重要的任务中也可以依赖大模型,比如说辅助做科研。 不过现有科研辅助相关的基准测试都太简单,跟现实世界的任务差距还是比较大的。 最近,普林斯顿大学的研究人员发布了一个新的基准测试CORE-Bench(Computational Reproduci