耶鲁大学推出新基准ML-Bench，对大语言模型的调包现象进行评估

本篇文章介绍了耶鲁提出的新代码生成基准：ML-Bench。传统的代码生成数据集过于强调从零开始编写代码，而ML-Bench基于14个流行的开源GitHub机器学习仓库构建了一个新的机器学习任务数据集，模型可以根据用户需求生成Python代码或Bash脚本。这个数据集反映的编程场景更接近于实际应用情况，提供了在现有库基础上进行机器学习任务评估的方式。ML-Bench的出现为大模型如何利用开源仓库完成机器学习任务提供了更实际、更有用的评测方案。

夕小瑶科技说是本文的文章来源，如果想阅读更多原文内容，可以点击大语言模型成为了「调包侠」？耶鲁提出代码生成新基准：ML-Bench。作者微信是xixiaoyaoQAQ，提供更快的AI前沿信息和更深入的行业见解，该平台聚集了25万名AI应用开发者、算法工程师和研究人员，旨在为读者提供来自清北、国外顶级AI实验室和互联网公司的技术深度和媒体意识。

如有需要，您可以通过作者提供的微信联系更多信息或与作者取得联系。