评测大模型LLM。

AIGC动态欢迎阅读

原标题：对大型语言模型LLM进行评估的总结

关键字：模型, 价格, 评分, 算法, 研究

文章来源：JioNLP

内容字数：7298字

内容摘要：尊敬的读者，我是JioNLP。在之前的一篇博客中，我提出了一个针对大型语言模型评估的简易算法，我将这个评估算法命名为MELLM（Large Language Model Mutual Evaluation），读作“梅尔姆”。MELLM的原理链接：在本文中，我将介绍我如何进行实验验证。最终的实验结果表明：MELLM能够很好地评估LLM的优劣。回顾算法原理MELLM算法十分简单，基本思想是让多个模型相互评价并打分，操作流程可以用流程图表示：四个模型相互评分，针对每个题目都给出分数，图中只显示了总分：然后通过EM算法反复迭代多个模型的结果，最终获得经过拟合优化的结果，即最终的模型质量评估结果。具体实施过程查找API市面上有许多LLM开发商，但实际能够提供API的并不多，因此，我从群友那里获取…

原文链接：点击查看原文：对大型语言模型LLM进行评估的总结