
AIGC动态欢迎阅读
原标题:对大型语言模型LLM进行评估的总结
关键字:模型, 价格, 评分, 算法, 研究
文章来源:JioNLP
内容字数:7298字
内容摘要:尊敬的读者,我是JioNLP。在之前的一篇博客中,我提出了一个针对大型语言模型评估的简易算法,我将这个评估算法命名为MELLM(Large Language Model Mutual Evaluation),读作“梅尔姆”。MELLM的原理链接:在本文中,我将介绍我如何进行实验验证。最终的实验结果表明:MELLM能够很好地评估LLM的优劣。回顾算法原理MELLM算法十分简单,基本思想是让多个模型相互评价并打分,操作流程可以用流程图表示:四个模型相互评分,针对每个题目都给出分数,图中只显示了总分:然后通过EM算法反复迭代多个模型的结果,最终获得经过拟合优化的结果,即最终的模型质量评估结果。具体实施过程查找API市面上有许多LLM开发商,但实际能够提供API的并不多,因此,我从群友那里获取…
原文链接:点击查看原文:对大型语言模型LLM进行评估的总结
联系作者
文章来源:JioNLP
作者微信:jionlp
作者简介:人工智能、自然语言处理、计算机视觉、数据挖掘、数据分析、C、C++。同时,也涉及程序员的各个方面。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关AI热点
暂无评论...