AI大模型评价体系之解析评测榜单背后的标准与乱象分析

85次阅读
没有评论

结论

行业还没有综合评价指标。目前评价体系中最有前景:OpenCompass和FlagEval。

OpenCompass和FlagEval具有一定学术背景的评测机构模式,原因之一是他们自带算力资源,可以支持每次大模型评测;其二是OpenCompass是少见的大型综合性榜单,纳入了全球业界50余个评测集,提供了30万道题目,FlagEval也包含了8万+道题目,还把对模型潜力的指导纳入体系中。

但FlagEval和OpenCompass的模式也只是一种初探,让评测真正综合全面,学界和产业界最前沿还在摸索中。

OpenCompass2.0

https://rank.opencompass.org.cn/leaderboard-llm-v2

大模型测评问题:刷榜

C-Eval只公开了题目没有公开答案,参与测试的大模型厂商一般会采取有两种方式“刷榜”:第一种是找数据标注员把题目做一遍,第二种是用GPT-4把题做一遍,再把答案扣下来训练大模型,这样都能在相应学科测试中获得满分。

如果闭源评测集不进行更新换题,参与评测的模型可以从后台拉出历史记录进行“作弊”,重做被测试过的问题,这等同于“虚假闭源”。

参考

https://www.stcn.com/article/detail/983714.html

新晋大模型动不动声称超越GPT-4,我们整理了这些评测工具

正文完
 
评论(没有评论)