AI大模型评价体系之解析评测榜单背后的标准与乱象分析

85次阅读

结论

行业还没有综合评价指标。目前评价体系中最有前景：OpenCompass和FlagEval。

OpenCompass和FlagEval具有一定学术背景的评测机构模式，原因之一是他们自带算力资源，可以支持每次大模型评测；其二是OpenCompass是少见的大型综合性榜单，纳入了全球业界50余个评测集，提供了30万道题目，FlagEval也包含了8万+道题目，还把对模型潜力的指导纳入体系中。

但FlagEval和OpenCompass的模式也只是一种初探，让评测真正综合全面，学界和产业界最前沿还在摸索中。

OpenCompass2.0

C-Eval只公开了题目没有公开答案，参与测试的大模型厂商一般会采取有两种方式“刷榜”：第一种是找数据标注员把题目做一遍，第二种是用GPT-4把题做一遍，再把答案扣下来训练大模型，这样都能在相应学科测试中获得满分。

如果闭源评测集不进行更新换题，参与评测的模型可以从后台拉出历史记录进行“作弊”，重做被测试过的问题，这等同于“虚假闭源”。

参考

正文完

发表至：未分类

2024-03-02

致远OA 新增接口