结论
行业还没有综合评价指标。目前评价体系中最有前景:OpenCompass和FlagEval。
OpenCompass和FlagEval具有一定学术背景的评测机构模式,原因之一是他们自带算力资源,可以支持每次大模型评测;其二是OpenCompass是少见的大型综合性榜单,纳入了全球业界50余个评测集,提供了30万道题目,FlagEval也包含了8万+道题目,还把对模型潜力的指导纳入体系中。
但FlagEval和OpenCompass的模式也只是一种初探,让评测真正综合全面,学界和产业界最前沿还在摸索中。
OpenCompass2.0
https://rank.opencompass.org.cn/leaderboard-llm-v2
大模型测评问题:刷榜
C-Eval只公开了题目没有公开答案,参与测试的大模型厂商一般会采取有两种方式“刷榜”:第一种是找数据标注员把题目做一遍,第二种是用GPT-4把题做一遍,再把答案扣下来训练大模型,这样都能在相应学科测试中获得满分。
如果闭源评测集不进行更新换题,参与评测的模型可以从后台拉出历史记录进行“作弊”,重做被测试过的问题,这等同于“虚假闭源”。
参考
正文完
发表至: 未分类
2024-03-02