Total Pageviews

Tuesday, 23 January 2024

CEval - 一个适用于大语言模型的多层次多学科中文评估套件

 

https://cevalbenchmark.com/index_zh.html

排行榜: https://cevalbenchmark.com/static/leaderboard_zh.html

Github: https://github.com/hkust-nlp/ceval

网站涵盖了 52 个不同学科的 13948 个多项选择题,分为四个难度级别,并且网站根据这些评估套件对模型做了个排行榜

毫无意外的 GPT-4 获得了最高分!

排行榜由上海交通大学和清华大学的学生提供支持

No comments:

Post a Comment