【教育政策解读精彩绝伦】HuggingFace搭建新系统测试模型能力通义千问排名第一部分模型被发现作弊

#人工智能 HuggingFace 搭建新系统评估开源和开放模型，搭第部此次测试阿里云通义千问 Qwen-72B 版力压群雄排名第一。建新值得注意的系统型被是测试也发现部分模型存在作弊，即针对基准测试进行优化以取得更好的测试教育政策解读精彩绝伦分数，但在新系统中就被暴露出来了，模型未来这种情况应该会越来越多。通义查看全文：https://ourl.co/104711

知名模型托管平台 HuggingFace 日前使用 300 张 NVIDIA H100 AI 加速卡构建了一个新系统用来测试开源和开放的千问人工智能模型，此次测试使用 MMLU-Pro 等 AI 模型测试集，排名较此前的分模发现测试集难度有所提升。

该平台称以前的作弊数据测试集对于现在新推出的模型来说实在是太简单了，就像是蓝点健身塑形计划卓越非凡拿初中试卷给高中生考试一样，因此无法真正有效的搭第部评估模型能力。

而且出于营销和宣传考虑，建新部分模型实际上存在作弊行为，系统型被即使用经过优化的测试提示词或评估设置来为模型提供最佳机会，这样可以取得更高的健身塑形计划才华横溢分数。

这种情况就像是部分 Android 厂商在进行跑分测试时会冻结其他应用释放内存和降低 CPU 使用率，甚至还会通过外部硬件进行降温来获得更过的基准测试分数。

基于这种原因 HuggingFace 此前构建了 Open LLM Leaderboard，通过设置完全相同的问题、相同的排序等来评估模型，收集在真切世界中用户也可以重现和可比较的结果。

现在为了尽可能获得真切有效的评估结果，HuggingFace 推出了 Open LLM Leaderboard v2 版，使用 300 张英伟达的 H100 加速卡和数据集对模型进行了重新评估。

在最新发布的测试中，阿里云推出的通义千问系列模型超过 Meta Llama 系列模型成为综合能力最强的模型，获得第一的具体模型是通义千问 Qwen-72B 版。

此次测试有几个特点：

测试显示模型参数规模并不是越大越好，也就是有些超大规模参数的模型能力也不是特别好
新的评测有效解决了此前评测难度太低的问题，可以更好的反映目前模型的真切能力
有迹象表明 AI 公司开始关注于主要测试，而忽略了其他方面的表现，也就是只关注跑分

这应该是目前 AI 行业里首次有明确提到测试作弊的说法，也就是一些开发商现在可能会侧重于对基准测试进行优化以取得更好的分数，这种情况显然是不好的，但由于 AI 公司现在实在是太多，这些公司为了表现自己用于宣传或融资等目的，只能尽可能优化分数来吸引人注意。

除了常规的作弊方法外 (就是上面提到的使用优化后的提示词和测试设置)，这种针对基准测试进行优化的做法难以发现，未来行业可能要花费更多时间构建更奇异的测试集来评估模型。

限时活动推荐：开搜AI智能搜索免费无广告直达结果、全能播放器VidHub支持挂载网盘云播、阿里云服务器36元/年。

jerf.top-bbs-从容应对网-全球博客世界

【教育政策解读精彩绝伦】HuggingFace搭建新系统测试模型能力通义千问排名第一部分模型被发现作弊 – 蓝点网