大模子刷榜 MMLU、屠榜 GPQA 的玩法通宵变天???色色网
要知说念,昔日几年,各式通用评测逐渐同质化,越来越难以评估模子信得过才能。GPQA、MMLU-pro、MMLU 等流行基准,各家模子出街时东说念主手一份,但局限性也运行表示,比如消除范围狭隘(频频不及 50 个学科),不含长尾常识;缺少富有挑战性和区分度,比如 GPT-4o 在 MMLU-Pro 上准确率飙到 92.3%。
不外别慌,大模子通用常识推理评测"强化版"来了,号称大模子评测里的"黄冈密卷"!
近日,字节跨越豆包大模子团队搭伙 M-A-P 开源社区,推出了全新评测基准 SuperGPQA。
咱们翻看论文,细品一番,足足 256 页。据了解,该评测搭建责任耗时半年,近百位学界学者及名校硕博、业界工程师参与标注。
twitter 自慰臆测团队构建了迄今为止最全面,消除 285 个臆测生级学科、包含 26529 说念专科题见识评估体系。
实考据明,即便最强的 DeepSeek-R1 在 SuperGPQA 上准确率也才 61.82%,在合格线上反抗,显赫低于其在传统评估见识上的发扬。
SuperGPQA 精确直击大模子评测的三大痛点:
学科消除不全:传统基准仅消除 5% 长尾学科,藏书楼学、植物学、历史地舆学等宽敞学科始终缺席
题目质地存疑:公开题库存在数据浑浊风险,浅薄改编无法响应信得过学术水平
评测维度单一:多数测试停留在常识缅念念层面,缺少高阶推理才能评估
除此除外,SuperGPQA 也公开了严格的数据构建过程。统统这个词体系依靠大边界东说念主机相助系统,蛊卦众人标注、众包持重和大模子协同考据三重经由,确保入选题目具有富有高的质地和区分度。
当前, SuperGPQA 已在 HuggingFace 和 GitHub 开源,凯旋冲上了 Trending 榜单。
初次 「全学科消除」,填补行业空缺
臆测东说念主员败露,当今大言语模子评估体系主要有两大"逆境":学科消除严重失衡、评测基准挑战性失效。
以 MMLU 和 GPQA 为代表的传统基准,尽管在数学、物理等主流学科中建设了圭臬化测试框架,但其消除的学科数目频频不及 50 个,无法涵盖东说念主类集合的种种化和长尾常识。
况兼,GPT-4o 和 DeepSeek-R1 在传统基准上准确率都破 90% 了,导致评测体系失去区分度,无法有用权衡模子在信得过复杂场景中的推理上限。
根源就在于传统基准构建范式太单一,数据来源、质地筛选都相对粗陋。传统基准仅依赖教科书例题或在线题库,举例 GPQA 中 42% 的问题来自维基百科,导致题目缺少专科深度,且易被模子通过缅念念机制"破解"。
数据炫耀,GPT-4o 对在线锻真金不怕火网站谜底的换取率高达 67.3%,表示其性能擢升可动力于题目数据泄漏而非信得过推理才能。
此外色色网,众包标注的专科水平错杂和主不雅性问题难度评估进一步加重了基准的不成靠性——早期尝试中,仅 37% 的众包标注问题通过众人审核,导致高出 60% 的标注资源糟践。
为措置上述逆境,豆包大模子团队搭伙 M-A-P 开源社区推出 SuperGPQA,旨在深度挖掘 LLMs 后劲,其特色如下:
全面且具区分性:STEM(科学、工程、医学)边界问题占比 77.2%,确保在复杂推理任务中的高效评估。尽管非 STEM 学科(如形而上学、文体、历史)问题较少,但仍能有用区分不同 LLMs 的性能。
难度分散种种:各学科问题难度平衡分散;在工程和科学边界,费事比例较高。42.33% 的问题需要数学计较或严谨推理,确保模子在高难度任务中的发扬。
语义结构丰富:t-SNE 可视化炫耀跨学科聚类格局,工程和科学类问题语义一样,东说念主文体科常识中心专有,不同边界言语特色显然。
题目缱绻一致:平均问题长度 58.42 字,选项长度和谐,蛊卦性和挑战性拉满,评测自制又可靠。
手脚基准测试,SuperGPQA 相配全面,消除 13 个门类、72 个一级学科和 285 个二级学科,共 26,529 个问题,把现存 GPQA(448 题)和 MMLU-Pro(12,032 题)远远甩在死后。同期,每题平均 9.67 个选项,也比传统 4 选项面容挑战性高得多。
东说念主机相助三步质检,根绝"刷题党"
SuperGPQA 中枢架构分三步:来源筛选、转录、质地检测。
团队缱绻时,深知众包持重才能在高复杂度题目上的不及,因此引入了众人持重员,确保题目来源靠谱、难度适应。再蛊卦起首进的 LLMs 援助质地检测,效用拉满,也通过多模子相助裁减了题目数据泄漏的风险。
此外,团队还强调严格经由料理和执续质地反馈,保证每阶段输出都达标。靠着系统化、专科化经由,SuperGPQA 题库质地飙升,后期修蓝本钱和技术大幅减少。
来源筛选
为保证题目高质地,团队凯旋废弃众包持重员会聚资源的老路,转而让众人持重员从竟然来源(教科书、巨擘锻真金不怕火网站)筛选、会聚原始问题。
这招一出,幸免了早期大都无效问题的产生,并通过条款提供来源截图,大幅擢升了质地检测的效用和准确性。
转录
转录阶段,众人持重员对会聚的原始问题进行言语圭表化、面容调治,确保统统问题都有和谐学术言语和圭臬多项取舍题面容。
团队发现,即使是起首进的言语模子(LLMs)在生成搅扰项时也存在间隙,因此需要众人和谐重写,以提高搅扰项的准确性和有用性,确保题见识挑战性和区分度。
质地检测
质地检测阶段遴荐多档次的检测机制,包括 :
1)基于法规的初步过滤:识别并过滤面容显然不对圭表的题目。
2)基于 LLM 的质地检测:多个先进 LLMs(如 GPT-4、Gemini-flash 等)皆上阵,有用性、负面和顶点盘问检测、多模态摒除、边界联系性评估、区分度记号都不在话下。
3)众人复审:众人持重员对可疑题目进行二次审核,确保题库的高可靠性和高区分度。
推理模子霸榜,但发扬仍低于东说念主类水平
△LLMs 在不同别离层级上的发扬
LLMs 在不同学科上的发扬
SuperGPQA 还作念了全面的本质,来测试业界主流 LLM 的才能发扬。评估涵盖 6 个推理模子、28 个聊天模子、17 个基础模子,闭源、开源、实足开源模子全消除。
团队发现,在涵盖 51 个模子的横向评测中,DeepSeek-R1 以 61.82% 准确率登顶,但其发扬仍显赫低于东说念主类臆测生水平(平均 85%+)。
咱们从论文中还扒到三大值得暖和的论断:
1、推理才能决定上限
推理模子(DeepSeek-R1、O1-2024-12-17)包揽前 3,最初聊天模子超 10 个百分点
DeepSeek-V3 和 Qwen2.5-72B-Instruct 的得分(47.40 和 40.75)远超其基础版块(32.14 和 34.33),发挥辅导微调显赫擢升性能
2、国内模子解围
豆包大模子(Doubao-1.5-pro)以 55.09% 准确率位列聊天模子第一,超越 GPT-4o-2024-11-20(44.40%)
Qwen 系列展现强泛化才能:Qwen2.5-72B 在基础模子中名循序 4,超越 Llama-3.1-405B
3、学科发扬失衡 * STEM 边界上风显赫:在「表面流膂力学」「运筹学和截止论」等子边界,Top 模子准确率超 75%
东说念主文社科已经短板:在「跳舞臆测」「缱绻艺术」等边界,最优模子准确率不及 50%
One More Thing
一直以来,评估数据集对擢升大模子的恶果上限至关攻击,以致有可能是"最关节的部分"。
但评测数据集的搭建浮滥大都东说念主力,很猛进度依靠开源孝敬。早在前年,字节就在开源评测数据集上有所举止,消除超 11 类信得过场景、16 种编程言语的代码大模子评估基准 Fullstack Bench 受到斥地者好评。
此番字节再次亮出耗时半年打造的 SuperGPQA,进一步冲突外部对于"字节对基础责任参加不及"的印象。另一方面,也侧面表示字节里面临模子才能的极高标的。
蛊卦近期咱们暖和到的 DeepMind 大牛吴永辉加入,全员会定下"追求智能上限"的标的。
2025 年,豆包模子究竟能冲到什么水平?不妨让枪弹再飞一会。
论文连续: https://arxiv.org/pdf/2502.14739
数据连续: https://huggingface.co/datasets/m-a-p/SuperGPQA
代码连续: https://github.com/SuperGPQA/SuperGPQA色色网