规矩现在kaiyun,o1 等强推理模子的出现阐明了 PRMs(过程级奖励模子)的灵验性。
("幕后元勋" PRMs 追究评估推理过程中的每一步是否正确和灵验,从而领导 LLMs 的学习标的。 )
但要津问题来了:咱们何如准确评估 PRMs 自己的性能?
看成回话,复旦大学、苏州大学,上海 AI Lab 等结伙建议了 PRMBench,它包含 6,216 条尽心想象的问题和 83,456 个模范级标签,用于评测模子细粒度的诞妄检测才智。
具体而言,现在主流的评估程序通常侧重于最终遵循的正确性,而忽略了对推理过程中密致入微的诞妄类型的识别。举例,一个推理模范可能存在冗余、部分正确、 以致皆备诞妄等多种状况,浅薄的"正确 / 诞妄"标签难以捕捉其复杂性。
而 PRMBench 提供了一个更全面、更精细化的评估器具,不错更灵验地识别 PRMs 的潜在劣势,促进相干算法的纠正。
实践发现,现在 PRMs 在细粒度诞妄检测上仍有较大提高空间。即使是推崇最好的模子 Gemini-2-Thinking,其 PRMScore 也仅为 68.8,强迫高于立时料到的 50.0。
即使是有益在模范级数据上磨真金不怕火过的 PRMs,其推崇仍不如优秀的闭源通用模子,且多步推理才智有益增强过的模子推崇优于一般通用模子。
除此除外,考虑东谈主员还公布了一些其他发现和辩论。
PRMBench:一次针对 PRMs 的"全地方体检"
据先容,PRMBench 并非浅薄的"升级版"评估数据集,而是一套经过尽心想象的"体检有诡计",主意是全面纯熟 PRMs 在不同维度上的才智。
下图为 PRMBench 的主要结构,左侧部分展示了数据整理的经过,右侧部分展示了评估主题的示例以及测试模子的相对性能表。
其主要特色包括:
海量且精细的标注数据:包含 6,216 个尽心想象的问题,并包含 83,456 个模范级别的标签,确保评估的深度和广度。
多维度、多眉目的评估体系:检朴洁性 ( Simplicity ) 、合感性 ( Soundness ) 和敏锐性 ( Sensitivity ) 三个主要维度开赴,进一步细分为九个子类别,举例非冗余性、非轮回逻辑、评价合感性、模范一致性、鸿沟一致性、置信度不变性、前提条目敏锐性、 乱来抵御和一题多解一致性,接力全面遮蔽 PRMs 可能遭受的挑战。
揭示现存 PRMs 的"盲区":考虑团队对 15 个代表性模子进行了等闲的实践,包括开源 PRMs 以及坚忍力通用讲话模子请示看成 Critic Model 的模子。实践遵循令东谈主诧异,也引东谈主深念念。
具体来说,考虑的主要发现如下:
1、举座推崇堪忧。即使是推崇最好的模子 Gemini-2-Thinking,其 PRMScore 也仅为 68.8,强迫高于立时料到的 50.0。这标明,即使是源头进的 PRMs,在多步过程评估中仍然有弘大的提高空间。
2、开源 PRMs 推崇更弱。开源 PRMs 的平均 PRMScore 更低至 50.1,部分模子以致不如立时料到,揭示了其可靠性和潜在磨真金不怕火偏差的问题。
3、"简陋性"成最大挑战。在 "简陋性" 维度上,即使是推崇相对较好的 ReasonEval-34B,其 PRMScore 也骤降至 51.5,标明 PRMs 在识别推理过程中的冗余模范方面才智不及。
4、 "阳性偏好"表象权贵。部分模子,举例 ReasonEval-7B 和 RLHFlow-DeepSeek-8B,在评估中推崇出权贵的"阳性偏好",难以诀别正确和诞妄的模范。
5、数据运行的知悉。考虑发现,诞妄模范出现的位置也会影响 PRMs 的判断准确率。总的来说,跟着诞妄模范位置的后移,PRMs 的推崇会徐徐提高。
具体建议过程
底下先容一下具体考虑过程。
建议主要问题
在一项需要举出反例的阐明题捏行中,考虑东谈主员不雅察到一个意旨的表象:
即使大讲话模子 ( o1 ) 自身意志到现时推理过程存在一些问题,仍然会产生诞妄的推理模范。
更令东谈主担忧的是, 当调用现存的 PRMs 去检测刚刚 o1 生成的推理过程时,遵循却发现大都 PRMs 无法检测出这种细粒度的诞妄。
这一发现引出了一个要津问题:现时的 PRMs 是否具备检测推理过程中细粒度诞妄的才智?
下图为,当考虑模子系数拉格朗日中值定理相干问题时,o1 和 PRMs 可能会产生的诞妄。
但是,现存针对 PRMs 评测而想象的 benchmark 大多只是温和模范评判的对错,而冷落模范评判的诞妄类型, 费事对诞妄类型的密致分类。
这也就意味着,现在枯竭这么玩忽评测 PRMs 在细粒度诞妄上推崇的玄虚 benchmark。
而这,恰是考虑东谈主员推出 PRMBench 这一精细化基准的根柢原因。
他们但愿通过 PRMBench,冲破现存评估的局限,信得过遴择出玩忽灵验识别细粒度诞妄的"优秀" PRM。
下图为 PRMBench 与其他数据集对比。
PRMBench 构建
如下所示,PRMBench 包含三大评测主题:简陋性,合感性和敏锐性。
数据开始:基于 PRM800K 构建,当先筛选出其皆备正确的问题、谜底以及解题模范看成元数据。
诞妄引入:针对大都评测主题(前 8 个)使用 LLMs(相配是 GPT-4o)将多样细粒度的诞妄引入到皆备正确的解题推理模范中。关于一题多解的情况,则使用多步推理增强过的讲话模子为兼并问题生成不同的正确解法过火推理模范。
东谈主工考证:严格的东谈主工审查,以确保引入诞妄的质地和相干性。
数据集统计:包含 6,216 个尽心想象的问题,带有 83,456 个模范级别的标签。
评估对象:分为三个主要鸿沟。简陋性评估冗余检测才智(非冗余性、非轮回逻辑);合感性评估 PRM 产生奖励的准确性和正确性(评价合感性、模范一致性、鸿沟一致性、 置信度不变性);敏锐性评估对变化和误导性信息的鲁棒性(前提条目敏锐性、乱来抵御、多解一致性)。
实践与遵循
考虑东谈主员测试了 15 个模子,包括开源 PRMs ( Skywork-PRM, Llemma-PRM, MATHMinos-Mistral,MathShepherd-Mistral, RLHFlow-PRM ) 和请示为 Critic Models 的优秀闭源讲话模子 ( GPT-4o, o1-mini,Gemini-2 ) 。
评估诡计主要为:
负 F1 分数 ( Negative F1 Score ) :评估诞妄检测性能的主要诡计。
PRMScore:将 F1 和负 F1 相劝诱的长入、模范化的分数,以反应举座才智。
不错看出,举座而言 PRMs 在多步过程评估中推崇出有限的才智,其得分通常仅略高于立时料到。
同期, 开源 PRMs 的推崇通常不如坚忍力通用讲话模子(如 o1, Gemini-thinking 等)请示为 Critic Model 的推崇更好。
何况相较于其他评测主题,检测冗余 ( 简陋性 ) 被阐明对 PRMs 来说尤其繁难。
另外,通过 PRMBench 下模子关于正确标签测试样例(阳性数据)和诞妄标签测试样例(阴性数据)的得分对等到相同度来看。
很多 PRMs 推崇出对正确标签的偏好,难以正确识别诞妄标签测试样例(阴性数据)。
且从推理模范位于推理链中不同位置对模子 PRMScore 的影响来看,PRMs 的性能通常会跟着推理模范位于推理链中的位置徐徐靠后而提高。
终末从不同 Few shot 数量关于请示为 Critic Model 的通用讲话模子推崇影响来看,少样本 ICL 的影响有限。
在 reward 过程中使用不同数量示例的 In-Context Learning 对闭源模子的性能影响不大。
小结一下,PRMBench 的发布,提醒咱们再行扫视现存 PRMs 的才智界限。
按照考虑团队的说法,"咱们但愿 PRMBench 玩忽成为鼓动 PRM 评估和发展考虑的坚实基石"。
更多细节接待查阅原论文。
论文纠合:
https://arxiv.org/abs/2501.03124
技俩主页:
https://prmbench.github.io/
Code:
https://github.com/ssmisya/PRMBench
Data:
https://huggingface.co/datasets/hitsmy/PRMBench_Preview
— 完 —
投稿请发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿本体
附上论文 / 技俩主页纠合,以及谋划表情哦
咱们会(尽量)实时回复你
点这里� � 温和我,铭记标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日邂逅 ~