> | Resource | Info |
> | :---        |:--- |
> | Paper       | http://arxiv.org/abs/2505.21493 |
> | Code & Data | https://github.com/sail-sg/VeriFree |
> | Public      | arXiv |
> | Date        | 2025.08.14 |


# Summary Overview

现在 RL 主要集中在 math 和 code 任务上，如果要泛化到其他领域往往需要一个 LLM 用来验证模型答案。但是这样可能存在 reward hacking 的问题，并且额外引入了一个 LLM 往往也会带来更多的计算资源开销问题。作者提出了一种不需要 verify model 的方法(VeriFree)在 RL 中进行训练。具体是将 reference answer 拼到模型生成的 reasoning path 后根据其概率计算相关指标作为 reward。

![image.png](/static/img/0565a623bae2011e9cf34ae719908507.image.png)

# Main Content

Reasoning is critical far beyond math and coding; however, the difficulty of answer verification in general reasoning tasks poses a major obstacle to applying this training paradigm to broader domains. To address this limitation, we investigate how to extend R1-Zero-style training to tasks where rule-based answer verification is not possible.

Given a question, we only generate the reasoning trace and concatenate it with the reference answer from the dataset. We then evaluate the likelihood of the reference answer conditioned on the question and the generated reasoning trace. This likelihood serves both as a reward signal for policy gradients on the reasoning trace and as a weighting term for supervised training of the reference answer.

![image.png](/static/img/9df6e03021b7c7750fec2976c20aed6a.image.png)

$$
\nabla_\theta J_{\text{VeriFree}}(\theta) = \frac{1}{G} \sum_{i=1}^{G} [A_i \cdot \nabla_\theta \log \pi_\theta(z_i|x) + R_i \cdot \nabla_\theta \log \pi_\theta(y^*|x, z_i)]
$$

where $z_i \sim \pi_\theta(\cdot|x)$, $R_i = \pi_\theta(y^*|x, z_i)$, and $A_i = \pi_\theta(y^*|x, z_i) - \frac{1}{G-1} \sum_{j \neq i} \pi_\theta(y^*|x, z_j)$.

![image.png](/static/img/7334c84e084e723a02c84351979abb9d.image.png)

这篇文章也考虑到了一个很实际的问题，虽然解码出来的字符串我们能够很明显地知道哪一部分是 reasoning，哪一部分是 answer，但是在 tokenization 时，修改一两个字符串可能会对直接对整个 encode 出来的 token 造成巨大的影响。

![image.png](/static/img/7487cce4f4b7747ef09a7990b4b3fe57.image.png)

# Experiments

Evaluations: MMLU-Pro, SuperGPQA, GPQA, MATH-500, OlympiadBench, Minerva Math, GSM8K, AMC and AIME 24.

![image.png](/static/img/3fd204483195ced81d4741b727803397.image.png)

![image.png](/static/img/7b7543420ad9dbf80dfc87dfd0b255a0.image.png)

Main results:
- VeriFree improves general reasoning capabilities.
- VeriFree leads to better learning efficiency. VeriFree consistently outperforms the baseline, achieving higher accuracy with fewer training steps.
- Model confidence is a good reasoning capability proxy.

![image.png](/static/img/ed7f1497e161585a1af1933b9de286d6.image.png)

Ablation study:

![image.png](/static/img/b48d8ac9cd1f297c4cdf7abf062ed532.image.png)

# 🤖

:::info{title=" "}
1. 论文的创新之处与独特性：
   - **创新点：提出Verifier-Free方法（VeriFree）**  
     论文通过取消对显式验证器的依赖，提出了一种无需规则或模型验证器的强化学习方法，用于训练大型语言模型（LLM）的通用推理能力。这种方法直接优化生成参考答案的概率，避免了传统方法中对验证器的依赖以及由此带来的计算负担和潜在的奖励欺骗问题。
   - **理论贡献：梯度等价性与方差降低分析**  
     论文基于唯一答案假设，推导了Verifier-Free优化目标的梯度等价性，并证明了该方法的梯度估计器相比传统Verifier方法具有更低的方差。这种理论分析为其方法的稳定性和高效性提供了坚实的数学基础。
   - **实践贡献：更广泛的适用领域**  
     VeriFree方法扩展了传统仅适用于数学和代码领域的R1-Zero风格训练范式，使其能够应用于化学、法律、经济学等难以进行规则验证的领域。
   - **性能提升：在多项基准测试中的表现**  
     实验结果表明，VeriFree不仅在多个推理任务中超越了基于验证器的方法，还显著减少了训练过程中的计算资源需求，提升了模型的学习效率。

2. 论文中存在的问题及改进建议：
   - **唯一答案假设的局限性**  
     VeriFree方法假设每个问题只有一个正确答案，这在实际应用中可能不够全面。例如，在开放性问答或多解问题中，参考答案可能具有多种形式。建议引入多答案处理机制，例如通过扩展等价类的定义来支持多种正确答案。
   - **对复杂推理任务的适应性不足**  
     尽管VeriFree在一般推理任务中表现良好，但其在处理多步骤复杂推理问题时的能力仍需进一步验证。改进建议包括结合链式推理（Chain-of-Thought）生成更长的推理路径，并优化推理路径质量。
   - **数据质量的依赖性**  
     论文使用了经过高质量过滤的数据集，但在实际场景中，数据质量可能难以保证。建议进一步研究如何在低质量或噪声数据环境下提升模型性能，例如引入鲁棒性训练机制或数据增强技术。
   - **缺乏对跨领域迁移能力的深入探索**  
     虽然论文展示了VeriFree的领域迁移能力，但实验主要集中在数学和一般推理任务上。建议进一步研究该方法在跨语言、跨模态推理任务中的适应性。

3. 基于论文的内容和研究结果，提出的创新点或研究路径：
   - **研究路径1：多答案支持的Verifier-Free优化**  
     扩展VeriFree方法以支持多种正确答案形式，探索如何利用答案等价类来提升模型的推理能力。
   - **研究路径2：结合链式推理的Verifier-Free方法**  
     将链式推理（CoT）与VeriFree结合，通过优化推理路径的生成概率来提升复杂推理任务的性能。
   - **研究路径3：跨模态Verifier-Free推理能力**  
     探索VeriFree方法在跨模态推理任务（如文本与图像结合推理）中的应用，研究如何在多模态输入下优化模型的推理能力。

4. 为新的研究路径制定的研究方案：
   - **研究路径1：多答案支持的Verifier-Free优化**
     - **研究方法**：
       1. 构建包含多种正确答案形式的训练数据集，定义答案等价类。
       2. 修改VeriFree的优化目标，使其能够同时优化多个参考答案的生成概率。
       3. 设计实验对比多答案支持的VeriFree与原始方法的性能差异。
     - **研究步骤**：
       1. 数据预处理：使用现有数据集扩展答案等价类。
       2. 模型训练：在扩展后的数据集上应用多答案支持的VeriFree方法。
       3. 性能评估：使用多领域基准测试（如MMLU-Pro、SuperGPQA）评估模型性能。
     - **期望成果**：
       提出一种支持多答案的Verifier-Free方法，显著提升模型在开放性问答任务中的表现。

   - **研究路径2：结合链式推理的Verifier-Free方法**
     - **研究方法**：
       1. 使用链式推理生成推理路径，并将其与参考答案拼接。
       2. 优化推理路径生成概率，同时权衡路径质量与答案正确性。
       3. 比较链式推理增强的VeriFree方法与传统方法在复杂推理任务中的表现。
     - **研究步骤**：
       1. 数据扩展：引入需要多步骤推理的任务数据集。
       2. 模型训练：结合链式推理生成与VeriFree优化目标进行联合训练。
       3. 性能评估：使用复杂推理基准测试（如Minerva Math、OlympiadBench）评估模型性能。
     - **期望成果**：
       提出一种结合链式推理的Verifier-Free方法，显著提升模型在复杂推理任务中的能力。

   - **研究路径3：跨模态Verifier-Free推理能力**
     - **研究方法**：
       1. 构建跨模态推理数据集（如文本与图像结合任务）。
       2. 修改VeriFree方法以支持跨模态输入，优化模型在多模态条件下生成正确答案的概率。
       3. 设计实验验证跨模态Verifier-Free方法的有效性。
     - **研究步骤**：
       1. 数据收集：构建文本与图像结合的推理任务数据集。
       2. 模型训练：在跨模态数据集上应用改进的VeriFree方法。
       3. 性能评估：使用跨模态基准测试（如VQA、图像描述任务）评估模型性能。
     - **期望成果**：
       提出一种跨模态Verifier-Free方法，显著提升模型在多模态推理任务中的表现。

:::

# Others

[arXiv-2025] Reinforcing General Reasoning without Verifiers

> | Resource | Info |
> | :---        |:--- |
> | Paper       | http://arxiv.org/abs/2505.18116 |
> | Code & Data | https://github.com/NVlabs/NFT |
> | Public      | arXiv |
> | Date        | 2025.08.13 |


# Summary Overview

NFT 提出了一种监督学习的方法，与普通的 SFT 不同的是，NFT能够和 RL 一样从错误中学习。传统的监督学习中，RFT 只使用了正确的答案进行训练，而 NFT 则是能够将模型生成的错误答案利用起来。同时作者也证明了，在 on-policy 训练中，NFT 和 GRPO 这样的 RL 算法是等价的。

![image.png](/static/img/b75ea5ac8344926f1ea5c6919780faf6.image.png)

# Main Content

Rejection sampling Fine-Tuning (RFT): At each iteration, an LLM generates answers to questions. A verifier helps reject all negative answers. The remaining positive ones are compiled into a dataset to fine-tune the LLM itself in a supervised manner.

![image.png](/static/img/00cfe2f23c370a897427d219ff2ab293.image.png)

![image.png](/static/img/90121b7ee6fcac3af3266954a73f6fe8.image.png)

NFT (Negative-aware Fine-Tuning) 算法的核心思想是，通过构建一个隐式负策略来使得 LLM 自己能够从错误的答案中进行训练，从而弥补传统监督学习在利用负反馈方面的不足。

首先，给定一组数学问题$q$和一个预训练的LLM $\pi(a|q)$，以及一个用于验证答案正确性的炎症期，在每次迭代中，模型会生成一组答案$a^{1:K}$，并根据 verifier 得到它们的正确性标签 $r^{1:K}\in\{0,1\}$。这些数据被分为两部分：正确的答案集$\mathcal{D}^+$和$\mathcal{D}^-$。接着，作者定义了两种策略:
- Target Positive Policy $\pi^+(a|q)$: 这是模型希望学习的策略，即在给定问题$q$的情况下，生成正确答案$a$的条件概率。根据贝叶斯定理，这个策略可以表示为:
$$
\pi^+(a|q):=\pi(a|q,r=1)=\frac{\pi(a|q)p(r=1|q,a)}{\sum_A\pi(a|q)p(r=1|q,a)}
$$
- Implicit Negative Policy $\pi^-(a|q)$: 这是生成错误答案的策略，同样可以由贝叶斯定理表示:
$$
\pi^-(a|q):=\pi(a|q,r=0)=\frac{\pi(a|q)[1-p(r=1|q,a)]}{\sum_A\pi(a|q)[1-p(r=1|q,a)]}
$$
观察到: $r_q\pi^+(a|q)+[1-r_q]\pi^-(a|q)=\pi(a|q)$，其中$r_q:=p(r=1|q)=\sum_A\pi(a|q)p(r=1|q,a)$是 LLM 在回答问题$q$时生成正确答案的正确率，在实际中$r_q$可以通过对同一个问题生成$K$个答案，并计算其中正确率的平均值来估计。

将$\pi^-(a|q)$用目标正策略$\pi^+(a|q)$和原始策略$\pi(a|q)$来重新参数化。这个被重新参数化的负策略就是所谓的隐式负策略$\pi^-_\theta$。

$$
\pi_\theta^-(a|q):=\frac{\pi(a|q)-r_q\pi_\theta^+(a|q)}{1-r_q}
$$

这样一来，在负样本上进行的任何训练，都会直接优化底层的正向策略$\pi_\theta^+$。

最后的 Loss 函数结合正向数据和负向数据的优化。这个损失函数是通过最大似然目标来推导的。
- 对正向数据的损失：其目标是最大化正确的答案似然 $\log(\pi_\theta^+(a|q))$
- 对负向数据的损失：其目标是最大化隐式策略的似然 $\log(\pi_\theta^-(a|q))$

将这两部分结合起来，得到 Loss

$$
\mathcal{L}_{(a,q,r)\sim\mathcal{D}}^{\text{NFT}}(\theta) = r\left[-\log\frac{\pi_\theta^+(a|q)}{\pi(a|q)}\right] + (1-r)\left[-\log\frac{1-r_q\frac{\pi_\theta^+(a|q)}{\pi(a|q)}}{1-r_q}\right]
$$

加上一些实践上的改进，NFT 得到了最终的 Loss 函数
(\+ Token-level loss \+ Clipping negative likelihood ratio \+ Prompt weighting)。



$$
\mathcal{L}_{\mathcal{D}}^{\text{NFT}}(\theta) = -\sum_{q,a,r} \omega(q) \sum_t \left[ r \log R_\theta^t(q,a) + (1-r) \log \text{max\_v}\left(\frac{1-\hat{r}_q R_\theta^t(q,a)}{1-\hat{r}_q}, \epsilon\right) \right]
$$

where $R_\theta^t(q,a) = \frac{\pi_\theta^+(a_t|q,a_{<t})}{\pi(a_t|q,a_{<t})}$, and $\hat{r}_q = \frac{1}{K}\sum_{a|q} r(q,a)$

![image.png](/static/img/28dc78dc907029a20e47eb8fbe60e34e.image.png)

# Experiments

![image.png](/static/img/295ed88a5ec58e1891c9a9c0fc6af719.image.png)

![image.png](/static/img/85e619b181b5bd0d3dc8e6511ff16ddf.image.png)

**Benefits of Negative Data**

![image.png](/static/img/53a25e665c833bf3e414131a06538563.image.png)

# 🤖

:::info{title=" "}
1. 论文的创新之处与独特性：
   - **提出NFT算法，桥接SL与RL的理论与实践**：论文提出了“Negative-aware Fine-Tuning (NFT)”算法，这是一种基于监督学习（SL）的新方法，能够通过负反馈数据实现自我改进。相比传统SL仅使用正样本，NFT引入了隐式负策略，通过最大似然优化同时学习正负样本。这种方法不仅显著提升了LLMs的数学推理能力，还在严格的on-policy条件下与领先的RL算法（如GRPO）表现出理论等价性。
   - **挑战传统观点，拓展SL的应用边界**：传统观点认为SL无法通过负反馈实现自我改进，而论文通过理论分析和实验验证表明，SL在使用负反馈数据时可以达到甚至超越RL的效果。这一发现为SL在二元反馈系统中的应用开辟了新的可能性。
   - **极简设计与高效实现**：NFT算法仅需维护一个模型，避免了复杂的多模型架构，减少了内存开销，同时通过负样本的隐式建模实现了直接优化。这种设计在训练效率和资源节约方面具有显著优势。
   - **实验验证与广泛比较**：论文在7B和32B规模的模型上进行了广泛实验，结果显示NFT在数学推理任务中表现优异，甚至与领先的RL算法（如DAPO）持平或超越。这证明了NFT的稳定性和有效性。

2. 论文中存在的问题及改进建议：
   - **负反馈数据的利用效率问题**：虽然NFT引入了负反馈数据，但论文中未深入探讨如何进一步挖掘负样本的潜在价值。例如，负样本可能包含某些模式或错误类型，这些信息可以用于更细粒度的优化策略设计。建议引入负样本分类机制，根据错误类型调整模型的学习权重。
   - **缺乏对模型泛化能力的深入分析**：论文主要关注数学推理任务，但未明确讨论NFT在其他领域（如语言生成、逻辑推理等）的泛化能力。建议扩展实验范围，验证NFT在更多任务中的适用性，并分析其潜在局限性。
   - **算法对超参数敏感性问题**：论文中提到负比率剪裁参数（\[\epsilon\]）对模型性能影响较大，但未提供详细的超参数调优方法。建议进行系统的超参数敏感性分析，并提出自动调优策略以提升算法的鲁棒性。
   - **对RL与SL理论等价性的进一步扩展**：虽然论文证明了NFT与GRPO在on-policy条件下的等价性，但未探讨off-policy条件下的差异及潜在改进方向。建议研究如何在off-policy条件下缩小SL与RL的性能差距。

3. 基于论文的内容和研究结果，提出的创新点或研究路径：
   - **研究路径1：基于负样本分类的动态优化策略**  
     通过对负样本进行错误类型分类（如计算错误、逻辑错误、表达错误等），设计动态优化策略，使模型针对不同类型的错误进行有针对性的学习。
   - **研究路径2：跨任务泛化能力的验证与改进**  
     将NFT应用于其他领域（如语言生成、代码推理等），验证其泛化能力，并探索如何通过任务迁移学习进一步提升模型性能。
   - **研究路径3：结合RL与SL的混合优化框架**  
     在NFT的基础上引入RL奖励信号，设计混合优化框架，综合利用SL的效率和RL的探索能力，进一步提升模型的自我改进能力。

4. 为新的研究路径制定的研究方案：
   - **研究路径1：基于负样本分类的动态优化策略**
     - **研究方法**：通过分析负样本的错误类型，构建分类器对负样本进行分类；根据分类结果设计动态权重调整机制，使模型在训练过程中对不同类型的错误给予不同的关注。
     - **研究步骤**：
       1. 收集负样本数据并进行错误类型标注。
       2. 训练分类器对负样本进行自动分类。
       3. 根据分类结果调整NFT的优化目标，设计动态权重调整机制。
       4. 在数学推理任务上验证动态优化策略的效果。
     - **期望成果**：显著提升模型对负样本的学习效率，降低错误率，同时提高模型的数学推理能力和稳定性。
   - **研究路径2：跨任务泛化能力的验证与改进**
     - **研究方法**：将NFT应用于不同任务（如语言生成、代码推理等），并引入迁移学习方法以提升跨任务性能。
     - **研究步骤**：
       1. 选择多个任务，构建对应的训练数据集。
       2. 将NFT应用于每个任务，记录模型性能。
       3. 引入迁移学习方法（如多任务学习或知识蒸馏），探索跨任务性能提升的可能性。
       4. 分析NFT在不同任务中的局限性，并提出改进建议。
     - **期望成果**：验证NFT的跨任务泛化能力，提出适用于多任务的优化方法，为SL在更多领域的应用提供理论与实践支持。
   - **研究路径3：结合RL与SL的混合优化框架**
     - **研究方法**：设计混合优化框架，将RL奖励信号与NFT的负样本优化目标结合，综合利用两者的优势。
     - **研究步骤**：
       1. 在NFT的基础上引入RL奖励信号，设计混合优化目标。
       2. 通过实验验证混合优化框架的性能，并与单一算法（如NFT或GRPO）进行对比。
       3. 分析混合优化框架的适用场景及潜在问题。
       4. 优化框架设计，提升其鲁棒性和适用性。
     - **期望成果**：提出一种性能更优的混合优化框架，在数学推理任务及其他领域实现显著性能提升，同时拓展SL与RL结合的理论边界。

:::

# Others

[arXiv-2025] Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

> | Resource | Info |
> | :---        |:--- |
> | Paper       | http://arxiv.org/abs/2506.18254 |
> | Code & Data | https://github.com/openbmb/RLPR |
> | Public      | arXiv |
> | Date        | 2025.08.11 |


# Summary Overview

现有的 verifier 基本上都是建立在 math 或者 code 这种很容易进行验证的任务上。为了进一步推动强化学习在更多领域上的应用，很明显需要 General Verifier 来进行协助。为了应对挑战，作者的关键观察是LLM产生正确的自由形式答案的内在概率直接表明其对推理奖励的评估。作者提出了使用模型自身在 ground truth 上的概率来表示其推理路径是否正确，从而实现一种能在广泛领域应用的 verifer，并且这样这样不会引入额外的模型，并且获得了不错的效果。 

![image.png](/static/img/4fcac70ea8ca6c05eb9b069df02da794.image.png)

# Related Work

**Self-Reward Optimization** Unsupervised reinforcement learning on language models using the policy model its self as a reward has recently emerged as an embarrassingly effective approach. The common idea behind the practice of self-reward is raising the probabilities of consistent answers, intuitively from the observation that concentrating on the majority brings fee improvements. Recent literature shows that entropy minimization, which naively degrades generation diversity, is a sugar for reasoning tasks, though restricted to certain model families. However, such practice might be prob-lematic for restricting exploration. In contrast to self-rewarding methods that remove diversity to exploit existing reasoning ability, our apporach builds the reward based on the reference answer, yielding reasoning performance with healthy token entropy from the clip-high trick.

# Main Content

> *The basic insight is that LLM's intrinsic probability of generating a correct answer directly indicates its own evaluation of the reasoning reward.*

RLPR introduces two key innovations:

1. At the reward modeling level, we propose a simple and scalable alternative to the explicit reward from external verifiers with an instrinsic Probability-based Reward (PR), calculated by the average decoding probabilities of the reference answer tokens.
2. At the training level, we propose an adaptive curriculum learning mechanism to stabilize training.

![image.png](/static/img/6a1d6ed152899d8c2e9bb491fd3b7601.image.png)

**Contributions:**
1. We present **RLPR**, a simple and scalable framework that extends RLVR to general domains without using external verifiers.
2. We propose a novel probability reward that eliminates the need for external verifiers and achieves better reward quality than naive likelihood as a reward.
3. We introduce a novel standard deviation filtering strategy that effectively stabilizes training by removing samples with low reward standard deviation.
4. We conduct comprehensive experiments to demonstrate that effectiveness of the proposed framework on various base models from Qwen, Llama and Gemma.

**Probability Reward**

## 2.2 概率奖励

受到大型语言模型（LLM）生成正确答案的内在概率直接表明其对推理质量的内部评估这一观察的启发，我们使用参考答案的逐词元解码概率作为奖励信号。与依赖特定领域验证器的现有方法（Cui et al., 2025a; Luo et al., 2025a）不同，这些方法需要大量的人工启发式方法和工程努力来构建验证器，我们的奖励计算过程仅涉及模型本身。

我们用 $o = (o_0, \cdots, o_N)$ 表示对问题 $Q$ 的每个响应，其中 $o_i$ 是响应中的单个词元。为了获得概率，我们首先从完整响应序列中提取生成的答案 $y$，并将剩余内容表示为推理 $z$。然后，我们通过用训练数据中的参考答案替换生成的答案来构建修改后的序列 $o' = (o'_0, \cdots, o'_{N'})$。将此序列输入策略模型以获得概率 $(p_0, \cdots, p_{N'})$。概率奖励计算如下：

$$
r = f_{\text{seq}}(\{p_i | o'_i \in y^*\})
$$

其中 $f_{\text{seq}}$ 将逐词元概率聚合为响应 $o$ 的单一奖励标量。虽然使用 $f_{\text{seq}} = \sqrt[n]{\prod}$（概率的归一化乘积，即序列似然）反映了参考答案的整体似然，但我们观察到它引入了高方差，并且对微小变化（如同义词）过于敏感。例如，词元概率序列 $(0.01, 0.7, 0.9)$ 和 $(0.05, 0.7, 0.9)$ 在乘积下产生了截然不同的分数，尽管只有第一个词元存在微小差异。为了解决这个问题，我们改为采用 $f_{\text{seq}} = \frac{1}{|y^*|} \sum$（平均概率），这产生了更稳健的奖励信号，并在我们的分析中展现出与答案质量更好的相关性（见图4）。我们观察到概率奖励值与生成答案 $y$ 的质量高度一致，当预测答案在语义上与参考答案相似时获得高奖励，否则分配低奖励。请注意，长度归一化步骤对于GRPO（Shao et al., 2024）来说是多余的，但对于不包含组归一化的算法（如REINFORCE++（Hu et al., 2025a））可能至关重要。

**Reward Debiasing**

尽管基于概率的奖励与响应质量强相关，但它们也受到各种潜在因素的影响。我们将概率奖励 $r$ 的贡献者记为 $U_r$，它本质上可以分解为两个潜在因素：

$$
U_r = U_z + U_{\text{others}}
$$

其中 $U_z$ 表示推理内容的影响，而 $U_{\text{others}}$ 捕获其他相关因素的特征，包括问题和参考答案。直接使用 $r$ 作为奖励会引入与未观察因素 $U_{\text{others}}$ 相关的偏差，可能降低奖励质量。为了缓解这个问题，我们引入基础分数 $r'$，通过使用公式2计算直接解码参考答案 $y^*$ 的概率分数，而不使用中间推理 $z$。这给出 $U_z = U_r - U_{r'}$，去偏的概率奖励计算如下：

$$
\hat{r} = \text{clip}(0, 1, r - r')
$$

其中裁剪操作确保奖励保持在有利的数值范围 $[0, 1]$ 内。这个公式有效地消除了来自 $U_Q$ 和 $U_{y^*}$ 的潜在偏差，并将PR建模为给定生成推理 $z$ 时概率的改进。我们观察到这个去偏步骤稳定了训练并增强了奖励的鲁棒性。我们目标函数的最终梯度估计器是：

$$
\begin{aligned}
\nabla \mathcal{J}_{\text{RLPR}}(\theta) &= \nabla\mathbb{E}_{o \sim \pi_\theta(\cdot|x)}[\hat{r}]\\
&= \sum_o \hat{r} \cdot \pi_\theta(o|x) \nabla \log \pi_\theta(o|x)\\
&= \mathbb{E}_{o \sim \pi_\theta(\cdot|x)}[\hat{r} \nabla \log \pi_\theta(o|x)]
\end{aligned}
$$

其中我们优化整个响应 $o = z||y$ 上的期望奖励。

# Experiments

**Benchmarks**
- Math reasoning: MATH-500, Minerva, AIME 24
- General domains: MMLU-Pro, GPQA, TheoremQA, WebInstruct

![image.png](/static/img/be9c8066b280a129ec7fd66661149f18.image.png)

**PR discriminates correct responses better than the rule-based verifier on general data.** 为了评估不同奖励能够区分正确和错误回复的能力（即，将更高的奖励分配给纠正回复），作者根据各自的奖励对每个提示的回复与人工标注的 ground truth 进行 ROC-AUC 计算。


![image.png](/static/img/80f651926483e2b7a4e98fd1fb0d1c43.image.png)

**Ablation Study**

![image.png](/static/img/3d2f03d56c1f773219794830449576e2.image.png)

![image.png](/static/img/f472f579c1533d9705a4d17397f137a9.image.png)

# 🤖

:::info{title=" "}
1. 论文的创新之处与独特性：
   - **创新点1：无验证器的奖励框架**  
     论文提出了RLPR（Reinforcement Learning with Reference Probability Reward）框架，通过使用LLM的内在概率（Intrinsic Probability）作为奖励信号，取代传统的基于领域验证器的奖励机制。这种方法消除了对外部验证器的依赖，显著降低了复杂性并提高了可扩展性。
   - **创新点2：概率奖励建模与去偏处理**  
     提出了基于每个token概率的奖励信号，并通过去偏机制（Reward Debiasing）消除因问题或参考答案带来的偏差，从而增强了奖励的鲁棒性和稳定性。
   - **创新点3：标准差过滤机制**  
     论文设计了一种基于标准差的过滤机制，通过动态调整过滤阈值，移除过于简单或复杂的样本，从而稳定训练过程并提高最终性能。
   - **关键贡献**  
     RLPR在多个通用领域和数学推理基准上表现出色，超越了现有的强验证器模型（如General Reasoner）和无验证器方法（如VeriFree），展现了其在大规模语言模型推理能力提升方面的潜力。

2. 论文中存在的问题及改进建议：
   - **问题1：对概率奖励的深入分析不足**  
     虽然论文证明了概率奖励的有效性，但对其在不同模型规模、不同任务复杂度下的表现变化缺乏详细讨论。建议在未来研究中进一步分析概率奖励在不同场景下的适用性及其局限性。
   - **问题2：标准差过滤机制的依赖性**  
     标准差过滤机制虽然提高了训练稳定性，但可能限制了模型对复杂问题的学习能力。建议结合动态调整机制，引入更多多样化的过滤标准（如基于问题类型或领域的权重）。
   - **问题3：跨领域泛化能力的验证不足**  
     尽管RLPR在数学和通用领域表现优秀，但其在其他复杂领域（如多模态理解或跨语言任务）中的表现尚未充分验证。建议扩展实验范围，测试RLPR的跨领域泛化能力。

3. 基于论文的内容和研究结果，提出的创新点或研究路径：
   - **创新点1：多模态推理扩展**  
     探索RLPR框架在多模态任务中的应用，例如图像-文本任务或视频分析任务，通过结合多模态模型的内在概率奖励，实现跨模态推理能力的提升。
   - **创新点2：动态奖励信号优化**  
     设计一种基于任务动态调整的奖励机制，根据任务复杂度或模型推理的实时反馈调整奖励信号，从而进一步提高模型的适应性。
   - **创新点3：自监督推理优化**  
     结合RLPR的概率奖励信号，开发一种自监督学习框架，通过模型自身生成的答案与参考答案的对比，进一步优化推理能力。

4. 为新的研究路径制定的研究方案：
   - **研究路径1：多模态推理扩展**
     - **研究方法：**
       1. 构建一个多模态数据集，包括图像-文本匹配任务、视频问答任务等。
       2. 使用预训练的多模态模型（如BLIP或Flamingo）作为基础模型。
       3. 在RLPR框架下，使用模型生成的文本概率作为奖励信号，并结合视觉特征的匹配概率，设计联合奖励机制。
     - **研究步骤：**
       1. 数据预处理与任务设计，确保多模态任务的多样性与挑战性。
       2. 训练模型并监控奖励信号的稳定性与任务性能。
       3. 对比RLPR与现有多模态推理方法的表现，分析其优势与不足。
     - **期望成果：**
       提出一种适用于多模态任务的RLPR扩展框架，显著提升跨模态推理能力，并验证其在多模态基准上的有效性。

   - **研究路径2：动态奖励信号优化**
     - **研究方法：**
       1. 设计一种动态调整机制，根据任务复杂度或模型当前推理质量实时调整奖励信号。
       2. 在多个任务基准上测试动态奖励机制的效果，包括简单任务与复杂任务。
     - **研究步骤：**
       1. 定义任务复杂度指标（如问题长度、逻辑深度等）。
       2. 设计动态调整算法，并与RLPR的固定奖励机制进行对比实验。
       3. 分析动态调整机制对训练稳定性与模型性能的影响。
     - **期望成果：**
       提出一种动态奖励优化算法，显著提高模型在不同任务复杂度下的适应性与推理能力。

   - **研究路径3：自监督推理优化**
     - **研究方法：**
       1. 使用RLPR框架结合自监督学习方法，设计一种基于模型自身生成答案与参考答案的对比优化机制。
       2. 在多个推理任务上测试自监督优化框架的效果。
     - **研究步骤：**
       1. 构建一个高质量的自监督训练数据集，包括复杂推理任务。
       2. 设计对比优化算法，通过奖励信号强化模型的推理能力。
       3. 分析自监督优化框架对模型性能与训练效率的影响。
     - **期望成果：**
       开发一种基于RLPR的自监督推理优化框架，显著提升模型的推理能力，并减少对人工标注数据的依赖。
:::

# Others

[arXiv-2025] RLPR: Extrapolating RLVR to General Domains without Verifiers

> | Resource | Info |
> | :---        |:--- |
> | Paper       | http://arxiv.org/abs/2507.18071 |
> | Code & Data | / |
> | Public      | arXiv |
> | Date        | 2025.08.07 |


# Summary Overview

作者认为在 GRPO 中的重要性采样仅仅是在 token-level 进行计算，这样会造成对于 LLM RL 训练的不稳定，尤其是对于 MoE 模型来说。作者重写了重要性采样的计算方式，使其变成 sequence-level 的计算。

# Main Content

GRPO 在训练大语言模型时可能会出现训练不稳定的问题，通常会导致模型崩溃等问题。在本文中，作者将这种不稳定醒归结于源于 GRPO 算法中的重要性采样权重的错误使用和无效。这在训练中引入了噪声，并且该噪声会随着响应长度的增加而逐渐积累，并通过裁剪机制进一步扩大，最终导致模型塌陷。

**Motivation**

The growth in model size, sparsity (e.g., in Mixture-of-Experts models), and response length necessitates a large rollout batch size to maximize hardware utilization during RL. To improve sample efficiency, it is standard practice to partition a large batch of rollout data into multiple mini-batches for gradient updates. This procedure inevitably introduces an off-policy learning setting, where responses $y$ are sampled from an old policy $\pi_\theta$ rather than the current policy $\pi_\theta$ being optimized. This also explains the necessity of the clipping mechanism in PPO and GRPO, which prevents overly "off-policy" samples from being involved in gradient esstimation.

While mechanisms like clipping aim to manage this off-policy discrepancy, we identify a more fundamental issue in GRPO: *its objective is ill-posed*. This problem becomes particularly acute when training large models on long-response tasks, leading to catastrophic model collapse. The ill-posed nature of the GRPO objective stems from a misapplication of importance sampling weights. The principle of importance sampling is to estimate the expectation of a function $f$ under a target distribution $\pi_\text{bar}$ by re-weighting samples drawn from a behavior distribution $\pi_\text{beh}$:

$$
\mathbb{E}_{z\sim\pi_\text{bar}}[f(z)]=\mathbb{E}_{z\sim\pi_\text{beh}}[\frac{\pi_\text{tar}(z)}{\pi_\text{beh}(z)}f(z)]
$$

Crucially, this relies on averaging over multiple samples ($N\gg1$) from the behavior distribution $\pi_\text{beh}$ for the importance weight $\frac{\pi_\text{tar}(z)}{\pi_\text{beh}(z)}$ to effectively correct for the distribution mismatch.

In contrast, GRPO applies the importance weight $\frac{\pi_\theta(y_{i,t}|x,y_{i,<t})}{\pi_{\theta_\text{old}}(y_{i,t}|x,y_{i,<t})}$ at each token position $t$. Since this weight is based on a single sample $y_{i,t}$ from each next-token distribution $\pi_{\theta_\text{old}}(\cdot|x,y_{i,<t})$, it fails to perform the intended distribution-correction role. Instead, it introduces high-variance noise into the training gradients, which accumulates over long sequences and is exacerbated by the clipping mechanism. **We have empirically observed that this can lead to model collapse that is often irreversible. Once the collapse occurs, resuming training is unavailing, even when reverting to a previous checkpoint and meticulously tuning hyperparameters (e.g., the clipping ranges), extending generation length, or switching the RL queries.**

The above observation suggests a fundamental issue in GRPO's design. The failure of the token-level importance weight points to a core principle: **the unit of optimization objective should match the unit of reward**. Since the reward is granted to the entire sequence, applying off-policy correction at the token level appears problematic. This motivates us to forego the token-level objective and explore utilizing importance weights and performing optimization directly at the *sequence level*.

$$
\mathcal{J}_{\text{GSPO}}(\theta) = \mathbb{E}_{x \sim \mathcal{D}, \{y_i\}_{i=1}^G \sim \pi_{\theta_{\text{old}}}(\cdot|x)} \left[ \frac{1}{G} \sum_{i=1}^{G} \min \left( s_i(\theta) \hat{A}_i, \text{clip}(s_i(\theta), 1-\varepsilon, 1+\varepsilon) \hat{A}_i \right) \right]
$$

$$
s_i(\theta) = \left( \frac{\pi_\theta(y_i|x)}{\pi_{\theta_{\text{old}}}(y_i|x)} \right)^{\frac{1}{|y_i|}} = \exp \left( \frac{1}{|y_i|} \sum_{t=1}^{|y_i|} \log \frac{\pi_\theta(y_{i,t}|x, y_{i,<t})}{\pi_{\theta_{\text{old}}}(y_{i,t}|x, y_{i,<t})} \right).
$$

Therefore, GSPO applies clipping to entire responses instead of individual tokens to exclude the overly "off-policy" samples from gradient estimation, which matches both the sequence-level rewarding and optimization.

与 GRPO 不同的是，GSP 对于一个 response 中的所有 token 都使用统一的 weight。

同时，为了丰富的扩展性，作者还提出了一个 token-level 级别的 Loss: GSPO-token.

$$
\mathcal{J}_{\text{GSPO-token}}(\theta) = \mathbb{E}_{x \sim \mathcal{D}, \{y_i\}_{i=1}^G \sim \pi_{\theta_{\text{old}}}(\cdot|x)} \left[ \frac{1}{G} \sum_{i=1}^G \frac{1}{|y_i|} \sum_{t=1}^{|y_i|} \min \left( s_{i,t}(\theta) \hat{A}_{i,t}, \text{clip}(s_{i,t}(\theta), 1-\varepsilon, 1+\varepsilon) \hat{A}_{i,t} \right) \right]
$$

$$
s_{i,t}(\theta) = \text{sg}[s_i(\theta)] \cdot \frac{\pi_\theta(y_{i,t}|x, y_{i,<t})}{\text{sg}[\pi_\theta(y_{i,t}|x, y_{i,<t})]},
$$

$\text{sg}[\cdot]$ 代表着停止梯度 (stop the gradient)。

GSPO-token and GSPO are numerically identical in the optimization objective, clipping condition, and theoretical gradient when we set the advantages of all the tokens in the response $y_i$ to the same value (i.e., $\hat{A}_{i,t}=\hat{A}_{i}$), while GSPO-token enjoys the higher flexibility of adjusting the advantages per token.

![image.png](/static/img/365e68107ae1f519b4a593d1c442ad18.image.png)

**Benefit of GSPO for MoE Training**

与密集模型的强化学习训练相比，MoE模型的稀疏激活特性引入了独特的稳定性挑战。特别地，我们发现当采用 GRPO 算法时，MoE模型的 expert-activation volatility 会阻止强化学习训练正常收敛。具体而言，经过一次或多次梯度更新后，针对同一响应激活的专家可能会发生显著变化。例如，对于48层的Qwen3-30B-A3B-Base模型，在每次强化学习梯度更新后，对于同一个rollout样本，新策略$\pi_\theta$下激活的专家与旧策略$\pi_{\theta_{\text{old}}}$下激活的专家大约有10\%的差异。这种现象在更深的MoE模型中变得更加突出，使得token级重要性比率$w_{i,t}(\theta) = \frac{\pi_\theta(y_{i,t}|x,y_{i,<t})}{\pi_{\theta_{\text{old}}}(y_{i,t}|x,y_{i,<t})}$剧烈波动并进一步使其失效，如第3节和第4.2节所讨论的，从而阻碍了强化学习训练的正常收敛。

为了解决这一挑战，我们之前采用了 Routing Replay 训练策略。具体而言，我们缓存$\pi_{\theta_{\text{old}}}$中激活的专家，并在计算重要性比率$w_{i,t}(\theta) = \frac{\pi_\theta(y_{i,t}|x,y_{i,<t})}{\pi_{\theta_{\text{old}}}(y_{i,t}|x,y_{i,<t})}$时在$\pi_\theta$中"重放"这些路由模式。通过这种方式，对于每个token $y_{i,t}$，$\pi_\theta(y_{i,t}|x,y_{i,<t})$和$\pi_{\theta_{\text{old}}}(y_{i,t}|x,y_{i,<t})$共享相同的激活网络，从而我们可以恢复token级重要性比率的稳定性，并确保在梯度更新过程中一致激活网络的优化。图3表明路由重放是MoE模型GRPO训练正常收敛的一项关键技术。

![image.png](/static/img/d9407add537e10dc36946946f778001f.image.png)

The key insight is that GSPO focuses only on the sequence likelihood (i.e., $\pi_\theta(y_i|x)$) and is not sensitive to the individual token likelihood (i.e., $\pi_\theta(y_{i,t}|x,y_{i,<t})$).

# 🤖

:::info{title=" "}
1. 论文的创新之处与独特性：
   - **创新算法设计：GSPO**  
     论文提出了Group Sequence Policy Optimization (GSPO)算法，基于序列级别的重要性比率进行优化，取代了传统的基于token级别的重要性比率的设计。这种设计解决了GRPO算法中由于token级别权重波动导致的训练不稳定问题。
   - **稳定性与效率提升**  
     GSPO通过序列级别的裁剪和奖励机制，在训练稳定性和效率方面显著优于GRPO。尤其是在训练Mixture-of-Experts (MoE)模型时，GSPO完全消除了复杂稳定化策略的需求，简化了强化学习架构。
   - **应用与性能改进**  
     GSPO成功应用于Qwen3模型的强化学习训练，显著提升了模型性能，证明了该算法在大规模语言模型训练中的可扩展性和有效性。
   - **基础理论的支持**  
     GSPO基于序列似然性的重要性比率设计，理论上与重要性采样的基本原理一致，为优化目标提供了坚实的数学基础。

2. 论文中存在的问题及改进建议：
   - **序列级别裁剪的适用范围**  
     虽然GSPO在序列级别裁剪上表现优异，但在多轮对话或复杂任务中可能需要更细粒度的控制。建议进一步研究GSPO-token变体的实际表现，以确保其在多样化任务中的适用性。
   - **实验覆盖范围有限**  
     实验主要集中在Qwen3模型和几个基准数据集上，缺乏对其他模型架构（如Transformer变体）和更广泛任务的验证。建议扩展实验范围，测试GSPO在其他语言模型和任务中的适用性。
   - **裁剪范围的敏感性分析不足**  
     论文未详细探讨裁剪范围对训练效率和稳定性的影响。建议增加对裁剪范围（如左剪和右剪阈值）的敏感性分析，以优化参数选择。
   - **对推理效率的讨论较少**  
     虽然GSPO减少了训练引擎与推理引擎之间的精度差异问题，但未深入分析其对推理效率的影响。建议进一步研究GSPO如何在推理阶段优化计算资源。

3. 基于论文的内容和研究结果，提出的创新点或研究路径：
   - **研究路径1：GSPO-token的优势与局限性分析**  
     探索GSPO-token在多轮对话和复杂任务中的表现，分析其在细粒度奖励调整上的潜力与局限。
   - **研究路径2：跨模型架构的GSPO适用性研究**  
     在不同架构（如GPT、BERT及其变体）上实现GSPO，评估其在不同任务（如问答、生成、推理）中的性能。
   - **研究路径3：基于GSPO的动态裁剪策略**  
     设计一种动态裁剪机制，根据任务复杂度和响应长度实时调整裁剪范围，以进一步提升训练效率和模型性能。

4. 为新的研究路径制定的研究方案：
   - **研究路径1：GSPO-token的优势与局限性分析**
     - **研究方法**  
       在多轮对话任务（如对话生成、情感分析）中，分别应用GSPO和GSPO-token算法，比较两者的训练稳定性、效率和生成质量。
     - **研究步骤**  
       1. 使用标准对话数据集（如MultiWOZ）进行模型训练，记录训练曲线和奖励变化。
       2. 通过人工评价和自动评价（如BLEU、ROUGE）评估生成质量。
       3. 分析GSPO-token在奖励调整上的灵活性及其对模型性能的影响。
     - **期望成果**  
       证明GSPO-token在细粒度奖励调整上的优势，明确其适用场景和局限性，为未来任务设计提供指导。

   - **研究路径2：跨模型架构的GSPO适用性研究**
     - **研究方法**  
       在不同语言模型架构（如GPT、BERT、Transformer-XL）上实现GSPO，测试其在问答、生成、推理任务中的性能。
     - **研究步骤**  
       1. 使用多个基准数据集（如SQuAD、WikiText、GLUE）训练模型。
       2. 比较GSPO与传统RL算法（如PPO、GRPO）的训练效率和稳定性。
       3. 分析GSPO在不同架构上的适配性及其对任务性能的影响。
     - **期望成果**  
       证明GSPO的跨架构适用性，为其推广到更多任务和模型提供理论与实践支持。

   - **研究路径3：基于GSPO的动态裁剪策略**
     - **研究方法**  
       设计一种动态裁剪机制，根据响应长度和任务复杂度实时调整裁剪范围，优化GSPO的训练效率。
     - **研究步骤**  
       1. 基于现有GSPO算法，开发动态裁剪模块，集成到训练流程中。
       2. 在不同任务（如代码生成、数学推理）中测试动态裁剪策略的效果。
       3. 比较动态裁剪与固定裁剪范围的效率和性能差异。
     - **期望成果**  
       动态裁剪机制显著提升GSPO的训练效率，减少裁剪对训练样本的影响，为复杂任务提供更精确的优化方法。

:::

# Others

[arXiv-2025] Group Sequence Policy Optimization

> | Resource | Info |
> | :---        |:--- |
> | Paper       | https://arxiv.org/abs/2506.01347 |
> | Code & Data | https://github.com/TianHongZXY/RLVR-Decomposed |
> | Public      | arXiv |
> | Date        | 2025.07.17 |


# Summary Overview

作者讨论了在强化学习中正样本和负样本对于训练的影响，并且讲训练 decompose 到 Positive and Negative Sample Reinforcement (PSR and NSR) 发现如果是在负样本上进行训练能够提升模型Pass@k性能，尤其是k增大的情况下，能够和PPO，GRPO持平或者是超过。

![image.png](/static/img/b54a3c32a227edf155404bd1a5e4c48f.image.png)

**Contributions:**
1. We decompose RLVR into two components, PSR and NSR, and investigate their distinct impacts on model behavior and generalization measured by a range of $\mathrm{Pass}@k$ metrics.
2. We empirically demonstrate the surprising effectiveness of NSR-only training and use gradient analysis to show that NSR refines the model's prior by suppressing incorrect reasoning steps and preserving plausible alternatives.
3. We propose Weighted-REINFORCE, a simple modification to the RL objective that upweights NSR, yielding consistent gains across complex reasoning benchmarks including MATH, AIM 2025, and AMC 23.

# Main Content

The RLVR objective optimizes the expected reward-weighted likelihood:

$$
\begin{align}
\mathcal{L}_{\text{RLVR}}(\theta) &= -\mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}} \left[ \sum_{\boldsymbol{y}} r(\boldsymbol{x}, \boldsymbol{y}) \cdot \pi_\theta(\boldsymbol{y}|\boldsymbol{x}) \right], \quad r(\boldsymbol{x}, \boldsymbol{y}) \in \{-1, +1\} \\
&= -\mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}} \underbrace{\left[ \sum_{\boldsymbol{y}: r(\boldsymbol{x}, \boldsymbol{y})=1} \pi_\theta(\boldsymbol{y}|\boldsymbol{x}) \right]}_{\mathcal{L}_{\text{PSR}}(\theta)} - \mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}} \underbrace{\left[ \sum_{\boldsymbol{y}: r(\boldsymbol{x}, \boldsymbol{y})=-1} -\pi_\theta(\boldsymbol{y}|\boldsymbol{x}) \right]}_{\mathcal{L}_{\text{NSR}}(\theta)},
\end{align}
$$

where we define two sub-objectives representing each learning paradigm:

$$
\mathcal{L}_{\text{PSR}}(\theta) = -\mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}} \left[ \sum_{\boldsymbol{y}: r(\boldsymbol{x}, \boldsymbol{y})=1} \pi_\theta(\boldsymbol{y}|\boldsymbol{x}) \right]
$$

$$
\mathcal{L}_{\text{NSR}}(\theta) = -\mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}} \left[ \sum_{\boldsymbol{y}: r(\boldsymbol{x}, \boldsymbol{y})=-1} -\pi_\theta(\boldsymbol{y}|\boldsymbol{x}) \right].
$$

**Positive and Negative Sample Reinforcement for LLM Reasoning**

**Compared algorightms.** We compare the performance of PSR and NSR with commonly used RL algorithms, including PPO and GRPO. PSR and NSR are implemented by selectively updating the policy model using only correct or incorrect responses, respectively. As a result, PSR and NSR are trained on fewer samples per batch than standard RL algorithms that use both correct and incorrect responses.

**Training setups.** For the training set, we use MATH, which contains 7,500 problems. We train the models using the verl framework. The prompt batch size is 1,024, with 8 rollouts generated per prompt. The sampling temperature during training is set to 1.0, and the maximum context length is set to 4,096 and 32,768 tokens for $\texttt{Qwen2.5-Math-7B}$ and $\texttt{Qwen3-4B}$, respectively. We update the model with a mini-batch size of 256 and a learning rate of 1e-6.

$\mathrm{Pass}@k$ is defineed as the fraction of problems for which at least one correct response is produced in $k$ independent trials. However, directly computing $\mathrm{Pass}@k$ using only $k$ samples per example often suffers from high variance. We follow the unbiased estimator, which generates $n$ samples per problem ($n\geq k$), counts the number of correct responses $c$, and computes an unbiased estimate of $\mathrm{Pass}@k$ as:

$$
\text{Pass}@k = \mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}} \left[ 1 - \frac{\binom{n-c}{k}}{\binom{n}{k}} \right]
$$

Notably, varying $k$ provides insights into different aspects of model behaviors. $\mathrm{Pass}@1$ approximates greedy decoding accuracy, reflecting how confidently the model can produce a correct response in a single attempt, essentially reflecting *exploitation*. In contrast, $\mathrm{Pass}@k$ with large $k$ evaluates the model's ability to generate diverse correct responses across multiple attempts, capturing its *exploration* ability and reasoning boundary.

![image.png](/static/img/853a4c0661809f528c8507c119a9aa30.image.png)

![image.png](/static/img/1ae101958a50946051ecc103a1338b91.image.png)

**NSR outperforms or stays comparable to the base model at a large $k$ value.** At larger decoding budgets (e.g., $\mathrm{Pass}@256$), recent work shows that RL-trained models often lose their advantage, and in some cases underperform the base model. This trend is generally observed in our experiments with PPO, GRPO, and PSR, especially in Figure 2.

**PSR improves accuracy at the cost of diversity.** This behaviors indicates that PSR overly concentrates probability mass on early correct responses, leading to overconfidence and a collapsed output distribution and ultimately limiting the model's ability to generate deiverse correct responses when allowing for more test-time compute.


![image.png](/static/img/61e48ad720730e52f3ee294fcead12a5.image.png)

**Token-Level Gradient Dynamics of PSR and NSR**

![image.png](/static/img/d1a91d86ac1276862ea706a4dd718e7f.image.png)

**Balancing Positive and Negative Reinforcement**

![image.png](/static/img/33673f8f5c91eebf0882988d9ccac54e.image.png)

# 🤖

:::info{title=" "}
1. 论文的创新之处与独特性：
   - **创新点1：负样本强化(NSR)的提出及其有效性分析**  
     论文通过将强化学习中的奖励机制分解为正样本强化(PSR)和负样本强化(NSR)，揭示了负样本强化在提升语言模型推理能力中的重要作用。尤其是单独使用负样本强化可以显著提高模型在推理任务中的表现，同时保持生成的多样性，甚至在某些情况下超过了主流的强化学习算法（如PPO和GRPO）。这一发现挑战了传统观点，即正样本奖励是提升模型性能的主要驱动力。
     
   - **创新点2：梯度分析揭示负样本强化的机制**  
     通过梯度分析，论文详细阐述了NSR如何通过抑制错误生成并重新分配概率质量来优化模型的输出。这种方法有效地利用了模型的先验知识，同时避免了过拟合和生成多样性下降的问题。

   - **创新点3：提出Weighted-REINFORCE算法**  
     论文提出了一种简单但有效的加权强化学习算法（Weighted-REINFORCE），通过降低正样本奖励的权重来平衡PSR和NSR的优势，最终在多个推理基准上表现出色。这一算法为设计高效的强化学习目标函数提供了新的思路。

   - **关键学习点**  
     - NSR能够在不直接强化正确样本的情况下间接提高模型的推理能力。
     - 正样本奖励可能导致输出分布的过度集中，损害模型的生成多样性。
     - 通过调整奖励权重，可以实现准确性和多样性之间的平衡。

2. 论文中存在的问题及改进建议：
   - **问题1：对更广泛模型的适用性验证不足**  
     论文的实验主要集中在Qwen2.5-Math-7B和Qwen3-4B模型上，这些模型在数学推理任务中表现优异。然而，不同模型的先验知识和推理能力可能差异显著，NSR和Weighted-REINFORCE的适用性尚未在其他模型（如GPT系列或其他开源模型）上得到验证。
     - **改进建议**：扩展实验范围，选择不同架构和规模的模型进行验证，以评估NSR和Weighted-REINFORCE的通用性。

   - **问题2：长期训练稳定性问题**  
     论文提到，长时间使用NSR训练可能导致模型性能下降，表明NSR在稳定性方面存在一定局限性。
     - **改进建议**：研究动态调整NSR和PSR权重的方法，例如在训练初期使用更多的NSR，后期逐步增加PSR的权重，以确保训练的稳定性。

   - **问题3：对复杂奖励信号的适应性研究不足**  
     论文主要研究了二元奖励信号(+1/-1)的情况，而实际任务中可能存在更复杂的奖励信号（例如连续值或多维反馈）。
     - **改进建议**：探索NSR和Weighted-REINFORCE在复杂奖励信号下的表现，并设计新的目标函数以适应这些场景。

3. 基于论文的内容和研究结果，提出的创新点或研究路径：
   - **创新点1：动态权重调整的强化学习方法**  
     设计一种动态权重调整机制，根据模型的训练阶段或任务类型动态调整PSR和NSR的权重，以优化训练效果。

   - **创新点2：跨领域任务上的NSR应用研究**  
     将NSR应用于其他推理任务（如代码生成、科学问题解答或开放领域问答），验证其在不同任务中的适用性和效果。

   - **创新点3：复杂奖励信号下的强化学习目标函数设计**  
     针对复杂奖励信号（例如连续值或多维反馈），设计新的强化学习目标函数，将NSR的概率分布重分配特性与奖励信号的细粒度信息结合。

4. 为新的研究路径制定的研究方案：
   - **研究路径1：动态权重调整的强化学习方法**
     - **研究方法**：设计一种动态权重调整机制，在训练过程中根据模型的准确性和生成多样性动态调整PSR和NSR的权重。可以通过监控模型的预测熵和正确样本比例来决定权重变化。
     - **研究步骤**：
       1. 实现动态权重调整算法，并与固定权重的Weighted-REINFORCE进行对比。
       2. 在数学推理任务上进行实验，评估动态权重调整的效果。
       3. 分析权重变化对模型性能的影响，验证其是否能够改善训练稳定性。
     - **期望成果**：动态权重调整能够在训练过程中平衡准确性和多样性，提升模型性能，同时保持训练稳定性。

   - **研究路径2：跨领域任务上的NSR应用研究**
     - **研究方法**：将NSR应用于不同领域的推理任务（如代码生成、科学问题解答），并与主流强化学习算法（如PPO、GRPO）进行对比。
     - **研究步骤**：
       1. 选择多个跨领域任务数据集（如CodeXGLUE、SciQ等）。
       2. 在不同任务上单独训练NSR，并与PSR、PPO等方法进行性能比较。
       3. 分析任务特性对NSR效果的影响，探索其适用范围。
     - **期望成果**：验证NSR在不同任务中的通用性，并发现其在特定任务上的潜在优势。

   - **研究路径3：复杂奖励信号下的强化学习目标函数设计**
     - **研究方法**：设计新的目标函数，将NSR的概率分布重分配特性与复杂奖励信号结合，例如通过加权平均或正则化方式处理多维奖励信号。
     - **研究步骤**：
       1. 定义复杂奖励信号的形式（如连续值或多维反馈）。
       2. 设计新的目标函数，并实现相应的训练算法。
       3. 在包含复杂奖励信号的任务数据集上进行实验，评估新目标函数的效果。
       4. 与传统强化学习算法进行对比，分析其在复杂奖励场景中的优势。
     - **期望成果**：新的目标函数能够有效处理复杂奖励信号，同时保持NSR的优势，提升模型在实际任务中的表现。

:::

# Others