> | Resource | Info |
> | :---        |:--- |
> | Paper       | http://arxiv.org/abs/2509.07558 |
> | Code & Data | https://github.com/zerolllin/Delta-L-Normalization |
> | Public      | arXiv |
> | Date        | 2025.09.22 |


# Summary Overview

Although previous methods such as GRPO, DAPO, and Dr. GRPO introduce different loss normalization terms to address this issue, they either produce biased estimates or still suffer from high gradient variance. By analyzing the effect of varying lengths on policy loss both theoretically and empirically, we reformulate the problem as finding a minimum-variance unbiased estimator. Our proposed $\Delta L\;Normalization$ not only provides an unbiased estimate of the true policy loss but also minimizes gradient variance in theory.

![image.png](/static/img/48935bed3eb7368aa4d1b9af085d8492.image.png)

![image.png](/static/img/8c8f2739b7bb4b20f3540adfed2216fb.image.png)

# Main Content

GRPO applies a sample-level normalization, dividing each sample-level loss by its response length; while DAPO uses a batch-level approach, normalizing the total loss by the sum of response lengths in the batch. In addition, because such length-dependent factors deviate from standard reinforcement learning theory. Dr. GRPO, in contrast, avoids any length-dependent factor and normalizes the gradient with a fixed constant.

There is a lack of analysis on how they influence the statistical properties of gradient estimation in RLVR, with gradient variance being particularly important because high variance leads to inefficient training and even model collapse.

(1) The aggregation startegies in GRPO and DAPO introduce length-dependent bias in estimating the true policy gradient. As response lengths increase, their parameter updates shrink in gradient norm, slowing convergence.
(2) The aggregation strategies in DAPO and Dr. GRPO lead means greater relative noise for the same gradient norm, resulting in less stable training.

$$
g_{\text{DAPO}} = \frac{1}{\sum_{i=1}^{G} L_i} \sum_{i=1}^{G} g_i ; \quad g_{\text{Dr.GRPO}} = \frac{1}{GM} \sum_{i=1}^{G} g_i
$$

*the variance of the unnormalized gradient $g_i$ grows approximately proportionally to the response length.*

![image.png](/static/img/16092a4e864dc58d5cc48b7b9447b9c9.image.png)

Consider $$\text{Var}(g_i) \approx \text{Var}(\sum_{t=1}^{L_i} A_i \nabla_\theta \log \pi_\theta(o_{i,t} | q, o_{i,<t}))$$. We approximate this as $$\text{Var}(g_i) \approx \sum_{t=1}^{L_i} \text{Var}(A_i \nabla_\theta \log \pi_\theta(o_{i,t} | q, o_{i,<t}))$$, by ignoring covariance between individual token-level gradients. Assuming each token-level term contributes approximately a constant variance $V$, we thus have $$\text{Var}(g_i) \approx V \cdot L_i$$. This approximation indicates that samples with longer responses inherently exhibit higher gradient variance due to increased randomness, and the gradient variance grows proportionally with response length.

GRPO and DAPO introduce length-dependent coefficients determined by the response lengths $L_i$, which results in a $bias$ issue.

![image.png](/static/img/994811166d145ac2aae76096002a3634.image.png)

**Rethink loss normalization in RLVR**

Existing aggregation methods introduce either bias or excessive variance. We therefore ask: $Can a loss aggregation method be both unbiased and minimum-variance?$ The answer is yes. We observe that this problem can be naturally reformulated within the framework of *minimum variance unbiased estimation* in statistics. Specifically, we treat the gradients obtained from responses of different lengths as independent observations of the same underlying variable (the ground-truth policy gradient), each with its own variance. Our objective is then to construct a new unbiased estimator by optimally combining these observations so that the resulting variance is minimized. Formally, we define the problem as follows.

**Problem Definition.** Given a set of independent sample-level gradient estimators $$\{g_i\}_{i=1}^G$$ satisfying $$\mathbb{E}[g_i] = \nabla_\theta J(\theta)$$ and $$\text{Var}(g_i) = V L_i$$, where $$L_i > 0$$ denotes the length associated with sample $$i$$ and $$V$$ is a constant scalar, the objective is to determine coefficients $$\{x_i\}_{i=1}^G$$ in the linear combination $$\hat{g} = \sum_{i=1}^G x_i g_i$$, such that $$\mathbb{E}[\hat{g}] = \nabla_\theta J(\theta) / M$$ for a given $$M > 0$$, while minimizing the variance $$\text{Var}[\hat{g}]$$.

Noting that the unbiasedness constraint $$\mathbb{E}[\hat{g}] = \nabla_\theta J(\theta) / M$$ is equivalent to $$\sum_{i=1}^G x_i = \frac{1}{M}$$ and, by independence, the variance satisfies $$\text{Var}[\hat{g}] = \sum_{i=1}^G x_i^2 \text{Var}(g_i) = V \sum_{i=1}^G L_i x_i^2$$, the problem reduces to a convex quadratic program with a single linear constraint. Solving with the Lagrange multiplier method yields the unique minimizer: $$x_i^* = \frac{1}{M} \frac{L_i^{-1}}{\sum_{j=1}^G L_j^{-1}}, \quad i = 1, \ldots, G$$.

In practice, we find it is beneficial to introduce a hyperparameter $$0 \leq \alpha \leq 1$$ to the normalization factor, which gives the following normalization weights:

$$
x_i = \frac{1}{M} \frac{L_i^{-\alpha}}{\sum_{j=1}^G L_j^{-\alpha}}, \quad i = 1, \ldots, G
$$

The parameter $\alpha$ provides a tradeoff between variance reduction and utilization of long responses. While longer responses tend to introduce higher variance, sometimes they also carry richer learning signals. Choosing $\alpha<1$ allows these signals to contribute more effectively, at the cost of increased gradient variance. We name this method $\Delta L\;Normalization$ , as it is specially designed to match the dynamic length nature in RLVR. It has four key properites:

- **Unbiasedness:** For any $\alpha$, $\Delta L\;Normalization$ is unbiased since $\sum_{i=1}^Gx_i=\frac{1}{M}$, ensuring $\mathbb{E}[\hat{g}]=\nabla_{\theta}J(\theta)/M$. This preserves theoretical consistency with vanilla reinforcement learning.
- **Minimum Variance:** Choosing $\alpha=1$ achieves the minimum possible variance under the unbiasedness constraint. Under the assumptions, this is the unique solution when loss aggregation is a linear, unbiased combination.
- **Controlled Coefficient of Variation (CV):** We can show
$$
\text{CV}(g_{\text{GRPO}})=\text{CV}(\hat{g}_{\alpha=1})\leq\text{CV}(\hat{g}_{0<\alpha<1})\leq\text{CV}(g_{\text{DAPO}})=\text{CV}(g_{\text{Dr.GRPO}})
$$
Thus, $\Delta L\;Normalization$ guarantees lower CV than DAPO and Dr.GRPO, while matching GRPO at $\alpha=1$. When $\alpha<1$, variance increases slightly, but long responses contribute more effectively.
- **Transition to Dr.GRPO:** Setting $\alpha=0$ recovers the aggregation method introduced in Dr.GRPO, making it a special case of $\Delta L\;Nomalization$.

These properties make $\Delta L\;Normalization$ highly valuable for RLVR training. The unbiasedness property ensures consistency with standard reinforcement learning theory, preventing unexpected slowdowns caused by biased gradient estimates. Variance reduction further stabilizes training and accelerates convergence. In practice, we find that, setting $\alpha=1$, which minimizes the variance, is a universal good choice. $\alpha=0.75$ further increase the performance in Math, which might be due to the fact that the long response in Math task should be better utilized.

![image.png](/static/img/aaf31339166271bc16c7616f97f9707b.image.png)

![image.png](/static/img/8b2ae907a8994b849069221dff9de6b2.image.png)

# 🤖

:::info{title=" "}
1. 论文的创新之处与独特性：
   - **创新点**：
     - 提出了一个新的损失聚合方法——∆L Normalization，专门针对强化学习中动态生成长度的挑战。
     - 通过理论和实验分析，∆L Normalization被证明能够提供无偏估计并最小化梯度方差，从而解决现有方法（如GRPO、DAPO和Dr. GRPO）中的偏差或高梯度方差问题。
     - 设计了一个简单但有效的长度归一化公式，并引入了可调参数α以平衡长响应的贡献与梯度方差。
   - **关键学习点**：
     - RLVR的训练中，响应长度的显著变化会导致梯度方差的线性增长，影响模型稳定性。
     - 通过最小方差无偏估计框架，可以优化梯度聚合方法，从而提高训练稳定性和模型性能。
     - ∆L Normalization在多个任务和模型规模上均表现出一致的优越性。

2. 论文中存在的问题及改进建议：
   - **问题**：
     - 参数α的选择对任务性能影响较大，但论文中对如何选择α的指导有限，尤其是针对不同任务的具体调整策略。
     - 实验部分虽然涵盖了多个任务和模型规模，但对更广泛的应用场景（例如非语言任务或多模态任务）缺乏验证。
     - 对于其他可能的辅助优化技术（如动态采样和惩罚机制），∆L Normalization的组合效果未充分探索。
   - **改进建议**：
     - 提供更详细的α选择策略，例如通过任务特性评估或自动调参方法优化α。
     - 扩展实验范围，验证∆L Normalization在非语言任务或多模态任务中的适用性。
     - 探讨与其他优化技术（如动态采样或惩罚机制）的协同作用，并开发更全面的训练框架。

3. 基于论文的内容和研究结果，提出的创新点或研究路径：
   - **创新点1**：结合∆L Normalization与自动调参技术（如贝叶斯优化或强化学习）以动态调整α。
   - **创新点2**：探索∆L Normalization在多模态任务（例如视觉-语言任务）中的应用，并研究其对不同模态数据的梯度方差影响。
   - **创新点3**：开发一个统一的RLVR优化框架，将∆L Normalization与动态采样、惩罚机制以及其他先进技术整合，以应对更复杂的任务。

4. 为新的研究路径制定的研究方案：
   - **研究方案1：动态调参的∆L Normalization**
     - **目标**：通过自动调参技术优化α值，以适应不同任务的动态特性。
     - **研究方法**：
       1. 使用贝叶斯优化或强化学习算法，动态调整训练过程中α的值。
       2. 在多个任务（如数学推理、语言生成）中验证动态调参的效果。
       3. 比较动态调参与固定α值的性能差异。
     - **步骤**：
       1. 定义优化目标（如梯度方差最小化或模型准确率最大化）。
       2. 设计动态调参算法，将任务特性（如响应长度分布）作为输入。
       3. 实验验证，并记录训练动态和最终性能。
     - **期望成果**：验证动态调参的有效性，并提供通用的α优化策略。
   
   - **研究方案2：∆L Normalization在多模态任务中的应用**
     - **目标**：探索∆L Normalization在多模态任务中的适用性，并优化跨模态的数据处理。
     - **研究方法**：
       1. 选择多模态任务（如视觉问答或图像生成）进行实验。
       2. 分析不同模态数据的梯度方差特性，并调整∆L Normalization公式。
       3. 设计实验验证其对模型稳定性和性能的提升。
     - **步骤**：
       1. 收集多模态数据集，并设计适合RLVR的训练任务。
       2. 改进∆L Normalization公式，使其适应多模态数据的特性。
       3. 进行对比实验，分析∆L Normalization的效果。
     - **期望成果**：证明∆L Normalization在多模态任务中的适用性，并提出优化建议。
   
   - **研究方案3：统一的RLVR优化框架**
     - **目标**：开发一个整合∆L Normalization、动态采样和惩罚机制的统一优化框架。
     - **研究方法**：
       1. 将∆L Normalization与动态采样和惩罚机制结合，设计统一的训练流程。
       2. 在不同任务中评估框架的性能，并与单独使用∆L Normalization的方法进行对比。
     - **步骤**：
       1. 研究动态采样和惩罚机制的理论基础，并分析其与∆L Normalization的协同作用。
       2. 设计实验，验证整合框架的性能。
       3. 提出改进建议，并优化框架设计。
     - **期望成果**：开发一个更强大的RLVR优化框架，适用于复杂任务和大规模模型。
:::

# Others

[arXiv-2025] $ΔL$ Normalization: Rethink Loss Aggregation in RLVR

> | Resource | Info |
> | :---        |:--- |
> | Paper       | http://arxiv.org/abs/2502.01456 |
> | Code & Data | https://github.com/PRIME-RL/PRIME |
> | Public      | arXiv |
> | Date        | 2025.09.09 |


# Summary Overview

论文介绍了一种名为PRIME的新方法，用于改进强化学习训练。研究指出，稠密的过程奖励在大语言模型推理时间扩展方面比稀疏的结果奖励更加有效，特别是在需要复杂多步的推理任务中。虽然稠密奖励在强化学习中具有解决训练效率和信用分配等问题具有潜力，却面临着在线训练PRM的挑战：收集高质量过程标签成本极高，模型容易受到 reward hacking。

未来解决这些问题，作者提出了PRIME(通过隐式奖励的过程强化学习)方法，其核心创新是仅使用策略输出和结果标签，通过隐式的过程奖励实现对于PRM的更新。实验结果显示，基于Qwen2.5-Math-7B-Base模型，PRIME在多个关键推理基准测试中平均提升15.1%，最终模型Eurus-2-7B-PRIME仅使用10%的训练数据就在7个推理基准测试中超越了Qwen2.5-Math-7B-Instruct，为大模型的强化学习训练提供了新的方法，解决方案。

![image.png](/static/img/4e10ac4f1626b89a28bc8d712c1e0309.image.png)

# Main Content

Dense process rewards, which provide feedback at each intermediate step rather than only the whole trajectory, have proven effective in inference-time scaling of large language models (LLMs) on challenging reasoning tasks.

*how to acquire and utilize high-quality dense rewards at scale?*

**PRIME**:
1. serves as a general method to fuse token-level dense rewards and sparse outcome rewards by calculating their returns separately before summing together, which is compatible with diverse RL algorithms
2. eliminates the dedicated reward modeling stage, which is required by existing works, by simply initializing from the SFT model or even the base model.

**Key challenges in scalable dense rewards:**
1. Process rewards are hard to define
2. PRM online updates are not scalable
3. Explicit reward modeling brings extra cost

$$
r_{\phi}:=\beta\log\frac{\pi_{\phi}(y_t|\mathbf{y}<t)}{\pi_{\text{ref}}(y_t|\mathbf{y}<t)}
$$

In PRIME, upon rollouts being generated and graded by the (ground truth) outcome verifier, we **update the Implicit PRM online with on-policy rollouts and outcome supervision** and then **calculate token-level dense rewards to estimate advantages**.

![image.png](/static/img/4c666598bcb9d2c7f0c23cf7b1386752.image.png)

![image.png](/static/img/e75e71e1be895d46486f67acb53bb50c.image.png)

More specifically, we use an Implicit PRM $\pi_\phi$ and an outcome verifier or reward model $r_o$. We calculate the return of implicit process rewards and outcome rewards separately if both are available, since directly mixing their values may lead to numerical instability. **For implicit process rewards**, we perform a three-step proces to calculate return: (1) Use the averaged implicit process rewards to calculate the leave-one-out baseline; (2) Normalize the process reward at step $t$ by subtracting the baseline; (3) Calculate the discounted return for each response. **For outcome rewards**, we directly adopt RLOO without any modification. Finally, the advantage is set to the combination of both returns:

$$
A_t^i = \sum_{s=t}^{|\mathbf{y}^i|} \gamma^{s-t} \cdot \underbrace{\left[ r_\phi(y_s^i) - \frac{1}{K-1} \sum_{j \neq i} r_\phi(y^j) \right]}_{\text{RLOO with implicit process rewards}} + \underbrace{r_o(y^i) - \frac{1}{K-1} \sum_{j \neq i} r_o(y^j)}_{\text{RLOO with outcome rewards}}
$$

**Updating policy with PPO clip surrogate loss.** We adopt PPO clip surrogate loss for more stable policy updates:

$$
L_{\text{CLIP}}(\theta) = \mathbb{E}_t \left[ \min \left( \frac{\pi_\theta(y_t|\mathbf{y}_{<t})}{\pi_{\theta_{\text{old}}}(y_t|\mathbf{y}_{<t})} A_t, \text{clip}\left(\frac{\pi_\theta(y_t|\mathbf{y}_{<t})}{\pi_{\theta_{\text{old}}}(y_t|\mathbf{y}_{<t})}, 1-\varepsilon, 1+\varepsilon\right) A_t \right) \right]
$$

**Online Prompt Filtering.** As we sample multiple trajectories for each prompt, we introduce online prompt filtering for each prompt, we introduce online prompt filtering which a certain accuracy range. This (1) preserves only the prompts within a certain median-level difficulty range and (2) balances data distribution for the Implicit PRM online training.

![image.png](/static/img/369f1d7c691591eeb12ba03b77eb2aa1.image.png)

![image.png](/static/img/e8de4450aeae33b9abaa9750caf625f8.image.png)

**Rule-based Outcome Verifier.** Consistent with recent research that adopts exact match with ground truth as unhackable rewards, we define the rule-based ground truth outcome verifiers (OV) for math and coding as follows:

$$
r_o^{\text{math}}(\mathbf{y}) = \begin{cases}
1, & \text{matched} \\
0, & \text{otherwise}
\end{cases}
\quad
r_o^{\text{code}}(\mathbf{y}) = \frac{\sum \#\text{passes}}{\sum \#\text{test cases}}
$$

![image.png](/static/img/75e9134a3d8dd5743ba2dad7b60dc02d.image.png)

![image.png](/static/img/ab3d0968ce70f09d2d2aa44b3493ffd6.image.png)

# 🤖

:::info{title=" "}
# PRIME论文深度分析与创新研究方案

## 1. 论文的创新之处与独特性

### 核心创新点

**隐式过程奖励机制**
- 提出了PRIME（Process Reinforcement through IMplicit rEwards）框架，通过隐式过程奖励模型（Implicit PRM）实现了仅使用结果标签训练密集奖励模型的突破
- 解决了传统过程奖励模型需要昂贵的步骤级标注的核心痛点

**在线奖励模型更新**
- 实现了过程奖励模型的在线更新，有效缓解了奖励黑客攻击（reward hacking）问题
- 与传统需要离线训练专门奖励模型的方法相比，大幅降低了开发成本

**通用性框架设计**
- 提供了一个通用框架，可以与多种RL算法（RLOO、REINFORCE、PPO、GRPO）无缝集成
- 支持从SFT模型甚至基础模型直接初始化，消除了专门的奖励建模阶段

### 关键学习点

1. **密集奖励的重要性**：在复杂推理任务中，token级别的密集奖励相比稀疏的结果奖励能显著提升样本效率（2.5倍）和最终性能（6.9%）

2. **在线更新的必要性**：实验证明在线更新PRM对防止过度优化至关重要，离线PRM会因分布偏移而逐渐失效

3. **初始化策略的影响**：直接使用SFT模型初始化PRM比使用专门训练的PRM效果更好，这揭示了分布对齐的重要性

## 2. 论文中存在的问题及改进建议

### 主要问题

**实验规模限制**
- 主要在7B参数模型上验证，缺乏大规模模型（如70B+）的系统性验证
- RL训练数据相对有限（150K queries × 4 samples），可能限制了方法的全面评估

**理论分析不足**
- 缺乏对隐式过程奖励收敛性的理论保证
- 未深入分析为什么隐式PRM作为奖励模型比作为价值模型效果更好的理论原因

**评估基准局限**
- 主要集中在数学和编程任务，缺乏其他推理密集型任务的验证
- 缺乏与人类评估的对比，仅依赖自动化指标

### 改进建议

1. **扩展实验规模**：在更大参数量模型和更多样化任务上验证方法的普适性
2. **理论分析补强**：提供隐式过程奖励的收敛性分析和最优性理论保证
3. **评估体系完善**：引入人类评估和更多元化的评估基准
4. **计算效率优化**：研究如何进一步降低在线更新的计算开销

## 3. 基于论文的内容和研究结果，提出的创新点或研究路径

### 创新点1：多模态隐式过程奖励学习
将PRIME框架扩展到多模态推理任务，特别是数学几何问题和科学推理中涉及图表、公式的复杂场景。

### 创新点2：层次化隐式奖励结构
设计多层次的隐式奖励机制，在不同抽象层次（token级、步骤级、子问题级）提供奖励信号，实现更精细的信用分配。

### 创新点3：对抗性隐式奖励鲁棒性
研究隐式过程奖励在对抗性环境下的鲁棒性，开发能够抵抗奖励污染和分布攻击的强化学习框架。

### 创新点4：自适应隐式奖励权重调节
开发动态调节过程奖励和结果奖励权重的机制，根据任务复杂度和学习阶段自适应调整奖励结构。

## 4. 为新的研究路径制定的研究方案

### 研究方案1：多模态隐式过程奖励学习

#### 研究目标
开发支持视觉-文本联合推理的多模态隐式过程奖励机制，提升模型在几何证明、科学实验分析等任务上的表现。

#### 研究方法
**阶段一：多模态隐式奖励建模**
- 扩展隐式PRM架构，集成视觉编码器处理图像信息
- 设计跨模态注意力机制，实现视觉和文本信息的有效融合
- 开发多模态奖励计算公式：$r_mm(v_t, y_t) = β log π_φ(y_t|v_{<t}, y_{<t}) / π_ref(y_t|v_{<t}, y_{<t})$

**阶段二：多模态数据集构建**
- 收集包含图表、几何图形的数学问题（目标：50K样本）
- 构建科学实验推理数据集，包含实验图片和推理过程
- 设计多模态标注框架，确保视觉-文本对齐质量

**阶段三：训练与优化**
- 实现多模态PRIME框架，支持视觉输入的在线奖励更新
- 对比单模态和多模态方法在几何推理、科学问题解决上的效果
- 分析不同模态信息对奖励信号的贡献度

#### 预期成果
- 在几何证明任务上相比单模态方法提升15-20%准确率
- 发表顶级会议论文（ICLR/NeurIPS）
- 开源多模态隐式奖励学习框架

### 研究方案2：层次化隐式奖励结构

#### 研究目标
构建多层次隐式奖励机制，在token、步骤、子问题等不同粒度提供奖励信号，实现更精确的信用分配。

#### 研究方法
**阶段一：层次化奖励架构设计**
- 定义三层奖励结构：
  - Token级：`r_token(y_t) = β_1 log π_φ1(y_t|y_{<t}) / π_ref(y_t|y_{<t})`
  - 步骤级：`r_step(s_i) = β_2 log π_φ2(s_i|s_{<i}) / π_ref(s_i|s_{<i})`
  - 子问题级：`r_subproblem(p_j) = β_3 log π_φ3(p_j|p_{<j}) / π_ref(p_j|p_{<j})`
- 设计层次化注意力机制，实现不同层次间的信息传递

**阶段二：自动分解算法**
- 开发基于语义分析的自动步骤分割算法
- 设计子问题识别机制，基于依赖关系图进行问题分解
- 构建层次化标注工具，支持多粒度标注

**阶段三：联合优化策略**
- 设计多层次奖励的联合优化目标函数
- 实现层次化优势估计算法
- 开发自适应权重调节机制，平衡不同层次奖励的影响

#### 预期成果
- 在复杂推理任务上实现20-25%的性能提升
- 显著改善长序列推理的信用分配问题
- 提供层次化奖励学习的理论分析框架

### 研究方案3：对抗性隐式奖励鲁棒性

#### 研究目标
研究隐式过程奖励在对抗性环境下的鲁棒性，开发抵抗奖励污染和分布攻击的强化学习方法。

#### 研究方法
**阶段一：对抗性攻击建模**
- 定义奖励污染攻击：恶意修改训练数据中的奖励标签
- 设计分布偏移攻击：构造与训练分布差异较大的测试样本
- 开发梯度攻击：通过梯度信息构造对抗性样本

**阶段二：鲁棒性防御机制**
- 设计基于不确定性估计的奖励过滤机制
- 开发多模型集成的鲁棒奖励估计方法
- 实现基于对抗训练的隐式PRM训练策略

**阶段三：理论分析与验证**
- 提供鲁棒性的理论保证和收敛性分析
- 在多种攻击场景下验证防御效果
- 分析计算开销与鲁棒性的权衡关系

#### 预期成果
- 在对抗性环境下保持80%以上的原始性能
- 提供隐式奖励鲁棒性的理论框架
- 开发实用的对抗性强化学习工具包

### 研究方案4：自适应隐式奖励权重调节

#### 研究目标
开发动态调节过程奖励和结果奖励权重的自适应机制，根据任务特性和学习进度优化奖励结构。

#### 研究方法
**阶段一：权重调节策略设计**
- 基于任务复杂度的权重初始化：`w_process = f(complexity_score)`
- 基于学习进度的动态调节：`w_t = w_{t-1} + α * gradient_signal`
- 基于性能反馈的自适应更新：`w_new = argmax_w E[performance|w]`

**阶段二：复杂度评估机制**
- 设计多维度任务复杂度评估指标
- 开发基于图神经网络的问题难度预测模型
- 构建任务特征与最优权重的映射关系

**阶段三：在线学习算法**
- 实现基于强化学习的权重调节策略
- 设计多臂老虎机方法进行权重探索
- 开发元学习框架，快速适应新任务的权重配置

#### 预期成果
- 在不同复杂度任务上实现10-15%的平均性能提升
- 显著减少超参数调优的人工成本
- 提供自适应奖励学习的通用框架

---

这些研究方案基于PRIME的核心思想，在不同维度上进行创新扩展，既保持了原方法的优势，又解决了现有方法的局限性，具有重要的理论价值和实用意义。
:::

# Others

[arXiv-2025] Process Reinforcement through Implicit Rewards

> | Resource | Info |
> | :---        |:--- |
> | Paper       | http://arxiv.org/abs/2505.21493 |
> | Code & Data | https://github.com/sail-sg/VeriFree |
> | Public      | arXiv |
> | Date        | 2025.08.14 |


# Summary Overview

现在 RL 主要集中在 math 和 code 任务上，如果要泛化到其他领域往往需要一个 LLM 用来验证模型答案。但是这样可能存在 reward hacking 的问题，并且额外引入了一个 LLM 往往也会带来更多的计算资源开销问题。作者提出了一种不需要 verify model 的方法(VeriFree)在 RL 中进行训练。具体是将 reference answer 拼到模型生成的 reasoning path 后根据其概率计算相关指标作为 reward。

![image.png](/static/img/0565a623bae2011e9cf34ae719908507.image.png)

# Main Content

Reasoning is critical far beyond math and coding; however, the difficulty of answer verification in general reasoning tasks poses a major obstacle to applying this training paradigm to broader domains. To address this limitation, we investigate how to extend R1-Zero-style training to tasks where rule-based answer verification is not possible.

Given a question, we only generate the reasoning trace and concatenate it with the reference answer from the dataset. We then evaluate the likelihood of the reference answer conditioned on the question and the generated reasoning trace. This likelihood serves both as a reward signal for policy gradients on the reasoning trace and as a weighting term for supervised training of the reference answer.

![image.png](/static/img/9df6e03021b7c7750fec2976c20aed6a.image.png)

$$
\nabla_\theta J_{\text{VeriFree}}(\theta) = \frac{1}{G} \sum_{i=1}^{G} [A_i \cdot \nabla_\theta \log \pi_\theta(z_i|x) + R_i \cdot \nabla_\theta \log \pi_\theta(y^*|x, z_i)]
$$

where $z_i \sim \pi_\theta(\cdot|x)$, $R_i = \pi_\theta(y^*|x, z_i)$, and $A_i = \pi_\theta(y^*|x, z_i) - \frac{1}{G-1} \sum_{j \neq i} \pi_\theta(y^*|x, z_j)$.

![image.png](/static/img/7334c84e084e723a02c84351979abb9d.image.png)

这篇文章也考虑到了一个很实际的问题，虽然解码出来的字符串我们能够很明显地知道哪一部分是 reasoning，哪一部分是 answer，但是在 tokenization 时，修改一两个字符串可能会对直接对整个 encode 出来的 token 造成巨大的影响。

![image.png](/static/img/7487cce4f4b7747ef09a7990b4b3fe57.image.png)

# Experiments

Evaluations: MMLU-Pro, SuperGPQA, GPQA, MATH-500, OlympiadBench, Minerva Math, GSM8K, AMC and AIME 24.

![image.png](/static/img/3fd204483195ced81d4741b727803397.image.png)

![image.png](/static/img/7b7543420ad9dbf80dfc87dfd0b255a0.image.png)

Main results:
- VeriFree improves general reasoning capabilities.
- VeriFree leads to better learning efficiency. VeriFree consistently outperforms the baseline, achieving higher accuracy with fewer training steps.
- Model confidence is a good reasoning capability proxy.

![image.png](/static/img/ed7f1497e161585a1af1933b9de286d6.image.png)

Ablation study:

![image.png](/static/img/b48d8ac9cd1f297c4cdf7abf062ed532.image.png)

# 🤖

:::info{title=" "}
1. 论文的创新之处与独特性：
   - **创新点：提出Verifier-Free方法（VeriFree）**  
     论文通过取消对显式验证器的依赖，提出了一种无需规则或模型验证器的强化学习方法，用于训练大型语言模型（LLM）的通用推理能力。这种方法直接优化生成参考答案的概率，避免了传统方法中对验证器的依赖以及由此带来的计算负担和潜在的奖励欺骗问题。
   - **理论贡献：梯度等价性与方差降低分析**  
     论文基于唯一答案假设，推导了Verifier-Free优化目标的梯度等价性，并证明了该方法的梯度估计器相比传统Verifier方法具有更低的方差。这种理论分析为其方法的稳定性和高效性提供了坚实的数学基础。
   - **实践贡献：更广泛的适用领域**  
     VeriFree方法扩展了传统仅适用于数学和代码领域的R1-Zero风格训练范式，使其能够应用于化学、法律、经济学等难以进行规则验证的领域。
   - **性能提升：在多项基准测试中的表现**  
     实验结果表明，VeriFree不仅在多个推理任务中超越了基于验证器的方法，还显著减少了训练过程中的计算资源需求，提升了模型的学习效率。

2. 论文中存在的问题及改进建议：
   - **唯一答案假设的局限性**  
     VeriFree方法假设每个问题只有一个正确答案，这在实际应用中可能不够全面。例如，在开放性问答或多解问题中，参考答案可能具有多种形式。建议引入多答案处理机制，例如通过扩展等价类的定义来支持多种正确答案。
   - **对复杂推理任务的适应性不足**  
     尽管VeriFree在一般推理任务中表现良好，但其在处理多步骤复杂推理问题时的能力仍需进一步验证。改进建议包括结合链式推理（Chain-of-Thought）生成更长的推理路径，并优化推理路径质量。
   - **数据质量的依赖性**  
     论文使用了经过高质量过滤的数据集，但在实际场景中，数据质量可能难以保证。建议进一步研究如何在低质量或噪声数据环境下提升模型性能，例如引入鲁棒性训练机制或数据增强技术。
   - **缺乏对跨领域迁移能力的深入探索**  
     虽然论文展示了VeriFree的领域迁移能力，但实验主要集中在数学和一般推理任务上。建议进一步研究该方法在跨语言、跨模态推理任务中的适应性。

3. 基于论文的内容和研究结果，提出的创新点或研究路径：
   - **研究路径1：多答案支持的Verifier-Free优化**  
     扩展VeriFree方法以支持多种正确答案形式，探索如何利用答案等价类来提升模型的推理能力。
   - **研究路径2：结合链式推理的Verifier-Free方法**  
     将链式推理（CoT）与VeriFree结合，通过优化推理路径的生成概率来提升复杂推理任务的性能。
   - **研究路径3：跨模态Verifier-Free推理能力**  
     探索VeriFree方法在跨模态推理任务（如文本与图像结合推理）中的应用，研究如何在多模态输入下优化模型的推理能力。

4. 为新的研究路径制定的研究方案：
   - **研究路径1：多答案支持的Verifier-Free优化**
     - **研究方法**：
       1. 构建包含多种正确答案形式的训练数据集，定义答案等价类。
       2. 修改VeriFree的优化目标，使其能够同时优化多个参考答案的生成概率。
       3. 设计实验对比多答案支持的VeriFree与原始方法的性能差异。
     - **研究步骤**：
       1. 数据预处理：使用现有数据集扩展答案等价类。
       2. 模型训练：在扩展后的数据集上应用多答案支持的VeriFree方法。
       3. 性能评估：使用多领域基准测试（如MMLU-Pro、SuperGPQA）评估模型性能。
     - **期望成果**：
       提出一种支持多答案的Verifier-Free方法，显著提升模型在开放性问答任务中的表现。

   - **研究路径2：结合链式推理的Verifier-Free方法**
     - **研究方法**：
       1. 使用链式推理生成推理路径，并将其与参考答案拼接。
       2. 优化推理路径生成概率，同时权衡路径质量与答案正确性。
       3. 比较链式推理增强的VeriFree方法与传统方法在复杂推理任务中的表现。
     - **研究步骤**：
       1. 数据扩展：引入需要多步骤推理的任务数据集。
       2. 模型训练：结合链式推理生成与VeriFree优化目标进行联合训练。
       3. 性能评估：使用复杂推理基准测试（如Minerva Math、OlympiadBench）评估模型性能。
     - **期望成果**：
       提出一种结合链式推理的Verifier-Free方法，显著提升模型在复杂推理任务中的能力。

   - **研究路径3：跨模态Verifier-Free推理能力**
     - **研究方法**：
       1. 构建跨模态推理数据集（如文本与图像结合任务）。
       2. 修改VeriFree方法以支持跨模态输入，优化模型在多模态条件下生成正确答案的概率。
       3. 设计实验验证跨模态Verifier-Free方法的有效性。
     - **研究步骤**：
       1. 数据收集：构建文本与图像结合的推理任务数据集。
       2. 模型训练：在跨模态数据集上应用改进的VeriFree方法。
       3. 性能评估：使用跨模态基准测试（如VQA、图像描述任务）评估模型性能。
     - **期望成果**：
       提出一种跨模态Verifier-Free方法，显著提升模型在多模态推理任务中的表现。

:::

# Others

[arXiv-2025] Reinforcing General Reasoning without Verifiers

> | Resource | Info |
> | :---        |:--- |
> | Paper       | http://arxiv.org/abs/2505.18116 |
> | Code & Data | https://github.com/NVlabs/NFT |
> | Public      | arXiv |
> | Date        | 2025.08.13 |


# Summary Overview

NFT 提出了一种监督学习的方法，与普通的 SFT 不同的是，NFT能够和 RL 一样从错误中学习。传统的监督学习中，RFT 只使用了正确的答案进行训练，而 NFT 则是能够将模型生成的错误答案利用起来。同时作者也证明了，在 on-policy 训练中，NFT 和 GRPO 这样的 RL 算法是等价的。

![image.png](/static/img/b75ea5ac8344926f1ea5c6919780faf6.image.png)

# Main Content

Rejection sampling Fine-Tuning (RFT): At each iteration, an LLM generates answers to questions. A verifier helps reject all negative answers. The remaining positive ones are compiled into a dataset to fine-tune the LLM itself in a supervised manner.

![image.png](/static/img/00cfe2f23c370a897427d219ff2ab293.image.png)

![image.png](/static/img/90121b7ee6fcac3af3266954a73f6fe8.image.png)

NFT (Negative-aware Fine-Tuning) 算法的核心思想是，通过构建一个隐式负策略来使得 LLM 自己能够从错误的答案中进行训练，从而弥补传统监督学习在利用负反馈方面的不足。

首先，给定一组数学问题$q$和一个预训练的LLM $\pi(a|q)$，以及一个用于验证答案正确性的炎症期，在每次迭代中，模型会生成一组答案$a^{1:K}$，并根据 verifier 得到它们的正确性标签 $r^{1:K}\in\{0,1\}$。这些数据被分为两部分：正确的答案集$\mathcal{D}^+$和$\mathcal{D}^-$。接着，作者定义了两种策略:
- Target Positive Policy $\pi^+(a|q)$: 这是模型希望学习的策略，即在给定问题$q$的情况下，生成正确答案$a$的条件概率。根据贝叶斯定理，这个策略可以表示为:
$$
\pi^+(a|q):=\pi(a|q,r=1)=\frac{\pi(a|q)p(r=1|q,a)}{\sum_A\pi(a|q)p(r=1|q,a)}
$$
- Implicit Negative Policy $\pi^-(a|q)$: 这是生成错误答案的策略，同样可以由贝叶斯定理表示:
$$
\pi^-(a|q):=\pi(a|q,r=0)=\frac{\pi(a|q)[1-p(r=1|q,a)]}{\sum_A\pi(a|q)[1-p(r=1|q,a)]}
$$
观察到: $r_q\pi^+(a|q)+[1-r_q]\pi^-(a|q)=\pi(a|q)$，其中$r_q:=p(r=1|q)=\sum_A\pi(a|q)p(r=1|q,a)$是 LLM 在回答问题$q$时生成正确答案的正确率，在实际中$r_q$可以通过对同一个问题生成$K$个答案，并计算其中正确率的平均值来估计。

将$\pi^-(a|q)$用目标正策略$\pi^+(a|q)$和原始策略$\pi(a|q)$来重新参数化。这个被重新参数化的负策略就是所谓的隐式负策略$\pi^-_\theta$。

$$
\pi_\theta^-(a|q):=\frac{\pi(a|q)-r_q\pi_\theta^+(a|q)}{1-r_q}
$$

这样一来，在负样本上进行的任何训练，都会直接优化底层的正向策略$\pi_\theta^+$。

最后的 Loss 函数结合正向数据和负向数据的优化。这个损失函数是通过最大似然目标来推导的。
- 对正向数据的损失：其目标是最大化正确的答案似然 $\log(\pi_\theta^+(a|q))$
- 对负向数据的损失：其目标是最大化隐式策略的似然 $\log(\pi_\theta^-(a|q))$

将这两部分结合起来，得到 Loss

$$
\mathcal{L}_{(a,q,r)\sim\mathcal{D}}^{\text{NFT}}(\theta) = r\left[-\log\frac{\pi_\theta^+(a|q)}{\pi(a|q)}\right] + (1-r)\left[-\log\frac{1-r_q\frac{\pi_\theta^+(a|q)}{\pi(a|q)}}{1-r_q}\right]
$$

加上一些实践上的改进，NFT 得到了最终的 Loss 函数
(\+ Token-level loss \+ Clipping negative likelihood ratio \+ Prompt weighting)。



$$
\mathcal{L}_{\mathcal{D}}^{\text{NFT}}(\theta) = -\sum_{q,a,r} \omega(q) \sum_t \left[ r \log R_\theta^t(q,a) + (1-r) \log \text{max\_v}\left(\frac{1-\hat{r}_q R_\theta^t(q,a)}{1-\hat{r}_q}, \epsilon\right) \right]
$$

where $R_\theta^t(q,a) = \frac{\pi_\theta^+(a_t|q,a_{<t})}{\pi(a_t|q,a_{<t})}$, and $\hat{r}_q = \frac{1}{K}\sum_{a|q} r(q,a)$

![image.png](/static/img/28dc78dc907029a20e47eb8fbe60e34e.image.png)

# Experiments

![image.png](/static/img/295ed88a5ec58e1891c9a9c0fc6af719.image.png)

![image.png](/static/img/85e619b181b5bd0d3dc8e6511ff16ddf.image.png)

**Benefits of Negative Data**

![image.png](/static/img/53a25e665c833bf3e414131a06538563.image.png)

# 🤖

:::info{title=" "}
1. 论文的创新之处与独特性：
   - **提出NFT算法，桥接SL与RL的理论与实践**：论文提出了“Negative-aware Fine-Tuning (NFT)”算法，这是一种基于监督学习（SL）的新方法，能够通过负反馈数据实现自我改进。相比传统SL仅使用正样本，NFT引入了隐式负策略，通过最大似然优化同时学习正负样本。这种方法不仅显著提升了LLMs的数学推理能力，还在严格的on-policy条件下与领先的RL算法（如GRPO）表现出理论等价性。
   - **挑战传统观点，拓展SL的应用边界**：传统观点认为SL无法通过负反馈实现自我改进，而论文通过理论分析和实验验证表明，SL在使用负反馈数据时可以达到甚至超越RL的效果。这一发现为SL在二元反馈系统中的应用开辟了新的可能性。
   - **极简设计与高效实现**：NFT算法仅需维护一个模型，避免了复杂的多模型架构，减少了内存开销，同时通过负样本的隐式建模实现了直接优化。这种设计在训练效率和资源节约方面具有显著优势。
   - **实验验证与广泛比较**：论文在7B和32B规模的模型上进行了广泛实验，结果显示NFT在数学推理任务中表现优异，甚至与领先的RL算法（如DAPO）持平或超越。这证明了NFT的稳定性和有效性。

2. 论文中存在的问题及改进建议：
   - **负反馈数据的利用效率问题**：虽然NFT引入了负反馈数据，但论文中未深入探讨如何进一步挖掘负样本的潜在价值。例如，负样本可能包含某些模式或错误类型，这些信息可以用于更细粒度的优化策略设计。建议引入负样本分类机制，根据错误类型调整模型的学习权重。
   - **缺乏对模型泛化能力的深入分析**：论文主要关注数学推理任务，但未明确讨论NFT在其他领域（如语言生成、逻辑推理等）的泛化能力。建议扩展实验范围，验证NFT在更多任务中的适用性，并分析其潜在局限性。
   - **算法对超参数敏感性问题**：论文中提到负比率剪裁参数（\[\epsilon\]）对模型性能影响较大，但未提供详细的超参数调优方法。建议进行系统的超参数敏感性分析，并提出自动调优策略以提升算法的鲁棒性。
   - **对RL与SL理论等价性的进一步扩展**：虽然论文证明了NFT与GRPO在on-policy条件下的等价性，但未探讨off-policy条件下的差异及潜在改进方向。建议研究如何在off-policy条件下缩小SL与RL的性能差距。

3. 基于论文的内容和研究结果，提出的创新点或研究路径：
   - **研究路径1：基于负样本分类的动态优化策略**  
     通过对负样本进行错误类型分类（如计算错误、逻辑错误、表达错误等），设计动态优化策略，使模型针对不同类型的错误进行有针对性的学习。
   - **研究路径2：跨任务泛化能力的验证与改进**  
     将NFT应用于其他领域（如语言生成、代码推理等），验证其泛化能力，并探索如何通过任务迁移学习进一步提升模型性能。
   - **研究路径3：结合RL与SL的混合优化框架**  
     在NFT的基础上引入RL奖励信号，设计混合优化框架，综合利用SL的效率和RL的探索能力，进一步提升模型的自我改进能力。

4. 为新的研究路径制定的研究方案：
   - **研究路径1：基于负样本分类的动态优化策略**
     - **研究方法**：通过分析负样本的错误类型，构建分类器对负样本进行分类；根据分类结果设计动态权重调整机制，使模型在训练过程中对不同类型的错误给予不同的关注。
     - **研究步骤**：
       1. 收集负样本数据并进行错误类型标注。
       2. 训练分类器对负样本进行自动分类。
       3. 根据分类结果调整NFT的优化目标，设计动态权重调整机制。
       4. 在数学推理任务上验证动态优化策略的效果。
     - **期望成果**：显著提升模型对负样本的学习效率，降低错误率，同时提高模型的数学推理能力和稳定性。
   - **研究路径2：跨任务泛化能力的验证与改进**
     - **研究方法**：将NFT应用于不同任务（如语言生成、代码推理等），并引入迁移学习方法以提升跨任务性能。
     - **研究步骤**：
       1. 选择多个任务，构建对应的训练数据集。
       2. 将NFT应用于每个任务，记录模型性能。
       3. 引入迁移学习方法（如多任务学习或知识蒸馏），探索跨任务性能提升的可能性。
       4. 分析NFT在不同任务中的局限性，并提出改进建议。
     - **期望成果**：验证NFT的跨任务泛化能力，提出适用于多任务的优化方法，为SL在更多领域的应用提供理论与实践支持。
   - **研究路径3：结合RL与SL的混合优化框架**
     - **研究方法**：设计混合优化框架，将RL奖励信号与NFT的负样本优化目标结合，综合利用两者的优势。
     - **研究步骤**：
       1. 在NFT的基础上引入RL奖励信号，设计混合优化目标。
       2. 通过实验验证混合优化框架的性能，并与单一算法（如NFT或GRPO）进行对比。
       3. 分析混合优化框架的适用场景及潜在问题。
       4. 优化框架设计，提升其鲁棒性和适用性。
     - **期望成果**：提出一种性能更优的混合优化框架，在数学推理任务及其他领域实现显著性能提升，同时拓展SL与RL结合的理论边界。

:::

# Others

[arXiv-2025] Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

> | Resource | Info |
> | :---        |:--- |
> | Paper       | http://arxiv.org/abs/2506.18254 |
> | Code & Data | https://github.com/openbmb/RLPR |
> | Public      | arXiv |
> | Date        | 2025.08.11 |


# Summary Overview

现有的 verifier 基本上都是建立在 math 或者 code 这种很容易进行验证的任务上。为了进一步推动强化学习在更多领域上的应用，很明显需要 General Verifier 来进行协助。为了应对挑战，作者的关键观察是LLM产生正确的自由形式答案的内在概率直接表明其对推理奖励的评估。作者提出了使用模型自身在 ground truth 上的概率来表示其推理路径是否正确，从而实现一种能在广泛领域应用的 verifer，并且这样这样不会引入额外的模型，并且获得了不错的效果。 

![image.png](/static/img/4fcac70ea8ca6c05eb9b069df02da794.image.png)

# Related Work

**Self-Reward Optimization** Unsupervised reinforcement learning on language models using the policy model its self as a reward has recently emerged as an embarrassingly effective approach. The common idea behind the practice of self-reward is raising the probabilities of consistent answers, intuitively from the observation that concentrating on the majority brings fee improvements. Recent literature shows that entropy minimization, which naively degrades generation diversity, is a sugar for reasoning tasks, though restricted to certain model families. However, such practice might be prob-lematic for restricting exploration. In contrast to self-rewarding methods that remove diversity to exploit existing reasoning ability, our apporach builds the reward based on the reference answer, yielding reasoning performance with healthy token entropy from the clip-high trick.

# Main Content

> *The basic insight is that LLM's intrinsic probability of generating a correct answer directly indicates its own evaluation of the reasoning reward.*

RLPR introduces two key innovations:

1. At the reward modeling level, we propose a simple and scalable alternative to the explicit reward from external verifiers with an instrinsic Probability-based Reward (PR), calculated by the average decoding probabilities of the reference answer tokens.
2. At the training level, we propose an adaptive curriculum learning mechanism to stabilize training.

![image.png](/static/img/6a1d6ed152899d8c2e9bb491fd3b7601.image.png)

**Contributions:**
1. We present **RLPR**, a simple and scalable framework that extends RLVR to general domains without using external verifiers.
2. We propose a novel probability reward that eliminates the need for external verifiers and achieves better reward quality than naive likelihood as a reward.
3. We introduce a novel standard deviation filtering strategy that effectively stabilizes training by removing samples with low reward standard deviation.
4. We conduct comprehensive experiments to demonstrate that effectiveness of the proposed framework on various base models from Qwen, Llama and Gemma.

**Probability Reward**

## 2.2 概率奖励

受到大型语言模型（LLM）生成正确答案的内在概率直接表明其对推理质量的内部评估这一观察的启发，我们使用参考答案的逐词元解码概率作为奖励信号。与依赖特定领域验证器的现有方法（Cui et al., 2025a; Luo et al., 2025a）不同，这些方法需要大量的人工启发式方法和工程努力来构建验证器，我们的奖励计算过程仅涉及模型本身。

我们用 $o = (o_0, \cdots, o_N)$ 表示对问题 $Q$ 的每个响应，其中 $o_i$ 是响应中的单个词元。为了获得概率，我们首先从完整响应序列中提取生成的答案 $y$，并将剩余内容表示为推理 $z$。然后，我们通过用训练数据中的参考答案替换生成的答案来构建修改后的序列 $o' = (o'_0, \cdots, o'_{N'})$。将此序列输入策略模型以获得概率 $(p_0, \cdots, p_{N'})$。概率奖励计算如下：

$$
r = f_{\text{seq}}(\{p_i | o'_i \in y^*\})
$$

其中 $f_{\text{seq}}$ 将逐词元概率聚合为响应 $o$ 的单一奖励标量。虽然使用 $f_{\text{seq}} = \sqrt[n]{\prod}$（概率的归一化乘积，即序列似然）反映了参考答案的整体似然，但我们观察到它引入了高方差，并且对微小变化（如同义词）过于敏感。例如，词元概率序列 $(0.01, 0.7, 0.9)$ 和 $(0.05, 0.7, 0.9)$ 在乘积下产生了截然不同的分数，尽管只有第一个词元存在微小差异。为了解决这个问题，我们改为采用 $f_{\text{seq}} = \frac{1}{|y^*|} \sum$（平均概率），这产生了更稳健的奖励信号，并在我们的分析中展现出与答案质量更好的相关性（见图4）。我们观察到概率奖励值与生成答案 $y$ 的质量高度一致，当预测答案在语义上与参考答案相似时获得高奖励，否则分配低奖励。请注意，长度归一化步骤对于GRPO（Shao et al., 2024）来说是多余的，但对于不包含组归一化的算法（如REINFORCE++（Hu et al., 2025a））可能至关重要。

**Reward Debiasing**

尽管基于概率的奖励与响应质量强相关，但它们也受到各种潜在因素的影响。我们将概率奖励 $r$ 的贡献者记为 $U_r$，它本质上可以分解为两个潜在因素：

$$
U_r = U_z + U_{\text{others}}
$$

其中 $U_z$ 表示推理内容的影响，而 $U_{\text{others}}$ 捕获其他相关因素的特征，包括问题和参考答案。直接使用 $r$ 作为奖励会引入与未观察因素 $U_{\text{others}}$ 相关的偏差，可能降低奖励质量。为了缓解这个问题，我们引入基础分数 $r'$，通过使用公式2计算直接解码参考答案 $y^*$ 的概率分数，而不使用中间推理 $z$。这给出 $U_z = U_r - U_{r'}$，去偏的概率奖励计算如下：

$$
\hat{r} = \text{clip}(0, 1, r - r')
$$

其中裁剪操作确保奖励保持在有利的数值范围 $[0, 1]$ 内。这个公式有效地消除了来自 $U_Q$ 和 $U_{y^*}$ 的潜在偏差，并将PR建模为给定生成推理 $z$ 时概率的改进。我们观察到这个去偏步骤稳定了训练并增强了奖励的鲁棒性。我们目标函数的最终梯度估计器是：

$$
\begin{aligned}
\nabla \mathcal{J}_{\text{RLPR}}(\theta) &= \nabla\mathbb{E}_{o \sim \pi_\theta(\cdot|x)}[\hat{r}]\\
&= \sum_o \hat{r} \cdot \pi_\theta(o|x) \nabla \log \pi_\theta(o|x)\\
&= \mathbb{E}_{o \sim \pi_\theta(\cdot|x)}[\hat{r} \nabla \log \pi_\theta(o|x)]
\end{aligned}
$$

其中我们优化整个响应 $o = z||y$ 上的期望奖励。

# Experiments

**Benchmarks**
- Math reasoning: MATH-500, Minerva, AIME 24
- General domains: MMLU-Pro, GPQA, TheoremQA, WebInstruct

![image.png](/static/img/be9c8066b280a129ec7fd66661149f18.image.png)

**PR discriminates correct responses better than the rule-based verifier on general data.** 为了评估不同奖励能够区分正确和错误回复的能力（即，将更高的奖励分配给纠正回复），作者根据各自的奖励对每个提示的回复与人工标注的 ground truth 进行 ROC-AUC 计算。


![image.png](/static/img/80f651926483e2b7a4e98fd1fb0d1c43.image.png)

**Ablation Study**

![image.png](/static/img/3d2f03d56c1f773219794830449576e2.image.png)

![image.png](/static/img/f472f579c1533d9705a4d17397f137a9.image.png)

# 🤖

:::info{title=" "}
1. 论文的创新之处与独特性：
   - **创新点1：无验证器的奖励框架**  
     论文提出了RLPR（Reinforcement Learning with Reference Probability Reward）框架，通过使用LLM的内在概率（Intrinsic Probability）作为奖励信号，取代传统的基于领域验证器的奖励机制。这种方法消除了对外部验证器的依赖，显著降低了复杂性并提高了可扩展性。
   - **创新点2：概率奖励建模与去偏处理**  
     提出了基于每个token概率的奖励信号，并通过去偏机制（Reward Debiasing）消除因问题或参考答案带来的偏差，从而增强了奖励的鲁棒性和稳定性。
   - **创新点3：标准差过滤机制**  
     论文设计了一种基于标准差的过滤机制，通过动态调整过滤阈值，移除过于简单或复杂的样本，从而稳定训练过程并提高最终性能。
   - **关键贡献**  
     RLPR在多个通用领域和数学推理基准上表现出色，超越了现有的强验证器模型（如General Reasoner）和无验证器方法（如VeriFree），展现了其在大规模语言模型推理能力提升方面的潜力。

2. 论文中存在的问题及改进建议：
   - **问题1：对概率奖励的深入分析不足**  
     虽然论文证明了概率奖励的有效性，但对其在不同模型规模、不同任务复杂度下的表现变化缺乏详细讨论。建议在未来研究中进一步分析概率奖励在不同场景下的适用性及其局限性。
   - **问题2：标准差过滤机制的依赖性**  
     标准差过滤机制虽然提高了训练稳定性，但可能限制了模型对复杂问题的学习能力。建议结合动态调整机制，引入更多多样化的过滤标准（如基于问题类型或领域的权重）。
   - **问题3：跨领域泛化能力的验证不足**  
     尽管RLPR在数学和通用领域表现优秀，但其在其他复杂领域（如多模态理解或跨语言任务）中的表现尚未充分验证。建议扩展实验范围，测试RLPR的跨领域泛化能力。

3. 基于论文的内容和研究结果，提出的创新点或研究路径：
   - **创新点1：多模态推理扩展**  
     探索RLPR框架在多模态任务中的应用，例如图像-文本任务或视频分析任务，通过结合多模态模型的内在概率奖励，实现跨模态推理能力的提升。
   - **创新点2：动态奖励信号优化**  
     设计一种基于任务动态调整的奖励机制，根据任务复杂度或模型推理的实时反馈调整奖励信号，从而进一步提高模型的适应性。
   - **创新点3：自监督推理优化**  
     结合RLPR的概率奖励信号，开发一种自监督学习框架，通过模型自身生成的答案与参考答案的对比，进一步优化推理能力。

4. 为新的研究路径制定的研究方案：
   - **研究路径1：多模态推理扩展**
     - **研究方法：**
       1. 构建一个多模态数据集，包括图像-文本匹配任务、视频问答任务等。
       2. 使用预训练的多模态模型（如BLIP或Flamingo）作为基础模型。
       3. 在RLPR框架下，使用模型生成的文本概率作为奖励信号，并结合视觉特征的匹配概率，设计联合奖励机制。
     - **研究步骤：**
       1. 数据预处理与任务设计，确保多模态任务的多样性与挑战性。
       2. 训练模型并监控奖励信号的稳定性与任务性能。
       3. 对比RLPR与现有多模态推理方法的表现，分析其优势与不足。
     - **期望成果：**
       提出一种适用于多模态任务的RLPR扩展框架，显著提升跨模态推理能力，并验证其在多模态基准上的有效性。

   - **研究路径2：动态奖励信号优化**
     - **研究方法：**
       1. 设计一种动态调整机制，根据任务复杂度或模型当前推理质量实时调整奖励信号。
       2. 在多个任务基准上测试动态奖励机制的效果，包括简单任务与复杂任务。
     - **研究步骤：**
       1. 定义任务复杂度指标（如问题长度、逻辑深度等）。
       2. 设计动态调整算法，并与RLPR的固定奖励机制进行对比实验。
       3. 分析动态调整机制对训练稳定性与模型性能的影响。
     - **期望成果：**
       提出一种动态奖励优化算法，显著提高模型在不同任务复杂度下的适应性与推理能力。

   - **研究路径3：自监督推理优化**
     - **研究方法：**
       1. 使用RLPR框架结合自监督学习方法，设计一种基于模型自身生成答案与参考答案的对比优化机制。
       2. 在多个推理任务上测试自监督优化框架的效果。
     - **研究步骤：**
       1. 构建一个高质量的自监督训练数据集，包括复杂推理任务。
       2. 设计对比优化算法，通过奖励信号强化模型的推理能力。
       3. 分析自监督优化框架对模型性能与训练效率的影响。
     - **期望成果：**
       开发一种基于RLPR的自监督推理优化框架，显著提升模型的推理能力，并减少对人工标注数据的依赖。
:::

# Others