RVPO: Risk-Sensitive Alignment via Variance Regularization

Apple ML Research·AI·May 8, 2026

Current critic-less RLHF methods aggregate multi-objective rewards via an arithmetic mean, leaving them vulnerable to constraint neglect: high-magnitude success in one objective can numerically offset critical failures in others (e.g., safety or formatting), masking low-performing “bottleneck” rewards vital for reliable multi-objective alignment. We propose Reward-Variance Policy Optimization (RVPO), a risk-sensitive framework that penalizes inter-reward variance during advantage aggregation, sh...

Read full article →

RVPO: Risk-Sensitive Alignment via Variance Regularization

Related Articles