GRASP LoRA: GRPO Guided Adapter Sparsity Policy for Cross Lingual Transfer
https://arxiv.org/abs/2601.06702
GRASP LoRA: GRPO Guided Adapter Sparsity Policy for Cross Lingual Transfer
https://arxiv.org/abs/2601.06702
GanitLLM: Difficulty-Aware Bengali Mathematical Reasoning through Curriculum-GRPO
https://arxiv.org/abs/2601.06767
GanitLLM: Difficulty-Aware Bengali Mathematical Reasoning through Curriculum-GRPO
https://arxiv.org/abs/2601.06767
Interest | Match | Feed
言語モデルがますます高度になるにつれ、ユーザーは正確な応答だけでなく、様々なシナリオにおける多様な人間の嗜好に沿った行動も提供することを期待している。これを実現するため、強化学習(RL)パイプラインでは複数の報酬を取り入れ始めた。各報酬は異なる選好を捉え、モデルをこれらの望ましい行動へと...
言語モデルがますます高度になるにつれ、ユーザーは正確な応答だけでなく、様々なシナリオにおける多様な人間の嗜好に沿った行動も提供することを期待している。これを実現するため、強化学習(RL)パイプラインでは複数の報酬を取り入れ始めた。各報酬は異なる選好を捉え、モデルをこれらの望ましい行動へと...
2601.05242, cs․CL | cs․AI | cs․LG, 08 Jan 2026
🆕GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization
Shih-Yang Liu, Xin Dong, Ximing Lu, Shizhe Diao, Peter Belcak, Mingjie Liu, Min-Hung Chen, Hongxu Yin, Yu-Ch...
2601.05242, cs․CL | cs․AI | cs․LG, 08 Jan 2026
🆕GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization
Shih-Yang Liu, Xin Dong, Ximing Lu, Shizhe Diao, Peter Belcak, Mingjie Liu, Min-Hung Chen, Hongxu Yin, Yu-Ch...
NVIDIA introduces Group reward-Decoupled Normalization Policy Optimization (GDPO), a new multi-reward RL algorithm that consistently improves per-reward convergence over GRPO across a wide range of tasks.
NVIDIA introduces Group reward-Decoupled Normalization Policy Optimization (GDPO), a new multi-reward RL algorithm that consistently improves per-reward convergence over GRPO across a wide range of tasks.
What if you do that with temperature=0? Yep, their result files are just sets of 8 identical* responses.
They tried other temperatures, but oddly chose to report that.
What if you do that with temperature=0? Yep, their result files are just sets of 8 identical* responses.
They tried other temperatures, but oddly chose to report that.
But I'll take a more technical detour first.
Let's get to what their training was.
"We fine-tune reasoning models with GRPO"
First again: not reasoning models.
But I'll take a more technical detour first.
Let's get to what their training was.
"We fine-tune reasoning models with GRPO"
First again: not reasoning models.
視覚生成は主に三つのパラダイムによって支配されている:自己回帰(AR)、拡散、および視覚自己回帰(VAR)モデルである。ARや拡散モデルとは異なり、VARは生成過程において異質な入力構造を扱うため、深刻な非同期的な政策の矛盾が生じる。この問題は強化学習(RL)シナリオにおいて特に深刻となり、不安定...
視覚生成は主に三つのパラダイムによって支配されている:自己回帰(AR)、拡散、および視覚自己回帰(VAR)モデルである。ARや拡散モデルとは異なり、VARは生成過程において異質な入力構造を扱うため、深刻な非同期的な政策の矛盾が生じる。この問題は強化学習(RL)シナリオにおいて特に深刻となり、不安定...
2601.02256, cs․CV | cs․LG, 05 Jan 2026
🆕VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive Generation
Shikun Sun, Liao Qu, Huichao Zhang, Yiheng Liu, Yangyang Song, Xian Li, Xu Wang, Yi Jiang, Daniel K. Du, Xinglong Wu, Jia...
2601.02256, cs․CV | cs․LG, 05 Jan 2026
🆕VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive Generation
Shikun Sun, Liao Qu, Huichao Zhang, Yiheng Liu, Yangyang Song, Xian Li, Xu Wang, Yi Jiang, Daniel K. Du, Xinglong Wu, Jia...
ArrowIdeative-13b-NeoBase-ZERO-llm-jpは、GRPOのみを用いた強化学習で作られた純国産LLMです。
ベースモデルと指示追従モデルの中間的な性質を持ち、プロンプトエンジニアリングが有効。
本モデルはllm-jp-3.1-13bをベースにしたモデルです。
ArrowIdeative-13b-NeoBase-ZERO-llm-jpは、GRPOのみを用いた強化学習で作られた純国産LLMです。
ベースモデルと指示追従モデルの中間的な性質を持ち、プロンプトエンジニアリングが有効。
本モデルはllm-jp-3.1-13bをベースにしたモデルです。
Yet all your experiments stopped at 500 or 1000 steps...?
Yet all your experiments stopped at 500 or 1000 steps...?