「 LLMチューニングのための強化学習:GRPO(Group Relative Policy Optimization) - どこから見てもメンダコ」
DeepSeek-R1にも採用されたLLMチューニングのための強化学習手法 GRPO(Group Relative Policy Optimization)について考えたことをまとめます。 GRPO: DeepSeek-R1の強化学習ファインチューニング手法 前提手法:TRPO/PPO TRPO: Trust Region Policy Optimization PPO: Proximal Policy Optimization GRPOとPPOの差分:①アドバンテージ算出と②参照モデルからのKL距離制約 変更点①: アドバンテージAの算出方法 REINFORCE: 価値関数近似なし方策勾配法…
コンテンツ文字数:0 文字
見出し数(H2/H3タグ):0 個
閲覧数:0 件
2025-01-27 08:03:48