ノーマルビュー

ルーブリックに基づく主観的な判定を取り入れたGRPO学習

2026年3月27日 09:07

こんにちは。ELYZA Labチームの佐々木です。以下の記事ではverlというフレームワークを用い、以下のようなカスタムした報酬関数を用いてGRPO学習を行うための手順を紹介しました。この報酬関数は簡単なルールベースとなっていましたが、これを用いることで確かに「指定した文字数に近い要約を出力する」といった目標に向かってGRPO学習が進むことが確認できました。 codeTARGET_LENGTH = 50 def compute_score(data_source, solution_str, ground_truth, extra_info): """ 生成された文...

💾