ルーブリックに基づく主観的な判定を取り入れたGRPO学習
2026年3月27日 09:07
こんにちは。ELYZA Labチームの佐々木です。
以下の記事ではverlというフレームワークを用い、以下のようなカスタムした報酬関数を用いてGRPO学習を行うための手順を紹介しました。この報酬関数は簡単なルールベースとなっていましたが、これを用いることで確かに「指定した文字数に近い要約を出力する」といった目標に向かってGRPO学習が進むことが確認できました。
codeTARGET_LENGTH = 50
def compute_score(data_source, solution_str, ground_truth, extra_info):
"""
生成された文...