例を増やしたらLLMの性能が下がる ── few-shot collapseの発見と検出方法
プロンプトに例を増やすと回答の精度が上がる、と言われています。
しかし、実際に計測してみると、例を増やすことで性能が下がるケースが見られました。
そこで、few-shot promptingで渡す例を増やしたときにモデルの性能がどう変化するかを計測するツールを作って色々と試してみました。 AdaptGauge というツール名にしてオープンソースで公開しています。
やったこと
実務に近い以下4種のタスクに対して、shot数(例示数)を0, 1, 2, 4, 8と増やしながらLLMの性能を評価するツールにしています。
分類 — カスタマーサポートの問い合わせを8カテゴリ(請求、技術サ...