リーディングビュー

例を増やしたらLLMの性能が下がる ── few-shot collapseの発見と検出方法

プロンプトに例を増やすと回答の精度が上がる、と言われています。 しかし、実際に計測してみると、例を増やすことで性能が下がるケースが見られました。 そこで、few-shot promptingで渡す例を増やしたときにモデルの性能がどう変化するかを計測するツールを作って色々と試してみました。 AdaptGauge というツール名にしてオープンソースで公開しています。 やったこと 実務に近い以下4種のタスクに対して、shot数(例示数)を0, 1, 2, 4, 8と増やしながらLLMの性能を評価するツールにしています。 分類 — カスタマーサポートの問い合わせを8カテゴリ(請求、技術サ...

💾

  •  

AIエージェントへの回答は y だけでよい

はじめに Claude CodeやGemini CLIなどのAIコーディングエージェントをターミナルで使っていると、こんなやり取りが頻繁に発生すると思います。 Claude: この方針で進めてよろしいですか? 自分: はい、お願いします。 律儀に日本語で返していた頃の自分に教えてあげたい。 y の一文字で十分だということを。 2種類の「承認」がある まず前提として、AIコーディングエージェントには2種類の「承認」が存在します。 ツールUI承認 ファイルの書き込みやコマンド実行など、ツール側が用意した許可プロンプトです。Claude Codeでは以下のような選択肢が表示され...

💾

  •  
❌