モデル評価をClaude Code x Agent Skillsを使って完全自動運転した話

2026年2月21日 15:48

こんにちは！逆瀬川 (@gyakuse) です！今日は機械学習モデルの評価を自動で行う仕組みをAgent Skillsで作ってみたので共有しようと思います。これをあくまで叩き台として改善していったら、めっちゃ便利になる気がします。これはどんなものか？ Claude Codeセッションを立ち上げて、/agentic-bench {URLやモデル名など} で実行するだけで、かんたんなレポートが出てきます。忙しいときに便利！レポートの構造や評価アプローチを詳細にしたりするときは、プロンプトで指示してもいいですし、今回作ったものをforkして改善しても良いと思います。Claude Co...