モデル評価をClaude Code x Agent Skillsを使って完全自動運転した話
2026年2月21日 15:48
こんにちは!逆瀬川 (@gyakuse) です!
今日は機械学習モデルの評価を自動で行う仕組みをAgent Skillsで作ってみたので共有しようと思います。これをあくまで叩き台として改善していったら、めっちゃ便利になる気がします。
これはどんなものか?
Claude Codeセッションを立ち上げて、/agentic-bench {URLやモデル名など} で実行するだけで、かんたんなレポートが出てきます。忙しいときに便利!
レポートの構造や評価アプローチを詳細にしたりするときは、プロンプトで指示してもいいですし、今回作ったものをforkして改善しても良いと思います。Claude Co...