ノーマルビュー

Received — 2026年2月22日 Zennのトレンド

モデル評価をClaude Code x Agent Skillsを使って完全自動運転した話

著者:逆瀬川
2026年2月21日 15:48
こんにちは!逆瀬川 (@gyakuse) です! 今日は機械学習モデルの評価を自動で行う仕組みをAgent Skillsで作ってみたので共有しようと思います。これをあくまで叩き台として改善していったら、めっちゃ便利になる気がします。 これはどんなものか? Claude Codeセッションを立ち上げて、/agentic-bench {URLやモデル名など} で実行するだけで、かんたんなレポートが出てきます。忙しいときに便利! レポートの構造や評価アプローチを詳細にしたりするときは、プロンプトで指示してもいいですし、今回作ったものをforkして改善しても良いと思います。Claude Co...

💾

❌