自作MCP×AI Agentの回答精度をClaude Codeで評価させてみた[LLM-as-a-Judge]

2026年3月26日 13:13

背景最近、業務データとLLMを繋ぐためにMCPサーバーを自作していました。ツールを実装しながら気になったのが、「ユーザーがAI Agentに投げる質問に対して、MCPツール経由で正しい回答を返せるのか」という点です。そこでLLM-as-a-Judge（LLMの出力を別...