Google TurboQuant入門 — KVキャッシュ3ビット圧縮でLLM推論を8倍高速化

2026年3月26日 23:26

はじめに LLMの推論コストを支配する要因のひとつが KVキャッシュ（Key-Value Cache）のメモリ消費である。コンテキスト長が伸びるほどKVキャッシュは線形に膨張し、GPUメモリを圧迫してバッチサイズやスループットを制限する。 2026年3月25日、Goo...