Google TurboQuant入門 — KVキャッシュ3ビット圧縮でLLM推論を8倍高速化 Qiita - 人気の記事 著者: kai_kou 2026年3月26日 23:26 はじめに LLMの推論コストを支配する要因のひとつが KVキャッシュ(Key-Value Cache) のメモリ消費である。コンテキスト長が伸びるほどKVキャッシュは線形に膨張し、GPUメモリを圧迫してバッチサイズやスループットを制限する。 2026年3月25日、Goo...