ノーマルビュー

EAGLE-3 を用いた gpt-oss-120b の推論高速化

2026年2月26日 17:02

概要 LLM を高速に推論する手法の一つに投機的デコード (Speculative Decoding) があります。この記事では、OpenAI 社のオープンウェイト LLM gpt-oss-120b を題材として、投機的デコード手法のひとつである EAGLE-3 を使うことによる実行時間の変化を NVIDIA RTX PRO 6000 Blackwell Max-Q Workstation Edition で測定し、どのような場合に EAGLE-3 を使うのが適切かについて検討しました。手法まず、今回の記事で利用する手法について簡単に説明します。投機的デコード http...

💾