Gemma 4の音声認識機能でリアルタイム文字起こしを試してみた
2026年4月16日 14:06
2026年4月、GoogleがGemma 4をApache 2.0ライセンスでリリースしました。E2B、E4B、26B-A4B(MoE)、31B(Dense)の4サイズ展開で、テキスト・画像・動画を扱えるマルチモーダルLLMです。
この中で小型モデルのE2BとE4Bには音声入力機能が搭載されています。音声対応のオープンウェイト小型モデルとしては前身のGemma 3n(2025年5月プレビュー、同年6月正式リリース)が先行していましたが、Gemma 4では音声エンコーダが改善されています。
Gemma 3n E2B
Gemma 4 E2B
音声エンコーダ
USM-style...