リーディングビュー

Gemma 4の音声認識機能でリアルタイム文字起こしを試してみた

2026年4月、GoogleがGemma 4をApache 2.0ライセンスでリリースしました。E2B、E4B、26B-A4B(MoE)、31B(Dense)の4サイズ展開で、テキスト・画像・動画を扱えるマルチモーダルLLMです。 この中で小型モデルのE2BとE4Bには音声入力機能が搭載されています。音声対応のオープンウェイト小型モデルとしては前身のGemma 3n(2025年5月プレビュー、同年6月正式リリース)が先行していましたが、Gemma 4では音声エンコーダが改善されています。 Gemma 3n E2B Gemma 4 E2B 音声エンコーダ USM-style...

💾

  •  
❌