Gemma 4 小モデルをローカルで動かす:低メモリ・優れた日本語・実用的な翻訳体験
この記事は作者と AI の協働で作成されたものです。作者が中核となる内容と元の表現を提供し、AI は口語的で断片的な内容を、より明確な文章表現へ整理し、構成の調整、表現の推敲、読みやすさの向上を担当しました。また、この日本語版は中国語版をもとに AI で翻訳しているため、表現に若干の差異がある場合があります。
Gemma 4 のリリース後、Ollama と LM Studio を使ってローカル環境にデプロイしてみました。特に E2B と E4B の 2 つの小規模モデルに注目しましたが、結論から言うと、VRAM 消費が極めて少なく、同クラスの小規模モデルの中で日本語能力が突出しており、ローカルでの翻訳体験も非常に良好です。
VRAM 消費とデバイスを問わない動作
E2B と E4B の VRAM 要件は非常に低いです。E2B であればスマートフォン上で直接動かすことも可能で、基本的なタスクであれば十分に実用的なパフォーマンスを発揮します。
これまで、オープンソースの小規模モデルは主に中国のチームからリリースされてきましたが、日本語対応には課題がありました。MiniMax は日本語がほぼ使えず、GLM や Kimi は日本語の出力に時折中国語が混ざることがありました。Gemma 4 にはそのような問題がなく、現在の小規模モデルの中では、日本のユーザーにとって最良の選択肢と言えるでしょう。
小規模モデルの活用シーン
正直なところ、活用シーンはそれほど多くありません。単純すぎるタスクは自分でやったほうが早く、難しすぎるタスクは小規模モデルの手には負えません。私にとっての現在の主な用途は「翻訳」です。
翻訳ワークフロー
翻訳拡張機能
以前は「没入型翻訳(Immersive Translate)」を使っていましたが、現在は「読書カエル(Read Frog)」に切り替えました。前者は商業化が進みすぎて肥大化し、クローズドソースになってしまいましたが、後者はオープンソースの代替案として非常に快適です(多少のバグはありますが)。
翻訳モデル
Google は以前、翻訳特化型の 4B モデル「TranslateGemma」をリリースしていましたが、中国語への翻訳時に簡体字と繁体字の区別が曖昧になるなど、品質はいまひとつでした。Gemma 4 に切り替えてからは、こうした問題はほぼ解消されています。
ただし、これらの翻訳拡張機能には「ページ全体ではなくセグメントごとに翻訳する」という仕様上の制限があり、文脈の欠如による誤訳は避けられません。とはいえ、許容できる範囲内です。
Reasoning(思考プロセス)の切り替え
Gemma 4 は、システムプロンプトを通じて reasoning(思考チェーン)のオン・オフを制御できます。翻訳時には、余計な思考出力を省いて速度を優先するために reasoning をオフにし、日常的なチャットでは詳細な推論を得るためにオンにするのがおすすめです。
パフォーマンスデータ
Unsloth の動的量子化バージョンを使用した実測値です:
- RTX 4080:E4B で約 110 tokens/s
- M5 MacBook Pro:E2B で約 60+ tokens/s
まとめ
Gemma 4 の小規模モデルは、VRAM 効率、日本語の品質、翻訳性能のすべてにおいて優れており、LMArena のランキングでも上位に入っています。ローカルで動作し、日本語に強く、翻訳に最適な小規模モデルを探しているなら、Gemma 4 が現在の筆頭候補です。