「Ollama+没入型翻訳」で高品質（？）無料翻訳サービスを手に入れる

Posted Jul 5, 2024

By Insulin

9 min read

Ollamaを使用する際には、高性能GPUの使用は必須ではありませんが、翻訳速度が遅いとユーザーエクスペリエンスに大きく影響します。少なくとも12GBのビデオメモリを搭載したコンピューターを使用することを強く推奨します。

TL;DR

「没入型翻訳」をインストールする
「Ollama」をインストールする
ollama pull gemma2:9bでモデルダウンロード
- 好きなModelどれでもいい、PCスペックと相談
OLLAMA_ORIGINS="*" ollama serveを実行する
「没入型翻訳」>「設定」>「翻訳サービス」> 一番下にスクロール>「OpenAIインターフェースと互換性のあるカスタムAI翻訳サービスを追加しますか？」クリック
アドレスにhttp://127.0.0.1:11434/v1/chat/completionsを入れて、APIKEYに任意文字列、モデルにgemma2:9b
Enjoy

実際の効果

TraefikのGithub README.md

Ollama Gemma2の説明ページ

Evil Neuro-sama(AI VTber)

個人的な感想として、Google翻訳は60/100なら、Gemma2による翻訳は75/100点といったところですね。
特にYoutubeの自動生成英語字幕の翻訳だといまいちのところが多いです。まぁ自動生成字幕の方の問題もありますけど。
もちろん、普通のGoogle翻訳と同じく、書面的な言葉（ドキュメント、論文など）であればあるほど、精度が上がっていく傾向があります。

ここからの内容は、全部Gemma2:9bで中国語から翻訳したものになります。
※少しだけ手直しの部分あります。

Immersive Translate

中国企業が開発したブラウザ拡張機能です。Edge、Chrome、Firefox、Safariなど主流のブラウザに対応しており、Tampermonkeyでもインストールできます。

デフォルトでは、Google翻訳やMicrosoft翻訳を選択できます。また、設定でさまざまなAIサービスのAPIを追加して、AI翻訳を使用することもできます。内部には、GitHubやRedditなどの特定のケースを強化したAI用のプロンプトが多数含まれています。

私自身、この拡張機能を最も活用しているのは、GitHubや開発ドキュメント、APIリファレンスなどの専門的な用語が頻繁に登場する場面です。この拡張機能は、そのような場面で非常に正確な翻訳を提供してくれるため、私にとって最も信頼できる効率化ツールの一つとなっています。

課題として、翻訳対象となる文章量が膨大であることが挙げられます。OpenAIなどのAIサービスプロバイダーのAPIを利用した場合、コスト面で負担が大きくなってしまいます。そこで、私自身の使用状況では、ローカルにデプロイ可能なAIを使用することを優先しています。幸いなことに、AIに関する広告が溢れる現代において、簡単にセットアップできるローカルデプロイ型のAIサービスを見つけることは容易です。

ここに登場するサービスをご紹介します：Ollama。

Ollama

完全にローカルでインストールしたらあとは使うだけのAIのデプロイコマンドラインツールです。
インストール後、ollama pull gemma2:9bを使用するだけでGemma2 9Bをダウンロードできます。
その後、ollama run gemma2:9bを使用してチャットモードを起動できます。
また、APIサーバーとしてデプロイすることもでき、ollama serveを実行するだけでローカルのポート11434でAPIサーバーが自動的に起動します。
このAPIインターフェースは、OpenAIのAPIインターフェースと完全に互換性があり、これは非常に重要です。
これは、OpenAI APIを使用できるほとんどのサービスが、ローカルのOllamaにアクセスするように変更できることを意味します。

Ollamaの利用上の注意点

Ollamaは、デフォルトで127.0.0.1と0.0.0.0からのcross-originリクエストを許可しています。追加のoriginはOLLAMA_ORIGINSで構成できます。
- 環境変数OLLAMA_ORIGINS=*を設定することで、この問題を解決できます。（ネットワークセキュリティにご注意ください）
GPUの限界を超えるモデルを使用しないでください。参考として、4080(16GB)を使用して9Bのパラメータを持つGemma2を実行すると、約9GBのVRAMが消費されます。
OllamaのAPIサーバーが起動していても、Ollamaはすぐにモデルを読み込みません。APIリクエストが来ると、対応するモデルが起動され、しばらくすると（約数分）自動的に解放されます。
- つまり、複数のモデルのパフォーマンスをテストしたい場合は、コマンドラインでテストすることをお勧めします。API（たとえば、没入型翻訳のモデル設定を変更する）を使用しないようにしてください。これにより、複数のモデルが同時に読み込まれ、VRAM不足が発生する可能性があります。

その他

会社内でOllamaを使用する場合、Ollamaを実行するための専用高性能PCを用意し、APIを社内ネットワークに公開するといった選択肢があります。これにより、低性能PCでのOllama利用の問題が解決されます。
Ollamaは、上記で述べたようにOpenAIのAPIと完全に互換性があるため、多くの他のサービスと連携して使用することができます。そのため、拡張性の高いシステム構築が可能です。

AI 効率化ツール Selfhosted

This post is licensed under CC BY 4.0 by the author.