OllamaでGemma 4を使う方法|ローカルLLMとしての特徴・導入手順・モデル選びを解説

スポンサーリンク
この記事は約16分で読めます。

ローカル環境でAIを動かしたい人にとって、Ollamaは、おすすめの実行環境です。

Mac・Windows・Linuxで使え、Web UI、CLI、REST APIまでそろっているため、初心者から開発者まで扱いやすいのが魅力です。

さらに現在は、Gemma 4をOllamaで利用でき、推論、コーディング、エージェント的な処理、画像理解まで幅広く試せます。

Ollamaとは

Ollamaは、LLM(大規模言語モデル)を自分のPC上でローカル実行できるツールです。

主な特徴は3つあります。まず、1行のコマンドだけでモデルを起動できるシンプルさ
次に、ブラウザ上のチャット画面からすぐに使えるWeb UI
そして、REST APIを通じてアプリやスクリプトから呼び出せる拡張性です。

すべての処理がPC内で完結するため、データをクラウドに送りたくない場面や、手元に検証環境を用意したいときに特に向いています。

Gemma 4とは

Gemma 4は、Google DeepMindが開発するGemmaファミリーのひとつで、テキストと画像を入力でき、テキストを出力するマルチモーダルモデルです。

Gemma 4には高い推論能力、可変アスペクト比や解像度に対応した画像処理、複数サイズの展開、ローカル実行に向く小型モデルなどの特徴があります。

Ollamaから配信されたGoogle Gemma 4の案内メールでも、Gemma 4は推論、エージェント的なワークフロー、コーディング、マルチモーダル理解に向くモデルとして紹介されています。
つまりGemma 4は、単なる会話モデルではなく、実務や開発の補助まで視野に入れたモデルとして位置づけられています。

Ollamaで使えるGemma 4のモデルサイズ

Ollama公式ページでは、Gemma 4は複数のサイズで公開されています。
主なタグは gemma4:e2bgemma4:e4bgemma4:26bgemma4:31bgemma4:31b-cloud です。

小型モデルは128Kコンテキスト、中型以上は256Kコンテキストに対応しており、いずれもText / Image入力に対応しています。

特に小型の gemma4:e2b は約7.2GB、gemma4:e4b は約9.6GBで、ローカルPCでも比較的試しやすいサイズです。
一方、gemma4:26b は約18GB、gemma4:31b は約20GBで、より大きな文脈を扱える256Kコンテキスト対応モデルとして掲載されています。

また、gemma4:31b-cloud も用意されており、Ollama公式ページではクラウド側の選択肢として紹介されています。
ローカルマシンの負荷を抑えつつ、より大きなGemma 4を使いたい人には注目しやすい構成です。

E2B・E4B・26B・31Bの違い

Ollama公式ページでは、E2BとE4Bの「E」はeffective parametersを意味し、エッジデバイス向けに作られたモデルと説明されています。
軽量でローカル実行しやすいモデルを探しているなら、まずはこの2つが候補になります。

一方、26Bと31Bはワークステーション向けモデルとして案内されています。
26BはMixture of Expertsで4B active parameters、31BはDenseモデルです。
より高い性能や長いコンテキストを求めるなら、こちらの系統を検討しやすいでしょう。

Gemma 4はどんな用途に向くのか

Gemma 4は推論、エージェント型ワークフロー、コーディング、マルチモーダル理解に向いています。
つまり、単純なチャットだけでなく、次のような用途と相性が良いといえます。

  • 長文の要約や整理
  • コード生成やコード補助
  • ツール連携を含むエージェント的な処理
  • 画像を見せながら説明させる使い方

さらに、Gemma 4はthinking modesを設定できる高性能なreasonerとしても使用できるため、単なる軽量モデル以上の役割が期待されています。

OllamaでGemma 4を使う

Ollamaそのものの導入方法は、既存記事のOllamaでローカルLLMをPCに導入して使うで紹介しています。

Ollamaインストール後は、Web UIやCLIコマンドでモデル選択することでGemma 4を簡単に使うことができます。

Web UIはチャット形式で試しやすく、CLIは直接モデルを指定して実行できるため開発や細かな操作に向いています。

気軽に触ってみたいならWeb UI、アプリ連携やスクリプト利用まで視野に入れるならCLIやAPIが向いています。
用途に応じて入口を選べるのは、Ollamaの大きな強みです。

Web UIで使う

Web UIのSelecta modelから目的のGemma 4モデルを選択して使用します。

チャットを開始すると選択したモデルのダウンロードが始まります。
下記は、gemma4:e4b選択後にチャットを開始した状態です。

CLIで使う

CLIは、ターミナルでollama <コマンド名> の形式で入力することで、使います。

ollama run <モデル名>で、モデルを起動し、チャットを(未取得ならダウンロードから)開始できます。

軽量モデルの gemma4:e2bを使いたい場合は、以下の様に入力します。

以下は、gemma4:e2bを実行し、簡単なチャットを行った例(ターミナル画面)です。

ストレージにロードされたモデルは、以下のコマンドで確認できます。

また、メモリ上に存在し実行中のモデルの確認は、以下のコマンドで確認できます。

デフォルト設定では、最後に応答してから5分間何も入力がないと、Ollamaはメモリを空けるためにモデルを自動的にアンロード(解放)します。
強制的にメモリを開放する場合は、以下のコマンドを使います。

モデルを削除してストレージ容量を空ける場合は、以下のコマンドを実行します。

以下は、gemma4:e2bの実行から削除までの実行例(ターミナル画面)です。

参考:公式ドキュメント(CLIリファレンス):Ollama CLI Reference

CLIでのマルチモーダル(画像解析)を実行

1.モデルの起動:

2.解析スクリプトの実行:
以下のスクリプト(ollama_vision_test.py)を使用して、画像をBase64エンコードして送信します。

    このvision_test.pyを実行(python ollama_vision_test.py)することで、画像を解析できます。

    ollamaテスト用画像
    解析に指定した画像

    Gemma 4をOllamaで使うメリット

    Gemma 4をOllamaで使うメリットは、大きく3つあります。

    第一に、ローカル実行とAPI実行の両方に広げやすいことです。
    Web UIで試し、CLIで動かし、必要に応じてAPIに組み込む流れが作れます。

    第二に、画像入力まで含めたマルチモーダル利用が視野に入ることです。
    公式ページでは、Gemma 4系はText/Image入力対応として案内されています。

    第三に、軽量側から大規模側まで段階的に試せることです。
    e2b/e4bの軽量寄りから、26b/31b、さらに31b-cloudまで用意されているため、PC性能や用途に合わせて選べます。

    まとめ

    Gemma 4はOllama上でかなり相性の良い追加候補です。

    Ollamaの強みである簡単な導入、CLI、API、Web UIを活かしながら、Gemma 4の推論・コーディング・エージェント的処理・画像理解を試せます。

    まずは gemma4:e2bgemma4:e4b で軽く試し、必要に応じて 26b31b、クラウド版へ広げる流れが現実的です。

    ローカルAIを学びたい人にも、実務で検証したい人にも、Gemma 4はOllama上で試す価値のあるモデルと言えます。

    参考リンク

    関連記事