【2026年最新】国産LLMの実力は? LLM-jp-4・Gemma 4・GPT-OSSを比較

スポンサーリンク
この記事は約14分で読めます。

2026年4月3日、国産LLMとして注目される 「LLM-jp-4 32B-A3B」 が公開されました。

同時期にはGoogleの 「Gemma 4」 が登場し、オープンLLMの分野は大きく盛り上がりを見せています。

さらに、OpenAIの 「GPT-OSS」(2025年8月5日リリース)も引き続き有力な選択肢として存在感を放っています。

今回は、これらの主要モデルを Windows 11 のローカル開発環境で動かし、日本語でどれだけ実用的に使えるのかを詳しく検証しました。

ローカル環境での評価方法の流れ

今回の比較検証では、条件を公平に保つため、すべてのモデルを同一のローカルマシン上で実行しました。
回答の生成から自動採点まで、一連の作業をどのように構築したのか、その具体的な手順を解説します。

検証環境

今回のテストは、一般的なローカル開発環境を想定し、以下の構成で実施しました。

  • OS:Windows 11
  • ターミナル:VS Code / Git Bash
  • 実行環境:Python 3.x(venvによる仮想環境)
  • 評価指標:ELYZA-tasks-100

開発者が比較的導入しやすく、再現性の高いシンプルな構成でテストしています。

モデル名パラメータ数サイズ特徴
Gemma-4-26b-a4b-it26B (Active 4B)17.99 GBGoogleの最新鋭。高い論理性と日本語力。
LLM-jp-4-32B-a3B-thinking32B (Active 3B)21.40 GBNII主導。MoE採用の軽量・高機能な国産LLM。
OpenAI/GPT-OSS-20b20B12.11 GBOpenAI初の本格オープンソース版。

「LLM as a Judge」による自動評価の仕組み

100問の回答を人間が一つずつ採点するのは現実的ではありません。
そこで、GPT-5.4 miniを「審判」として起用するLLM as a Judgeを採用しました。

LLM as a Judge

評価用スクリプトにより、各回答に対して「指示に正しく従っているか」「日本語が自然か」を1〜5点で厳密にスコア化しています。

ローカルLLM評価データの生成

今回の検証では、LM Studio 0.4.0 のGUI画面を使用し、各モデルを順番に切り替えながら、以下の手順で評価データを生成しました。

回答生成スクリプトの作成

「ローカルAPIサーバー(OpenAI互換)」に接続して回答を取得するスクリプトです。

  • 入力
    LYZA-tasks-100 (test.jsonl): 100問の日本語指示が含まれたデータセット
  • 出力
    「問題(input_text)」と、それに対してモデルが生成した「回答(output_text)」がペアになった100行のデータ(answers_モデル名.jsonl

gen_answers_lmstudio.py

gen_answers_gemma.py

gen_answers_gpt_oss

ステップ1:LM Studio GUIでのモデル・ロード

まず、LM Studioで検証対象のモデルをロードします。

評価テスト対象モデルのロード

Gemma-4-26b-a4b-itOpenAI/GPT-oss-20b の検証時には、ロードを切り替えます。

ステップ2:回答生成スクリプトの実行

モデルがロードされ、ローカルサーバーが「Ready」になった状態で、Git Bashから各モデル専用のスクリプトを実行します。

Developer->Status:Running

回答生成スクリプト実行コマンド

評価用スクリプトによる評価データの検証

下記の評価用スクリプト(evaluate.py)を作成し、各回答に対して「指示に正しく従っているか」「日本語が自然か」を1〜5点で厳密にスコア化します。

評価用スクリプト(evaluate.py)の作成

このスクリプトは、GPT-5.4 miniが「問題」「正解例」「モデルの回答」を比較し、論理性や正確性を基準に1〜5点で評価を行うものです。
さらに、各問題ごとの得点に加えて、最終的に100問全体の平均スコアも出力します。

evaluate.py

評価用スクリプト(evaluate.py)の実行

OpenAI APIキーの設定を環境変数に設定します。

各LLMの回答に対して、評価用スクリプト(evaluate.py)を実行します。

総合結果の比較

判定モデルとして gpt-5.4-mini(reasoning_effort設定含む最新版)を使用し、5点満点で評価した結果です。

モデル名平均スコア判定速度特徴・構成
Gemma 4 26B A4B IT3.641.27it/sGoogle / MoE (Active 4B)
OpenAI gpt-oss 20B3.401.13it/sOpenAI / Dense 20B
LLM-jp-4 32B-A3B thinking3.041.26it/sNII / MoE (Active 3B)

詳細分析

① Gemma 4 26B A4B IT(スコア: 3.64)

【分析】 今回の検証で最高スコアを記録しました。
Googleの最新アーキテクチャであるMoE(4B活性)の効果が顕著です。
ELYZA-tasks-100のような複雑な指示においても、論理的な破綻が少なく、かつ自然な日本語を出力できていることが推測されます。

  • 強み: 指示従順性と文脈理解のバランスが非常に高い。
  • 判定速度: 最も安定しており、APIとの相性(出力の簡潔さ)も良好。

② OpenAI gpt-oss 20B(スコア: 3.40)

【分析】 2番手ですが、3.40というスコアは「実用レベル」の非常に高い水準です。
OpenAIが公開したオープンウェイトモデルとして、特定の言語に偏らず高い指示追従能力を持っています。

  • 注目点: 判定速度が 1.13it/s と少し遅めです。これは、回答が他のモデルより長文(詳細)であったために、ジャッジモデル(gpt-5.4-mini)の処理トークン量が増えた可能性が高いです。

③ LLM-jp-4 32B-A3B thinking(スコア: 3.04)

【分析】 国産モデルとして大健闘していますが、世界のトップランナーと比較するとスコア上は一歩譲る形となりました。
しかし、本モデルは Active 3B という極めて軽量な推論コストで動作しています。

  • 考察: 「3.0以上」は、指示の意味は正しく理解できているレベルです。
    「thinking」モデルとしての思考過程が日本語の微細な表現に影響している可能性もあります。

2026年4月3日に同時期公開された最新モデルを比較した結果、ローカルLLMの進化は予想を遥かに上回るスピードで進んでいることが分かりました。

まとめ:2026年春、ローカルLLMの新時代

2026年4月3日に同時期公開された最新モデルを比較した結果、ローカルLLMの進化は予想を上回るスピードで進んでいることが分かりました。

評価項目最優秀モデル特徴
総合スコアGemma-4-26b-a4b-it圧倒的な指示従順性と自然な日本語。
バランスOpenAI/gpt-oss-20b安定した汎用性。回答の丁寧さも光る。
効率性LLM-jp-4 32B-A3BActive 3Bという極小コストで3点台をマーク。

どのモデルを選ぶべきか?

  • 究極の精度を求めるなら:Gemma 4 現状、ローカル環境で動かせる日本語対応モデルとしては最高峰の完成度です。
  • 安定した開発基盤なら:GPT-OSS OpenAIの設計思想が反映されており、多様な指示に対して手堅く応えてくれます。
  • 省エネ・国内最適化なら:LLM-jp-4 推論コストの低さは随一。特定の業務知識を覚え込ませる(Fine-tuning)ベースモデルとしても、今後の伸び代が最も期待できます。

参考リンク

関連記事