Ollamaで使えるLLMモデル比較:Llama・Gemma・Qwen、何が違うの?用途別おすすめ選び方ガイド

ChatGPTやClaudeは便利だが、Ollamaをインストールして「さあ使うぞ」となった時、最初に迷うのがモデル選びだ。ollama run llama3.2と書いてある記事もあればollama run gemma3と書いてある記事もある。Qwenなるものもある。一体何が違うのか。

この記事ではOllamaで使える主要モデルであるLlama・Gemma・Qwenの違いを、日本語ユーザー目線で比較する。「とりあえず何を入れればいいか」がわかれば十分という人はまとめだけ読めばいい。

以前Ollamaのインストール方法については記事にしているので、まだインストールしていない人はコチラから。

そもそもモデルって何種類あるの?

Ollamaのライブラリページ(https://ollama.com/library)には数百種類のモデルが並んでいる。ただし主要な「モデルファミリー」は限られていて、それぞれ開発元と得意分野が異なる。

モデルファミリー開発元代表コマンド一言特徴
Llama 3Meta(アメリカ)ollama run llama3.2バランス型の定番
Gemma 3Google(アメリカ)ollama run gemma3軽量で速い
Qwen 2.5Alibaba(中国)ollama run qwen2.5日本語が一番強い
DeepSeek-R1DeepSeek(中国)ollama run deepseek-r1考えて答える推論型
MistralMistral AI(フランス)ollama run mistral英語・コードが得意
Phi-4Microsoft(アメリカ)ollama run phi4小さいけど賢い

この記事ではLlama・Gemma・Qwenの3つを中心に掘り下げる。

Llama 3(Meta製):とりあえずこれを入れとけ、の定番モデル

MetaがオープンソースとしてリリースしているLLMで、ローカルLLM界隈の事実上の標準モデルだ。ネット上のチュートリアルや解説記事でも最も多く取り上げられているため、困ったときに情報が見つかりやすいという利点がある。

2025年時点での最新はLlama 3.3。実用的な8Bサイズが人気で、16GBのRAMがあれば快適に動く。

# 3.2(軽量版、8GB RAMでも動く)
ollama run llama3.2

# 3.3(高精度版、16GB RAM推奨)
ollama run llama3.3

日本語の実力:★★★☆☆

日本語は話せるが、あくまで「英語が本命で日本語も一応できる」レベル。簡単な質疑応答や翻訳は問題ないが、長文の生成や細かいニュアンスはQwenに劣る。英語で質問する用途がメインなら十分すぎる性能だ。

Llamaが向いている用途

  • 英語でのQ&A・文書作成
  • コード補助(汎用)
  • Open WebUIなどUIと組み合わせた日常使い
  • 情報が多いので「とりあえず入れてみたい」初回に最適

Gemma 3(Google製):軽量重視ならこれ一択

GoogleがリリースするオープンソースLLM。最大の特徴はモデルサイズのラインナップが豊富で、スペックが低いPCでも選択肢がある点だ。

# 1Bモデル(RAMが少ないPCでも動く最軽量版)
ollama run gemma3:1b

# 4Bモデル(8GB RAMで快適に動くバランス版)
ollama run gemma3:4b

# 12Bモデル(16GB RAM推奨、精度重視)
ollama run gemma3:12b

日本語の実力:★★★☆☆

日本語の精度はLlamaとほぼ同等。英語メインの設計だが、日常的な質問には十分応答できる。モデルサイズが小さい分、重い処理が苦手な場面はある。

Gemmaが向いている用途

  • RAMが8GB以下のPCで動かしたい
  • レスポンス速度を優先したい
  • 常時起動させてAPI連携する(軽いほど有利)

Qwen 2.5(Alibaba製):日本語で使いたいならこれ

中国のAlibaba(アリババ)がリリースするLLM。もともと中国語・英語・日本語などの多言語対応を重視して設計されており、日本語の精度はローカルモデルの中でトップクラスだ。

2025年時点ではQwen 2.5が最新の安定版。7Bサイズが実用性と精度のバランスが良く、16GB RAMのPCで快適に動く。

# 7Bモデル(日本語用途のバランス版)
ollama run qwen2.5:7b

# 14Bモデル(精度重視、32GB RAM推奨)
ollama run qwen2.5:14b

# コーディング特化版
ollama run qwen2.5-coder:7b

日本語の実力:★★★★★

日本語でそのまま質問しても自然な回答が返ってくる。敬語・口語・技術用語のどれも崩れにくく、長文生成でも流れが途切れにくい。「ChatGPTの代替をローカルで」という用途で真っ先に試すべきモデルだ。

Qwenが向いている用途

  • 日本語での質問・文書作成・要約
  • 日本語コードのコメント生成・説明
  • プライバシーを守りながらChatGPTっぽく使いたい
  • コーディング用途はQwen2.5-Coderがさらに強い

3モデルを並べて比較する

Llama 3Gemma 3Qwen 2.5
開発元Meta(米)Google(米)Alibaba(中)
日本語精度★★★☆☆★★★☆☆★★★★★
英語精度★★★★★★★★★☆★★★★☆
軽さ・速さ★★★☆☆★★★★★★★★☆☆
コード生成★★★★☆★★★☆☆★★★★☆(Coder版は★★★★★)
情報の多さ★★★★★★★★★☆★★★☆☆
おすすめスペックRAM 16GB〜RAM 8GB〜RAM 16GB〜

用途別・おすすめモデルのまとめ

迷ったらこの表から選べばいい。

やりたいことおすすめモデルコマンド
日本語で普通に使いたいQwen 2.5ollama run qwen2.5:7b
とりあえず試してみたいLlama 3.2ollama run llama3.2
PCが非力(RAM 8GB)Gemma 3ollama run gemma3:4b
コードを書かせたいQwen2.5-Coderollama run qwen2.5-coder:7b
英語メインで高精度Llama 3.3ollama run llama3.3
数学・論理問題を解かせたいDeepSeek-R1ollama run deepseek-r1

モデルの切り替え方

Ollamaはモデルを複数インストールして使い分けられる。ダウンロードだけしておいて後で切り替えるには以下の通り。

# インストール済みモデルを確認
ollama list

# 別のモデルに切り替えて起動
ollama run qwen2.5:7b

# 使わないモデルを削除してディスクを空ける
ollama rm llama3.2

モデルのサイズは7Bで4〜5GB程度が目安だ。複数入れるとディスクを食うので、メインで使うものを1〜2個に絞るのが現実的だ。

まとめ

3つのモデルの違いをひと言でまとめるとこうなる。

  • Llama:情報が多くて困らない定番。英語メインなら最良の選択
  • Gemma:スペックが低いPCでも動く軽量王者
  • Qwen:日本語で使うならこれ一択。精度が頭一つ抜けている

日本語で使うことが前提なら、まずollama run qwen2.5:7bを試しでべしい。「ローカルでこのクオリティが出るのか」と驚くはずだ。モデルはいつでも変えられるので、気になったものをどんどん試してみるのが一番の近道だ。

ただ、先に言っておくがClaude CodeやChatGPTに使い慣れていると、今回紹介したモデルたちは既にかなり遅く、賢くないので使い方次第だったり研究用途にとどまってしまう。

最新の生成AIに近いモデルをローカルで無料で使いたいとなると、32GBクラスのビデオカードが必須で、PCスペックも全体的に見直す必要があったりもする。ビデオカードに60万円もかけるなら簡単に安心して使えるAIのサブスク課金した方が安上がりで最新の機能も使えるので、実は手っ取り早かったりもする。

Add comment

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください

Follow Me

読みたい記事内容に投票

投票数が多い記事から優先的に記事を作っていこうと思います。是非投票してください!
Twillioでサーバーダウン時に電話コール通知方法
7票
Linuxサーバーでメール送受信ができない時のチェックポイント
1票
株式会社RES 児玉一希の似非投資術を暴く
1票
PC版ChiakiでPSリモートプレイ
0票
CoinOPS NEXT2に好きなエミュレーターを追加
0票