ChatGPTやClaudeは便利だが、Ollamaをインストールして「さあ使うぞ」となった時、最初に迷うのがモデル選びだ。ollama run llama3.2と書いてある記事もあればollama run gemma3と書いてある記事もある。Qwenなるものもある。一体何が違うのか。
この記事ではOllamaで使える主要モデルであるLlama・Gemma・Qwenの違いを、日本語ユーザー目線で比較する。「とりあえず何を入れればいいか」がわかれば十分という人はまとめだけ読めばいい。
以前Ollamaのインストール方法については記事にしているので、まだインストールしていない人はコチラから。
そもそもモデルって何種類あるの?
Ollamaのライブラリページ(https://ollama.com/library)には数百種類のモデルが並んでいる。ただし主要な「モデルファミリー」は限られていて、それぞれ開発元と得意分野が異なる。
| モデルファミリー | 開発元 | 代表コマンド | 一言特徴 |
|---|---|---|---|
| Llama 3 | Meta(アメリカ) | ollama run llama3.2 | バランス型の定番 |
| Gemma 3 | Google(アメリカ) | ollama run gemma3 | 軽量で速い |
| Qwen 2.5 | Alibaba(中国) | ollama run qwen2.5 | 日本語が一番強い |
| DeepSeek-R1 | DeepSeek(中国) | ollama run deepseek-r1 | 考えて答える推論型 |
| Mistral | Mistral AI(フランス) | ollama run mistral | 英語・コードが得意 |
| Phi-4 | Microsoft(アメリカ) | ollama run phi4 | 小さいけど賢い |
この記事ではLlama・Gemma・Qwenの3つを中心に掘り下げる。
Llama 3(Meta製):とりあえずこれを入れとけ、の定番モデル
MetaがオープンソースとしてリリースしているLLMで、ローカルLLM界隈の事実上の標準モデルだ。ネット上のチュートリアルや解説記事でも最も多く取り上げられているため、困ったときに情報が見つかりやすいという利点がある。
2025年時点での最新はLlama 3.3。実用的な8Bサイズが人気で、16GBのRAMがあれば快適に動く。
# 3.2(軽量版、8GB RAMでも動く)
ollama run llama3.2
# 3.3(高精度版、16GB RAM推奨)
ollama run llama3.3日本語の実力:★★★☆☆
日本語は話せるが、あくまで「英語が本命で日本語も一応できる」レベル。簡単な質疑応答や翻訳は問題ないが、長文の生成や細かいニュアンスはQwenに劣る。英語で質問する用途がメインなら十分すぎる性能だ。
Llamaが向いている用途
- 英語でのQ&A・文書作成
- コード補助(汎用)
- Open WebUIなどUIと組み合わせた日常使い
- 情報が多いので「とりあえず入れてみたい」初回に最適
Gemma 3(Google製):軽量重視ならこれ一択
GoogleがリリースするオープンソースLLM。最大の特徴はモデルサイズのラインナップが豊富で、スペックが低いPCでも選択肢がある点だ。
# 1Bモデル(RAMが少ないPCでも動く最軽量版)
ollama run gemma3:1b
# 4Bモデル(8GB RAMで快適に動くバランス版)
ollama run gemma3:4b
# 12Bモデル(16GB RAM推奨、精度重視)
ollama run gemma3:12b日本語の実力:★★★☆☆
日本語の精度はLlamaとほぼ同等。英語メインの設計だが、日常的な質問には十分応答できる。モデルサイズが小さい分、重い処理が苦手な場面はある。
Gemmaが向いている用途
- RAMが8GB以下のPCで動かしたい
- レスポンス速度を優先したい
- 常時起動させてAPI連携する(軽いほど有利)
Qwen 2.5(Alibaba製):日本語で使いたいならこれ
中国のAlibaba(アリババ)がリリースするLLM。もともと中国語・英語・日本語などの多言語対応を重視して設計されており、日本語の精度はローカルモデルの中でトップクラスだ。
2025年時点ではQwen 2.5が最新の安定版。7Bサイズが実用性と精度のバランスが良く、16GB RAMのPCで快適に動く。
# 7Bモデル(日本語用途のバランス版)
ollama run qwen2.5:7b
# 14Bモデル(精度重視、32GB RAM推奨)
ollama run qwen2.5:14b
# コーディング特化版
ollama run qwen2.5-coder:7b日本語の実力:★★★★★
日本語でそのまま質問しても自然な回答が返ってくる。敬語・口語・技術用語のどれも崩れにくく、長文生成でも流れが途切れにくい。「ChatGPTの代替をローカルで」という用途で真っ先に試すべきモデルだ。
Qwenが向いている用途
- 日本語での質問・文書作成・要約
- 日本語コードのコメント生成・説明
- プライバシーを守りながらChatGPTっぽく使いたい
- コーディング用途はQwen2.5-Coderがさらに強い
3モデルを並べて比較する
| Llama 3 | Gemma 3 | Qwen 2.5 | |
|---|---|---|---|
| 開発元 | Meta(米) | Google(米) | Alibaba(中) |
| 日本語精度 | ★★★☆☆ | ★★★☆☆ | ★★★★★ |
| 英語精度 | ★★★★★ | ★★★★☆ | ★★★★☆ |
| 軽さ・速さ | ★★★☆☆ | ★★★★★ | ★★★☆☆ |
| コード生成 | ★★★★☆ | ★★★☆☆ | ★★★★☆(Coder版は★★★★★) |
| 情報の多さ | ★★★★★ | ★★★★☆ | ★★★☆☆ |
| おすすめスペック | RAM 16GB〜 | RAM 8GB〜 | RAM 16GB〜 |
用途別・おすすめモデルのまとめ
迷ったらこの表から選べばいい。
| やりたいこと | おすすめモデル | コマンド |
|---|---|---|
| 日本語で普通に使いたい | Qwen 2.5 | ollama run qwen2.5:7b |
| とりあえず試してみたい | Llama 3.2 | ollama run llama3.2 |
| PCが非力(RAM 8GB) | Gemma 3 | ollama run gemma3:4b |
| コードを書かせたい | Qwen2.5-Coder | ollama run qwen2.5-coder:7b |
| 英語メインで高精度 | Llama 3.3 | ollama run llama3.3 |
| 数学・論理問題を解かせたい | DeepSeek-R1 | ollama run deepseek-r1 |
モデルの切り替え方
Ollamaはモデルを複数インストールして使い分けられる。ダウンロードだけしておいて後で切り替えるには以下の通り。
# インストール済みモデルを確認
ollama list
# 別のモデルに切り替えて起動
ollama run qwen2.5:7b
# 使わないモデルを削除してディスクを空ける
ollama rm llama3.2モデルのサイズは7Bで4〜5GB程度が目安だ。複数入れるとディスクを食うので、メインで使うものを1〜2個に絞るのが現実的だ。
まとめ
3つのモデルの違いをひと言でまとめるとこうなる。
- Llama:情報が多くて困らない定番。英語メインなら最良の選択
- Gemma:スペックが低いPCでも動く軽量王者
- Qwen:日本語で使うならこれ一択。精度が頭一つ抜けている
日本語で使うことが前提なら、まずollama run qwen2.5:7bを試しでべしい。「ローカルでこのクオリティが出るのか」と驚くはずだ。モデルはいつでも変えられるので、気になったものをどんどん試してみるのが一番の近道だ。
ただ、先に言っておくがClaude CodeやChatGPTに使い慣れていると、今回紹介したモデルたちは既にかなり遅く、賢くないので使い方次第だったり研究用途にとどまってしまう。
最新の生成AIに近いモデルをローカルで無料で使いたいとなると、32GBクラスのビデオカードが必須で、PCスペックも全体的に見直す必要があったりもする。ビデオカードに60万円もかけるなら簡単に安心して使えるAIのサブスク課金した方が安上がりで最新の機能も使えるので、実は手っ取り早かったりもする。

Add comment