Lucas M Dev

Posted on Mar 28 • Originally published at lucasmdevdev.github.io

Faire tourner des LLM en local en 2026 : guide complet avec Ollama

#dev #webdev

Pourquoi faire tourner un LLM en local ?

Confidentialité totale — vos données ne quittent pas votre machine
0€/mois — pas d'abonnement, pas de facturation à l'usage
Disponible hors-ligne — ça marche même sans internet
Personnalisable — vous contrôlez le modèle, les paramètres, tout

Le seul bémol : il faut du hardware. Mais vous êtes probablement surpris par ce que vous avez déjà.

Configuration minimale recommandée

Usage RAM GPU VRAM Modèles supportés

Basique 8 Go — Phi-3 Mini, Gemma 2B
Confortable 16 Go 6 Go Llama 3.1 8B, Mistral 7B
Pro 32 Go 12 Go Llama 3.3 70B Q4, Qwen 72B

Sans GPU ? Pas de panique — les modèles en CPU-only sont lents mais fonctionnels pour la plupart des usages.

Ollama — l'outil incontournable

Ollama est devenu le standard pour faire tourner des LLM en local. C'est simple, rapide, et ça marche sur Mac, Linux, et Windows.

Installation

# Linux / Mac
curl -fsSL https://ollama.ai/install.sh | sh

Windows : télécharger l'installeur sur ollama.ai

Premier modèle

# Télécharger et lancer Llama 3.1 8B (4.7 Go)
ollama run llama3.1

Ou le plus léger Phi-3 Mini (2.3 Go)

ollama run phi3:mini
C'est tout. Ollama télécharge le modèle et ouvre un chat directement dans le terminal.

Les meilleurs modèles en 2026

Pour la rédaction et le chat général

Llama 3.3 70B (Meta) — Le meilleur open-source toutes catégories. Nécessite 40+ Go de VRAM ou 64 Go RAM en CPU.

Mistral Small 3.1 — Excellent rapport qualité/taille. 24B paramètres, tourne sur 16 Go RAM.

Pour le code

DeepSeek Coder V2 — Meilleur que GPT-4 pour le code selon plusieurs benchmarks. Version 16B accessible avec 16 Go RAM.

Qwen2.5 Coder 7B — Plus léger, excellent pour la completion de code au quotidien.

Pour les petites configs

Phi-3.5 Mini (3.8B) — Microsoft a fait un miracle ici. Qualité surprenante pour sa taille.

Gemma 2 2B — Idéal pour des usages simples sur machine peu puissante.

Open WebUI — l'interface ChatGPT pour votre Ollama

Le terminal c'est bien, mais une interface web c'est mieux.

# Avec Docker
docker run -d -p 3000:8080 \
-v open-webui:/app/backend/data \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
--name open-webui ghcr.io/open-webui/open-webui:main
Accédez à http://localhost:3000 — vous avez votre propre ChatGPT privé.

Cas d'usage pratiques

Assistant de développement local

ollama run deepseek-coder-v2:16b
"Explique ce code", "Génère des tests unitaires", "Refactor cette fonction" — tout ça tourne en local.

Résumé de documents confidentiels

Vous avez un contrat NDA à analyser ? Un rapport interne à résumer ? Chargez-le dans Open WebUI, votre LLM le traite sans que rien ne parte sur internet.

Génération de contenu

Avec les bons prompts, Llama 3.3 70B produit des textes de qualité professionnelle. C'est ce que j'utilise pour dégrossir mes articles avant révision manuelle.

Performance réelle sur différentes configs

Machine Modèle Vitesse Verdict

MacBook Pro M2 (16 Go) Llama 3.1 8B ~25 tok/s ✅ Confortable
PC Linux + RTX 3060 12 Go Mistral 7B ~45 tok/s ✅✅ Excellent
PC Linux, i5, 8 Go RAM, no GPU Phi-3 Mini ~8 tok/s ⚠️ Lent mais ok

Pour aller plus loin

LM Studio — alternative graphique à Ollama, parfaite pour ceux qui préfèrent les interfaces visuelles
Jan — client desktop avec interface soignée
AnythingLLM — RAG (retrieval-augmented generation) sur vos propres documents

Vous avez des questions sur votre configuration spécifique ? Décrivez votre machine en commentaire, je vous dis quels modèles sont adaptés.

Article original: Faire tourner des LLM en local en 2026 : guide complet avec Ollama

DEV Community