Pourquoi faire tourner un LLM en local ?
Confidentialité totale — vos données ne quittent pas votre machine
0€/mois — pas d'abonnement, pas de facturation à l'usage
Disponible hors-ligne — ça marche même sans internet
Personnalisable — vous contrôlez le modèle, les paramètres, tout
Le seul bémol : il faut du hardware. Mais vous êtes probablement surpris par ce que vous avez déjà.
Configuration minimale recommandée
Usage RAM GPU VRAM Modèles supportés
Basique 8 Go — Phi-3 Mini, Gemma 2B
Confortable 16 Go 6 Go Llama 3.1 8B, Mistral 7B
Pro 32 Go 12 Go Llama 3.3 70B Q4, Qwen 72B
Sans GPU ? Pas de panique — les modèles en CPU-only sont lents mais fonctionnels pour la plupart des usages.
Ollama — l'outil incontournable
Ollama est devenu le standard pour faire tourner des LLM en local. C'est simple, rapide, et ça marche sur Mac, Linux, et Windows.
Installation
# Linux / Mac
curl -fsSL https://ollama.ai/install.sh | sh
Windows : télécharger l'installeur sur ollama.ai
Premier modèle
# Télécharger et lancer Llama 3.1 8B (4.7 Go)
ollama run llama3.1
Ou le plus léger Phi-3 Mini (2.3 Go)
ollama run phi3:mini
C'est tout. Ollama télécharge le modèle et ouvre un chat directement dans le terminal.
Les meilleurs modèles en 2026
Pour la rédaction et le chat général
Llama 3.3 70B (Meta) — Le meilleur open-source toutes catégories. Nécessite 40+ Go de VRAM ou 64 Go RAM en CPU.
Mistral Small 3.1 — Excellent rapport qualité/taille. 24B paramètres, tourne sur 16 Go RAM.
Pour le code
DeepSeek Coder V2 — Meilleur que GPT-4 pour le code selon plusieurs benchmarks. Version 16B accessible avec 16 Go RAM.
Qwen2.5 Coder 7B — Plus léger, excellent pour la completion de code au quotidien.
Pour les petites configs
Phi-3.5 Mini (3.8B) — Microsoft a fait un miracle ici. Qualité surprenante pour sa taille.
Gemma 2 2B — Idéal pour des usages simples sur machine peu puissante.
Open WebUI — l'interface ChatGPT pour votre Ollama
Le terminal c'est bien, mais une interface web c'est mieux.
# Avec Docker
docker run -d -p 3000:8080 \
-v open-webui:/app/backend/data \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
--name open-webui ghcr.io/open-webui/open-webui:main
Accédez à http://localhost:3000 — vous avez votre propre ChatGPT privé.
Cas d'usage pratiques
Assistant de développement local
ollama run deepseek-coder-v2:16b
"Explique ce code", "Génère des tests unitaires", "Refactor cette fonction" — tout ça tourne en local.
Résumé de documents confidentiels
Vous avez un contrat NDA à analyser ? Un rapport interne à résumer ? Chargez-le dans Open WebUI, votre LLM le traite sans que rien ne parte sur internet.
Génération de contenu
Avec les bons prompts, Llama 3.3 70B produit des textes de qualité professionnelle. C'est ce que j'utilise pour dégrossir mes articles avant révision manuelle.
Performance réelle sur différentes configs
Machine Modèle Vitesse Verdict
MacBook Pro M2 (16 Go) Llama 3.1 8B ~25 tok/s ✅ Confortable
PC Linux + RTX 3060 12 Go Mistral 7B ~45 tok/s ✅✅ Excellent
PC Linux, i5, 8 Go RAM, no GPU Phi-3 Mini ~8 tok/s ⚠️ Lent mais ok
Pour aller plus loin
LM Studio — alternative graphique à Ollama, parfaite pour ceux qui préfèrent les interfaces visuelles
Jan — client desktop avec interface soignée
AnythingLLM — RAG (retrieval-augmented generation) sur vos propres documents
Vous avez des questions sur votre configuration spécifique ? Décrivez votre machine en commentaire, je vous dis quels modèles sont adaptés.
Article original: Faire tourner des LLM en local en 2026 : guide complet avec Ollama
Top comments (0)