Quentin Merle

Posted on Mar 26

🚀 L'IA locale en 2026 : Ma traversée du désert (Du Terminal au GPU)

#french #ai #opensource #productivity

🌐 English version here: Local AI in 2026: My Journey Through the Desert

Disclaimer & Contexte : Cet article est basé sur mon expérience personnelle avec un MacBook Pro M1 Pro (32 Go de RAM) et VS Code. Si j'utilise Claude comme référence principale pour l'IA Cloud (vu sa domination actuelle sur le code), la même logique s'applique à Gemini ou ChatGPT quand on compare la puissance du Cloud à l'efficacité du local.

**Le point de départ : "L'IA locale, c'est vraiment bien ? C'est compliqué à installer ?"**

Il y a quelques semaines, je n'y connaissais rien à Ollama. Comme beaucoup de devs, je jonglais avec les quotas gratuits des géants du Cloud dans mon IDE. Puis, la curiosité m'a piqué avant que je ne sorte ma carte bleue : est-ce qu'on peut vraiment faire tourner un "cerveau" de classe mondiale sur un MacBook Pro M1 Pro de base en 2026 ?

1. La simplicité de l'installation

Installer Ollama, c'est presque trop facile. Une commande, et boum : vous avez une IA dans votre terminal. Pas de compte, pas de clé API, pas de carte bancaire.

2. DeepSeek, Qwen, Mistral... Quel "cerveau" choisir ?

Avant de lancer mon premier prompt, j'ai dû fouiller dans la bibliothèque. En 2026, trois familles dominent le marché :

Qwen (Alibaba) : L'architecte du "Clean Code". Brillant avec React et Tailwind, il produit un code élégant et suit les meilleures pratiques.
DeepSeek : Le "Sniper" de la logique. Redoutable pour les algorithmes complexes et le pur back-end.
Mistral (France) & Llama (Meta) : Les piliers. Mistral est une superbe alternative européenne polyvalente, tandis que Llama reste le couteau suisse universel de l'Open Source.

2 bis. C’est quoi un "B" ? (Comprendre la taille du cerveau)
On voit des étiquettes partout : 4B, 7B, 32B. Le "B" signifie Billion (milliard).

Le chiffre : C'est le nombre de paramètres (connexions neuronales) de l'IA. Plus il est élevé, plus l'IA est "éduquée".

L'empreinte RAM : En 2026, grâce à la "quantization" (compression), un modèle 1B consomme environ 0,8 Go de RAM. Un 4B prend ~3,5 Go. Un 32B engloutit ~20 Go... juste pour exister dans votre mémoire !

💡 Attendez, comment un modèle 9B tient dans 7,80 Go ? Tout est question de Quantification (précisément le format 4-bit ou Q4_K_M). C'est comme transformer une photo RAW ultra-lourde en un JPEG de haute qualité : on perd un tout petit peu de précision, mais on gagne une vitesse folle et un poids plume en mémoire.

3. ⚠️ Le disclaimer "Claude Code" (Différence Agent VS Modèle)

On le voit partout en ce moment : "Utilisez Claude gratuitement via Ollama !". C'est à moitié vrai. Claude Code est un outil génial (un agent en ligne de commande), mais ce n'est qu'une interface.

Par défaut, il se connecte aux modèles payants d'Anthropic (Sonnet, Opus, Haiku).
On peut le "brancher" sur Ollama (ex: claude --model qwen3-coder). C'est gratuit et privé, vous profitez de l'ergonomie de Claude avec le cerveau de votre modèle local.

4. Le mur de la réalité : Latence "Matrix" 🐌

Pensant bien faire, j'ai chargé un Qwen 3 32B.

Le Crash : Mon Mac a figé. L'IA mettait des minutes pour sortir un seul mot.
Le coupable : Mon système (Chrome, VS Code, Teams) occupait déjà 20 Go.
Le calcul fatal : 20 Go (Système) + 20 Go (IA) = 40 Go. Sur ma machine de 32 Go, le Mac a dû utiliser le SSD (Swap). Résultat : une lenteur insupportable.

J'ai essayé de coupler ça avec Roo Code sur VS Code, mais chaque instruction envoyait trop de tokens de contexte. La RAM a saturé instantanément. C'est frustrant quand on est habitué à la réactivité instantanée du Cloud.

5. L'art du compromis : "Découper" son setup

Après avoir failli perdre patience, j'ai pivoté vers une approche hybride :

Qwen 2.5-coder 1.5B : Pour l'auto-complétion (instantané).
Qwen 3.5 4B : Mon "daily driver". C'est le Sweet Spot pour 32 Go : il laisse assez de place à macOS pour respirer tout en restant très pertinent.

💡 Conseil de pro : Utiliser un petit modèle demande de réapprendre à prompter. Les IA du Cloud "lisent entre les lignes" et devinent vos intentions vagues. En local avec un 4B, cette magie n'existe pas. Il faut redevenir un artisan du prompt : précis, concis et structuré.

📥 UPDATE : La surprise du lendemain (Le test du modèle 9B)

Juste au moment où je pensais m'arrêter sur le 4B, j'ai tenté un démarrage à froid ce matin avec Qwen 3.5 9B. Avec une RAM "propre" (pas de Docker, pas 50 onglets Chrome), la différence était flagrante : des réponses en moins de 10 secondes.

Le 9B semble être le vrai "Sweet Spot Pro" pour une machine de 32 Go (avec 20Go déjà occupés) :

Le calcul RAM : Lors de mon test, le modèle 9B occupe exactement 7,80 Go. Sur un Mac de 32 Go, c'est parfaitement gérable si votre système n'est pas déjà saturé.
L'expérience : On a l'impression d'avoir le Copilot d'il y a quelques années. Il ne va pas encore refactoriser toute votre structure de fichiers tout seul, mais la logique est aiguisée et les blocs de code sont réellement prêts pour la prod.
Le revers de la médaille : Cela demande une certaine discipline. On ne peut pas faire tourner un gros stack de dev et un modèle 9B simultanément sur 32 Go sans que ça commence à chauffer.

Conclusion ? Le 4B est votre "filet de sécurité" pour le multitâche intensif, mais le 9B est votre compagnon de "Deep Work" quand vous pouvez lui donner l'espace nécessaire pour respirer.

6. L'outil indispensable : Can I Run AI

Une découverte qui sauve la vie : canirun.ai. Ce site simule la consommation de RAM d'un modèle en fonction de votre matériel avant même de le télécharger. C'est un passage obligé avant chaque ollama pull.

🦀 L'étape d'après : L'IA "Agentic" (OpenClaw)

Pendant que je rédigeais ce retour d'expérience, j'ai poussé la réflexion jusqu'aux agents autonomes comme OpenClaw, qui promettent d'automatiser vos tâches (mails, calendrier, scripts) directement depuis votre terminal. Mais attention : ici, la "coquille" est vide et le dilemme de la RAM se corse.

Le paradoxe de la vie privée : Jusqu'ici, j'acceptais d'utiliser le Cloud pour des requêtes isolées. Mais donner un accès complet à mon système à un agent distant ? À l'heure où GitHub Copilot annonce utiliser par défaut vos prompts et contextes pour entraîner ses modèles, l'ironie est totale. Confier l'intégralité de son contexte local à un tiers pour gagner dix minutes par jour devient un pari... audacieux.
Le prix de la liberté : L'alternative est d'injecter une IA locale dans l'agent. Mais faire cohabiter l'infrastructure de l'agent + le modèle 9B + votre IDE sur 32 Go de RAM relève de l'exercice d'équilibriste. C'est le prix de la propriété de son code.

🏁 Verdict : L'avenir est-il hybride ?

J'ai réussi à faire coder un composant React complexe par mon petit modèle 9B. C'était fluide, propre et 100% privé. Mais soyons honnêtes un instant :

Si vous avez été bluffés par la vitesse et la capacité de "lecture de pensée" de Claude Sonnet ou Gemini Pro, faire tourner une IA locale sur 32 Go de RAM donne encore un petit sentiment... de retour en arrière.

Intelligence : Un 9B local est un super stagiaire. Claude reste l'Architecte Senior.
Vitesse & Confort : La friction de la gestion de la RAM et les prompts qui doivent être plus "mâchés" font que l'expérience Cloud reste imbattable pour la productivité pure.

Pour pousser le trait : Parfois, je me surprends même à douter de la réponse de l'IA locale. J'ai presque envie de demander à Claude de vérifier la réponse de Qwen pour être sûr 🙃.

Est-ce que je vais continuer à utiliser mon Qwen 3.5 en local ? Oui, mais surtout par curiosité, pour repousser ses limites et voir ce qu'il a dans le ventre. Mais pour mon travail de développement quotidien intensif ? Le confort, la vitesse et la pure intelligence d'une IA Cloud reste imbattable.

📥 Mise à jour depuis le succès du 9B
Est-ce que je vais continuer à utiliser mon Qwen 3.5 en local ? Absolument. Depuis que j'ai vu à quel point le modèle 9B tourne bien, je suis bien plus tenté de l'utiliser pour les tâches routinières du quotidien. C'est parfait pour des checks de logique rapides ou du code boilerplate. Cependant, pour les sessions de "Gros Dev" qui demandent un raisonnement profond et une vision architecturale massive, je repasserai sur le Cloud.

En 2026, la RAM est la nouvelle puissance CPU. Tant que je n'aurai pas 128 Go de mémoire unifiée sur mon bureau, les modèles massifs du Cloud restent indétrônables.

Et vous ? C’est quoi votre "Sweet Spot" ? Vous jouez la carte du local pour la vie privée, ou le Cloud reste votre seul co-pilote ?

DEV Community