Arrêtez de tout miser sur le dernier LLM Cloud : Le secret d'une IA en production, c'est le routage hybride

#french #ai #architecture #typescript

Toute la sphère tech est actuellement suspendue aux lèvres d'Anthropic depuis la sortie de Claude Fable 5. Entre son interdiction temporaire hors Amérique du Nord pour des questions géopolitiques et les promesses de ses capacités "Mythos-class" pour le raisonnement complexe, la machine à hype tourne à plein régime.

Et je mentirais si je disais que je ne suis pas le premier curieux à vouloir tester ses capacités agentiques. La première réaction d'un développeur est souvent de mettre à jour sa clé API pour voir si son application devient soudainement "magique".

Mais prenons un peu de recul. Après plusieurs mois à architecturer des systèmes IA complexes, un constat froid s'impose : avons-nous systématiquement besoin du dernier LLM à la mode pour toutes nos tâches ?

Courir après le modèle le plus puissant (et donc payer toujours plus cher) est une aberration architecturale. Brancher Fable 5 (ou un modèle type o1) sur toutes les fonctions de votre application B2B, c'est comme utiliser une Ferrari pour aller acheter une baguette au bout de la rue. Ça marche, mais ça coûte une fortune, et surtout : la latence est absurde. Les LLM récents intègrent des processus de "Thinking" (réflexion interne) qui rajoutent des secondes de délai avant même d'afficher le premier token. Pour une simple tâche de formatage JSON, c'est désastreux pour l'expérience utilisateur. Enfin, vous laissez la Ferrari sur un parking public (la sécurité des données).

La vraie différence entre une "démo Twitter" et un SaaS B2B viable ne réside pas dans le LLM utilisé. Elle réside dans l'architecture. Et la clé de cette architecture, c'est le routage hybride.

L'anatomie d'une application IA réelle

Quand on décortique les logs d'une application IA métier, on se rend compte que 80% des tâches ne nécessitent pas un doctorat en logique quantique.

Vos utilisateurs ont besoin de :

Génération de code complexe ou raisonnement profond. (Ex: Résoudre un bug React).
Formatage strict et extraction rapide. (Ex: Prendre un texte brut et sortir un JSON parfait avec des dates).
Traitement de données sensibles. (Ex: Analyser des fiches de paie ou des dossiers médicaux).

Si vous envoyez ces trois tâches à la même API Cloud, vous payez le prix maximum, vous subissez une latence réseau pour des tâches triviales, et votre DSI (ou votre client) fait un arrêt cardiaque en voyant des données privées partir sur des serveurs américains.

Le Routeur Souverain (Hybridation Cloud / Local)

La solution technique n'est pas de boycotter le Cloud, ni d'idéaliser le Local. La solution est de construire un "Routeur" qui assigne le bon cerveau au bon problème.

Tiers 1 (L'Intelligence Brute) : Pour le raisonnement profond, on route vers le Cloud (Anthropic, OpenAI). C'est cher, mais justifié.
Tiers 2 (La Structure et la Vitesse) : Pour extraire des données ou formater du JSON, on route vers des modèles spécialisés dits "Function Models" (ex: FunctionGemma ou Hermes). Ils ne discutent pas, ils formatent de la donnée pure. Coût divisé par 10, latence divisée par 5.
Tiers 3 (La Souveraineté totale) : Pour les données sensibles (RGPD), on coupe le réseau. On route la requête vers une instance locale via Ollama (ou WebLLM directement dans le navigateur). Zéro coût d'API, vie privée garantie.

Implémentation en TypeScript avec le Vercel AI SDK

Construire ce type de routeur en TypeScript est devenu extrêmement simple grâce à des outils comme le Vercel AI SDK. Au lieu de jongler avec 15 SDKs différents, on crée une couche d'abstraction.

Voici à quoi ressemble le cœur d'un routeur hybride en TypeScript :

import { generateText } from 'ai';
import { createAnthropic } from '@ai-sdk/anthropic';
import { createOpenAI } from '@ai-sdk/openai';

// Initialisation de nos différents "cerveaux"
const anthropic = createAnthropic({ apiKey: process.env.ANTHROPIC_API_KEY });
// Astuce SOTA : On utilise le provider OpenAI pour cibler l'API locale d'Ollama
const ollama = createOpenAI({ baseURL: 'http://127.0.0.1:11434/v1', apiKey: 'ollama' });

// Fonction de routage dynamique
async function processUserTask(task: string, requiresHighLogic: boolean, isSensitiveData: boolean) {

  // Le Routeur décide du modèle
  let selectedModel;

  if (isSensitiveData) {
    console.log("🔒 Routage Local (RGPD) : Llama 3.2 via Ollama");
    selectedModel = ollama('llama3.2');
  } else if (requiresHighLogic) {
    console.log("🧠 Routage Cloud (Deep Logic) : Claude 5 Fable");
    selectedModel = anthropic('claude-fable-5');
  } else {
    // Si la tâche est banale, on pourrait utiliser un modèle Cloud très rapide (Haiku ou Groq)
    console.log("⚡ Routage Cloud (Rapide/Éco) : Claude 4.5 Haiku");
    selectedModel = anthropic('claude-haiku-4-5'); 
  }

  // Exécution agnostique via le AI SDK
  const { text } = await generateText({
    model: selectedModel,
    prompt: task,
  });

  return text;
}

Ce snippet de code est trivial, mais son impact en production est massif. Vous reprenez le contrôle de votre infrastructure. Le jour où Anthropic tombe en panne, ou qu'un client exige un mode "Air-gapped" (hors ligne), votre application continue de fonctionner.

La vraie valeur d'un AI Engineer

La révolution n'est plus dans le modèle, elle est dans le pipeline.

Les développeurs qui réussiront la transition vers l'ingénierie IA ne sont pas ceux qui connaissent les meilleurs prompts pour Claude. Ce sont ceux qui comprennent les contraintes de VRAM d'un modèle local, qui savent typer strictement un Function Call avec Zod pour éviter les hallucinations, et qui architecturent des RAG souverains sans dépendre de "boîtes noires" magiques.

C'est exactement cette philosophie "on code le moteur de zéro" que j'enseigne en détail dans la plateforme AI Quest. L'objectif n'est pas d'apprendre à faire un call API basique, mais de construire des systèmes robustes, hybrides et sécurisés. (L'accès au premier module d'architecture hybride est gratuit pour tester la plateforme).

Et vous, comment gérez-vous le routage de vos prompts en production aujourd'hui ? Avez-vous une approche "One Model Fits All" ou avez-vous déjà mis en place du routage hybride basé sur la sensibilité des données ?

Cette série d'articles est directement tirée des architectures que nous construisons dans la plateforme AI Quest. Mon objectif ici est de vous partager gratuitement la logique d'ingénierie derrière ces systèmes, pour vous aider à passer de Développeur Web à AI Engineer.

🍁 Fièrement codé depuis la Beauce (Québec).