Ce guide a été publié initialement sur jaikin.eu.
Votre LLM est brillant, mais il ne connaît rien à votre entreprise. Il peut rédiger un email impeccable, résumer un rapport de 50 pages ou générer du code — mais demandez-lui le chiffre d'affaires du trimestre dernier ou la procédure interne de gestion des réclamations, et il inventera une réponse avec une assurance déconcertante.
Le RAG (Retrieval-Augmented Generation) est la solution. Ce guide pratique vous explique comment connecter l'IA générative à vos données métier, sans buzzwords, avec des architectures concrètes, des comparatifs chiffrés et des budgets réalistes pour les PME et ETI.
1. Pourquoi le LLM seul ne suffit pas
Les grands modèles de langage (LLM) comme GPT-4o, Claude ou Mistral Large sont impressionnants. Ils maîtrisent la syntaxe, le raisonnement logique, la synthèse et même le code. Mais ils partagent trois limites fondamentales qui les rendent insuffisants pour un usage métier sérieux.
Le problème des hallucinations
Les LLM ne « savent » rien au sens strict. Ils prédisent le prochain token en fonction de probabilités statistiques. Quand ils ne disposent pas de l'information, ils ne disent pas « je ne sais pas » — ils inventent une réponse plausible. C'est ce qu'on appelle une hallucination.
Les études récentes chiffrent ce phénomène entre 15 et 25 % des réponses factuelles sans contexte spécifique (Huang et al., « A Survey on Hallucination in Large Language Models », 2024). Pour une PME, cela signifie qu'un assistant IA non supervisé peut fournir des informations erronées à vos clients, citer des clauses contractuelles inexistantes ou inventer des spécifications produit.
Exemple concret — Un cabinet comptable utilise un LLM pour répondre aux questions fiscales de ses clients. Sans accès aux textes de loi à jour, le modèle cite un article du CGI qui a été abrogé depuis 2024. Le client suit ce conseil, et le cabinet engage sa responsabilité professionnelle.
Des données figées dans le temps
Chaque LLM a une date de coupure (cutoff) au-delà de laquelle il ne connaît plus rien. Pour une entreprise, cela signifie que le modèle ignore vos derniers contrats, vos tarifs mis à jour la semaine dernière, vos nouvelles procédures internes ou les réglementations entrées en vigueur récemment.
Zéro accès à vos données propriétaires
C'est la limite la plus évidente et la plus critique. Un LLM générique n'a jamais vu votre wiki interne, vos contrats clients, votre base de connaissances produit, vos rapports financiers ou vos process qualité. Il travaille à partir de connaissances générales extraites d'Internet — pas de votre réalité opérationnelle.
La conclusion est limpide : pour un usage professionnel fiable, le LLM a besoin d'être connecté à vos données. C'est exactement ce que fait le RAG.
2. Qu'est-ce que le RAG ?
RAG signifie Retrieval-Augmented Generation — « génération augmentée par la récupération d'informations ». Le concept a été formalisé par Lewis et al. chez Meta AI en 2020 dans leur article fondateur Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, et il est devenu depuis le standard de facto pour connecter les LLM aux données d'entreprise.
Le principe en une analogie
Imaginez que vous posez une question complexe à un consultant expert. Sans RAG, le consultant répond uniquement de mémoire — il peut se tromper, oublier des détails ou inventer. Avec RAG, vous lui donnez un dossier de référence avant de poser la question. Il consulte les documents pertinents, puis formule sa réponse en s'appuyant sur des sources concrètes.
Le flux RAG en 5 étapes
- Question utilisateur (Query) — l'utilisateur pose une question en langage naturel. Exemple : « Quel est le délai de livraison pour les commandes supérieures à 10 000 € ? »
- Embedding de la question — la question est convertie en un vecteur numérique qui capture son sens sémantique, pas seulement ses mots-clés.
- Recherche vectorielle — le système compare ce vecteur avec tous les chunks de documents pré-indexés et récupère les 3 à 10 passages les plus proches sémantiquement.
- Injection de contexte — les passages récupérés sont injectés dans le prompt du LLM avec l'instruction : « Réponds à la question en te basant uniquement sur les documents suivants. »
- Génération augmentée — le LLM génère sa réponse en s'appuyant sur le contexte fourni, avec citation des sources. Le taux d'hallucination chute de 15-25 % à 2-5 % (Gao et al., 2024).
RAG vs fine-tuning : ne pas confondre
Le fine-tuning consiste à ré-entraîner un modèle sur vos données pour modifier ses « connaissances » internes. Le RAG ne modifie pas le modèle : il lui fournit des documents externes à chaque requête. Pour la majorité des cas d'usage PME, le RAG est la meilleure approche : moins coûteux, plus rapide à déployer, et les données se mettent à jour instantanément sans ré-entraînement.
| Critère | RAG | Fine-tuning |
|---|---|---|
| Mise à jour des données | Instantanée (ajout de documents) | Ré-entraînement nécessaire (heures/jours) |
| Coût initial | 5-15 k€ (PoC) | 20-100 k€ (dataset + entraînement) |
| Traçabilité des sources | Oui (citation des documents) | Non (connaissances « fondues » dans le modèle) |
| Risque d'hallucination | Faible (2-5 % avec re-ranking) | Moyen (10-15 % hors dataset) |
| Idéal pour | Q&A, documentation, support | Style de marque, jargon spécifique |
3. Architecture RAG détaillée
Un pipeline RAG performant repose sur quatre étapes critiques, chacune avec ses choix techniques et ses pièges.
Étape 1 : chunking — découper vos documents
Vos documents (PDF, Word, pages web, emails, tickets) doivent être découpés en segments (chunks) suffisamment petits pour être pertinents, mais suffisamment grands pour conserver le contexte.
Tailles recommandées : 256-512 tokens pour du Q&A factuel ; 512-1024 tokens pour du contenu narratif (rapports, contrats) ; 1024-2048 tokens pour du contenu technique dense. Prévoyez un overlap de 10-20 %, préférez le chunking sémantique (par paragraphe ou section) au chunking à taille fixe, et conservez les titres de section dans chaque chunk.
Étape 2 : embedding — transformer le texte en vecteurs
Chaque chunk est converti en un vecteur de 768 à 3072 dimensions qui capture le sens sémantique du texte, pas ses mots-clés.
| Modèle d'embedding | Dimensions | Prix | Idéal pour |
|---|---|---|---|
| OpenAI text-embedding-3-large | 3072 | 0,13 $/M tokens | Précision maximale, multilingue |
| OpenAI text-embedding-3-small | 1536 | 0,02 $/M tokens | Bon rapport qualité/prix |
| Cohere embed-v3 | 1024 | 0,10 $/M tokens | Multilingue, re-ranking intégré |
| Sentence-Transformers (open source) | 768-1024 | Gratuit (self-hosted) | Souveraineté des données |
| Voyage AI voyage-large-2 | 1536 | 0,12 $/M tokens | Code + texte technique |
Pour la majorité des PME francophones, text-embedding-3-small offre le meilleur compromis : l'embedding de 100 000 pages coûte moins de 5 €. Si la souveraineté des données est critique, optez pour un modèle open source hébergé en France.
Étape 3 : vector store — stocker et indexer
Les vecteurs sont stockés dans une base vectorielle spécialisée permettant une recherche par similarité à haute vitesse (voir comparatif ci-dessous).
Étape 4 : retrieval + génération
Le système recherche les chunks les plus pertinents (top-k, généralement 3 à 10), les reclasse via un re-ranker (optionnel mais fortement recommandé : +15 à 30 % de précision selon Cohere, 2025), puis construit un prompt structuré qui impose au LLM de répondre uniquement à partir des documents fournis — et de dire explicitement quand l'information n'y figure pas.
4. Comparatif des vector stores
| Solution | Type | Prix (entrée) | Points forts | Limites |
|---|---|---|---|---|
| Pinecone | Managed (cloud) | Gratuit puis 70 $/mois | Zéro infra, scalabilité auto | Vendor lock-in, US only |
| Weaviate | Open source + managed | Gratuit ou 25 $/mois | Recherche hybride native | Complexe à auto-héberger |
| pgvector (PostgreSQL) | Extension PostgreSQL | Gratuit | Zéro infra en plus, SQL standard, ACID | Performance moindre > 1 M vecteurs |
| Chroma | Open source (Python) | Gratuit | Ultra-simple, idéal PoC | Pas adapté à la prod à grande échelle |
| Qdrant | Open source (Rust) + managed | Gratuit ou 25 $/mois | Très performant, filtrage avancé | Écosystème plus petit |
Pour les PME qui utilisent déjà PostgreSQL, pgvector est souvent le meilleur choix : zéro infrastructure supplémentaire et des performances largement suffisantes sous 500 000 documents. Pour les projets plus ambitieux, Qdrant offre le meilleur rapport performance/coût.
Recherche hybride : la recherche vectorielle excelle sur le sens mais peut rater les correspondances exactes (noms propres, codes produit). Combiner vectoriel + BM25 améliore le recall de 10 à 25 % (benchmarks Weaviate, 2025).
5. Cinq cas d'usage PME concrets
Base de connaissances interne — une ESN de 120 personnes, 800+ pages dispersées entre Confluence, Drive et PDF. Chatbot Slack branché en RAG : onboarding réduit de 3 mois à 5 semaines, -70 % de questions répétitives aux seniors.
FAQ dynamique support client — un e-commerçant à 400+ tickets/jour dont 65 % déjà documentés. Assistant RAG en façade du support avec escalade humaine sous 85 % de confiance : 58 % des tickets résolus automatiquement, réponse moyenne en 12 secondes (contre 4 h).
Analyse de contrats — un cabinet juridique, 200+ contrats/mois. RAG sur 5 000+ contrats passés et la jurisprudence : temps de revue réduit de 60 %, ROI en 6 semaines.
Assistant commercial — un distributeur B2B, 3 000+ références réparties dans 4 outils. Agent mobile branché au catalogue et à l'historique client : +22 % de temps commercial effectif, +15 % de conversion.
Support technique in-app — un éditeur SaaS, documentation de 1 200 pages que personne ne trouve. Widget d'aide RAG : -45 % de tickets L1, temps de résolution divisé par 3 sur les cas escaladés.
6. Six erreurs courantes à éviter
- Chunks trop grands ou trop petits — testez 256/512/1024 tokens sur un jeu de 50+ questions réelles annotées ; le chunking sémantique gagne systématiquement.
- Pas de re-ranking — récupérez top-20, re-rankez (Cohere Rerank, cross-encoder), gardez top-5. Coût marginal, impact massif.
- Ignorer les métadonnées — sans date/version/auteur, votre RAG ressort la politique de télétravail de 2022 au lieu de celle de 2026. Filtrez par métadonnées avant la similarité.
- Pas d'évaluation systématique — utilisez un framework comme RAGAS avec 100+ questions de test ; « on a testé 5 questions à la main » n'est pas une évaluation.
- Négliger la qualité des données source — garbage in, garbage out, avec la crédibilité ajoutée d'une réponse IA. Auditez et nettoyez avant d'indexer.
- Sous-estimer le prompt système — c'est lui qui décide si le modèle cite ses sources et admet qu'il ne sait pas. Itérez dessus aussi rigoureusement que sur le code.
7. Budget et timeline
Un système RAG en production pour une PME coûte entre 100 et 1 000 €/mois en coûts récurrents : API LLM (50-500 €), embeddings (5-50 €), vector store (0-200 € — 0 € avec pgvector sur votre PostgreSQL existant), re-ranking (10-100 €) et infrastructure (50-300 €). Le ROI est généralement atteint en 3 à 6 mois.
Le poste le plus sous-estimé : le nettoyage et la structuration des données source, qui peut représenter 30 à 50 % du budget total si votre documentation est dispersée et truffée de doublons. C'est un investissement qui bénéficie à toute l'entreprise, bien au-delà du RAG.
8. Questions fréquentes
RAG ou fine-tuning ? Pour 90 % des cas d'usage PME, le RAG : moins cher, plus rapide, données à jour instantanément, sources traçables. Le fine-tuning se justifie pour un style de marque ou un jargon très spécifique.
Ça marche en français ? Parfaitement — les embeddings modernes sont multilingues, à condition de tester spécifiquement sur du contenu français.
Combien de documents minimum ? Utile dès 50-100 documents ; les systèmes que nous déployons indexent de 500 à 50 000 documents.
Compatible RGPD ? Oui : vector store hébergé en UE, API LLM avec DPA signé, anonymisation avant indexation. L'architecture RAG est intrinsèquement plus compatible RGPD que le fine-tuning car les données restent séparées du modèle.
Quelle précision ? 90 à 95 % de précision factuelle pour un RAG bien configuré (chunking optimisé + re-ranking + prompt soigné), contre 75-85 % pour un LLM seul (mesures RAGAS, Es et al., 2024).
Sources
- Lewis, P. et al., Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, Meta AI / NeurIPS, 2020
- Huang, L. et al., A Survey on Hallucination in Large Language Models, arXiv:2311.05232, 2024
- Gao, Y. et al., Retrieval-Augmented Generation for Large Language Models: A Survey, arXiv:2312.10997, 2024
- Es, S. et al., RAGAS: Automated Evaluation of Retrieval Augmented Generation, arXiv:2309.15217, 2024
- Cohere, Rerank 3.5 Benchmarks, 2025 · Weaviate, Hybrid Search Benchmarks, 2025
- CNIL, Recommandations sur l'utilisation de l'IA générative en entreprise, septembre 2025
Victor Glesskrumhorn est le fondateur de Jaikin, cabinet de conseil en IA, data et automatisation pour PME et ETI (Strasbourg). Version originale et complète de ce guide : jaikin.eu/blog/rag-entreprise-guide-pratique.
Top comments (0)