Dans le monde de l'intelligence artificielle générative, tout est question de tokens. Que vous utilisiez GPT-4, Claude, ou Llama, comprendre comment les tokens fonctionnent est essentiel pour optimiser vos interactions.
Dans cet article nous allons explorer les bases : qu'est-ce qu'un token, pourquoi les LLM les utilisent, et pourquoi cela compte pour vous.
Table des Matières
- Qu'est-ce qu'un Token ?
- Pourquoi les Tokens et Pas les Mots ?
- Pourquoi les Tokens Importent
- Ratios utiles à Retenir
- Tester vos Premiers Prompts
- Ce que Vous Savez Maintenant
Qu'est-ce qu'un Token ?
Un token n'est pas exactement un mot. C'est une unité de texte qui peut être :
-
Un mot complet :
intelligence→ 1 token -
Une partie de mot :
artificielle→artifici+elle→ 2 tokens -
Un caractère ou espace :
IA→ 2 tokens (espace + IA)
Les modèles utilisent des tokenizers pour découper le texte. Nous verrons comment ils fonctionnent dans l'article suivant.
Pourquoi les Tokens et Pas les Mots ?
Caractères vs Mots vs Tokens : Le Match
| Caractères | Mots | Tokens | |
|---|---|---|---|
| Taille du vocabulaire | ~100 (fr) à ~10k (zh) | ~60k (fr) à ~170k (en) | ~100k (modèles actuels) |
|
Flexibilité Gère les inconnus |
✅ Oui | ❌ Non | ✅ Oui |
|
Efficacité Longueur séquences |
❌ Très long | ✅ Court | ⚡ Optimal |
|
Sémantique Capture le sens |
❌ Aucun | ✅ Complet | ✅ Morceaux |
| Verdict | ❌ Trop simple | ❌ Trop rigide | ✅ OPTIMAL |
Notes :
- La taille du vocabulaire dépend de la langue (caractères/mots) et du corpus d'entraînement (tokens)
- Efficacité : Les mots courts = 1 token, les mots inconnus sont découpés (ex: "crypto123" → 2-3 tokens au lieu d'erreur)
- Sémantique : Les tokens captent des morceaux de sens réutilisables ("artifici" dans "artificiel", "artificielle")
En résumé : Les tokens sont le juste milieu entre la flexibilité des caractères et la richesse sémantique des mots.
Pourquoi les Tokens Importent
1. Coûts de l'API
La formule :
Coût = (tokens_input × prix_input + tokens_output × prix_output) / 1 000 000
Exemple concret : Un prompt de 500 tokens avec une réponse de 1000 tokens en GPT-4o.
┌──────────────────────────────────────────────────┐
│ INPUT (votre prompt) │
│ 500 tokens × 2,50 $ / 1 000 000 = 0,00125 $ │
├──────────────────────────────────────────────────┤
│ OUTPUT (réponse de l'IA) │
│ 1000 tokens × 10,00 $ / 1 000 000 = 0,01000 $ │
├──────────────────────────────────────────────────┤
│ TOTAL = 0,00125 + 0,01000 = 0,01125 $ │
│ soit environ 1,1 centime │
└──────────────────────────────────────────────────┘
Règle pratique pour GPT-4o :
- 1 000 tokens en input → ~0,25 centime
- 1 000 tokens en output → ~1 centime
2. Limites de Contexte
Chaque modèle a une fenêtre de contexte maximale :
- GPT-4o : 128 000 tokens
- Claude 3.5 Sonnet : 200 000 tokens
- Llama 3.1 405B : 128 000 tokens
Dépasser cette limite = troncation ou erreur.
3. Qualité des Réponses
Plus votre prompt est optimisé en tokens, plus le modèle se concentre sur l'essentiel.
4. Impact sur la Vitesse
Les modèles génèrent token par token, c'est pourquoi :
- Réponse courte = instantanée
- Réponse longue = temps réel progressif
- 100 tokens output ≈ 3-5 secondes (selon modèle)
Ratios utiles à Retenir
┌─────────────────────────────────────────────────────┐
│ TOKENS - RATIO │
├─────────────────────────────────────────────────────┤
│ 📏 1 token ≈ 4 caractères (anglais) │
│ 📏 1 token ≈ 3 caractères (français) │
│ 📊 100 tokens ≈ 75 mots │
│ 📄 1 500 tokens ≈ 1 page A4 │
│ ⏱️ 1 token = 10-15ms de génération │
├─────────────────────────────────────────────────────┤
│ 💰 $0.0025 / 1k tokens (GPT-4o input) │
│ 💰 $0.0100 / 1k tokens (GPT-4o output) │
└─────────────────────────────────────────────────────┘
Tester vos Premiers Prompts
Avant de passer à la suite, testez par vous-même :
- OpenAI Tokenizer - Visualisez comment GPT découpe votre texte
- Écrivez des phrases en français et en anglais pour comparer le nombre de tokens
Ce que Vous Savez Maintenant
✅ Fondamentaux
- Qu'est-ce qu'un token vs mot vs caractère
- Pourquoi les tokens existent (compromis optimal)
✅ Impact Concret
- Coûts API et comment ils sont calculés
- Fenêtres de contexte et leurs limites
- Impact sur la vitesse (génération token par token)
Top comments (0)