LEXIQUE IA PROMPT LAB
Les tokens : comprendre l’unité de mesure fondamentale des LLM
Définition express
Un token est la plus petite unité de texte (mot, partie de mot, caractère ou ponctuation) qu’un modèle de langage peut traiter et interpréter.
Points clés
- 1000 tokens équivalent environ à 750 mots en anglais (ratio variable selon la langue).
- Le coût des API et la limite de mémoire (fenêtre de contexte) se calculent en tokens.
- L’IA ne lit pas de texte brut, mais une suite de nombres représentant ces tokens.
Le point différenciant
Contrairement à un mot entier, un token est une unité variable : un mot courant peut être un seul token, tandis qu’un mot complexe peut en être découpé en plusieurs.
En résumé
Imaginez un token comme une brique LEGO de langage. Pour comprendre et générer du texte, l’intelligence artificielle décompose les phrases en petits morceaux appelés tokens. Parfois, une brique représente un mot entier (comme ‘chat’), parfois seulement une syllabe (comme ‘in-‘ dans ‘indispensable’), et parfois juste un espace ou une virgule. C’est cette suite de briques que l’IA analyse pour prédire la suivante.
Pourquoi c’est important ?
La confusion la plus fréquente est d’assimiler ‘token’ à ‘mot’. Si c’est souvent vrai pour des mots courts et fréquents en anglais (ex: ‘apple’ = 1 token), ce n’est pas le cas pour des mots longs ou dans d’autres langues. L’algorithme de ‘tokenisation’ découpe le texte pour optimiser le traitement. Par exemple, le mot ‘anticonstitutionnellement’ sera fragmenté en plusieurs tokens. Cette nuance est cruciale car la facturation des modèles (comme GPT-4) et leur capacité de mémoire (fenêtre de contexte) sont basées sur le nombre de tokens, et non sur le nombre de mots ou de caractères.
Détails & Concepts liés
Fonctionnement technique : De la lettre au chiffre
Avant qu’un LLM ne ‘voie’ votre texte, un processus appelé ‘tokenisation’ (souvent via l’algorithme BPE – Byte Pair Encoding) convertit le texte en une suite d’entiers numériques. Chaque token correspond à un numéro unique dans le vocabulaire du modèle. L’IA traite ensuite ces nombres via des vecteurs (embeddings) pour comprendre les relations sémantiques entre eux.
Fenêtre de contexte et mémoire
Chaque modèle possède une limite stricte de tokens qu’il peut traiter en une seule fois (entrée + sortie), appelée ‘fenêtre de contexte’ (ex: 128k pour GPT-4 Turbo). Si votre conversation dépasse ce nombre, l’IA ‘oublie’ le début de l’échange. Gérer son budget de tokens est donc essentiel pour les tâches nécessitant beaucoup de contexte.
Disparités linguistiques
La tokenisation est souvent optimisée pour l’anglais. Une phrase en français ou en allemand consommera généralement plus de tokens que sa traduction anglaise pour dire la même chose, car les mots sont découpés plus finement. Cela rend l’utilisation de l’IA légèrement plus coûteuse et plus lente pour les langues autres que l’anglais.
Cas d’usage concrets
- ✓
Estimation des coûts d’utilisation des API (OpenAI, Anthropic, Mistral) pour les développeurs.
- ✓
Optimisation des prompts pour s’assurer que les instructions clés restent dans la mémoire active du modèle.
- ✓
Contrôle de la longueur des réponses générées (paramètre ‘max_tokens’).
- ✓
Découpage intelligent de longs documents (chunking) pour l’analyse ou le RAG (Retrieval Augmented Generation).
Méthode & Prompting
À éviter
Envoyer des textes bruts massifs (logs, code entier) sans vérifier s’ils dépassent la limite de tokens, entraînant une troncature ou une erreur.
Bon usage
Utiliser un ‘Tokenizer’ (outil de comptage) pour estimer le volume avant l’envoi et résumer les parties non essentielles de la conversation.
Impact & Rentabilité
Limites & Points d’attention
La limite principale est la fenêtre de contexte finie : aucun modèle actuel ne possède une mémoire infinie. De plus, le coût au token peut s’accumuler rapidement sur des volumes massifs. Enfin, une mauvaise tokenisation peut parfois empêcher le modèle de comprendre des jeux de mots ou des structures grammaticales très spécifiques.
L’essentiel à retenir
- Un token n’est pas égal à un mot (ratio ~0,75 mot/token).
- C’est l’unité de facturation et de limitation technique des LLM.
- L’anglais est la langue la plus ‘économique’ en tokens.
- Les outils de ‘Tokenizers’ sont indispensables pour calibrer ses prompts.
Questions Fréquentes
PROMPT-LAB.FR
Comprendre • Prompter • Accélérer