LEXIQUE IA PROMPT LAB
La mémoire vive de l’IA : Comprendre la fenêtre de contexte
Définition express
La fenêtre de contexte est la limite maximale de texte (mesurée en tokens) qu’un modèle d’IA peut prendre en compte à un instant T. Elle englobe à la fois le prompt de l’utilisateur, l’historique de la conversation et la réponse en cours de génération.
Points clés
- Se mesure en tokens (ex: 8k, 32k, 128k, 1M).
- Inclut les entrées (input) et les sorties (output).
- Une fenêtre saturée entraîne l’oubli des informations les plus anciennes.
- Une grande fenêtre permet d’analyser des documents entiers sans techniques externes.
Le point différenciant
Contrairement à la base de connaissances du modèle (acquise lors de l’entraînement), la fenêtre de contexte est une mémoire temporaire et immédiate, comparable à la RAM d’un ordinateur, qui s’efface à chaque nouvelle session.
En résumé
Imaginez la fenêtre de contexte comme le bureau de travail de l’IA. C’est l’espace disponible pour étaler des documents et les lire simultanément. Si la fenêtre est petite, l’IA ne peut lire qu’une page à la fois et oublie le début du livre quand elle arrive à la fin. Si la fenêtre est grande, elle peut ‘voir’ un livre entier d’un coup pour répondre à vos questions en tenant compte de tous les détails.
Pourquoi c’est important ?
Il est crucial de ne pas confondre la fenêtre de contexte avec l’apprentissage du modèle (Fine-tuning ou Pre-training). L’apprentissage constitue la ‘culture générale’ de l’IA, figée dans ses paramètres. La fenêtre de contexte, elle, est sa ‘mémoire de travail’ dynamique. C’est ce qui permet à l’IA de traiter des données qu’elle n’a jamais vues auparavant (vos documents privés, un code spécifique) en temps réel. Si l’apprentissage est le disque dur, la fenêtre de contexte est la mémoire vive (RAM).
Détails & Concepts liés
Aspect Technique : Tokens et mécanisme d’attention
Techniquement, la fenêtre de contexte est la longueur de la séquence sur laquelle le mécanisme d’attention (Self-Attention) du Transformer peut opérer. Le coût de calcul augmentait traditionnellement de façon quadratique avec la longueur du contexte, ce qui limitait les anciens modèles (GPT-3 à 2k/4k tokens). Les nouvelles architectures optimisées (ex: Ring Attention, RoPE) permettent aujourd’hui des fenêtres de 128k à plusieurs millions de tokens (comme Gemini 1.5 Pro).
Gestion du budget Input / Output
La taille annoncée (ex: 128k tokens pour GPT-4 Turbo) est un plafond global partagé. Si vous fournissez 120k tokens de documents en entrée (Input), il ne reste que 8k tokens pour la réponse de l’IA (Output) et l’historique de chat. Une mauvaise gestion de ce ratio peut couper la réponse de l’IA en plein milieu.
Le phénomène ‘Lost in the Middle’
Avoir une grande fenêtre ne suffit pas ; l’IA doit savoir l’utiliser. Les chercheurs ont identifié que certains modèles sont très performants pour retrouver une info au début ou à la fin du contexte, mais ont tendance à ‘halluciner’ ou oublier les informations situées au milieu d’un très long prompt. C’est un critère clé pour évaluer la qualité d’un modèle ‘Long Context’.
Cas d’usage concrets
- ✓
Analyse complète de documents juridiques ou financiers (upload de PDF de 500 pages).
- ✓
Développement informatique : prise en compte de l’ensemble d’un projet de code pour le débogage.
- ✓
Maintien de la cohérence dans les jeux de rôle (RPG) ou les conversations très longues.
- ✓
Synthèse croisée de multiples articles ou rapports sans perte d’information.
- ✓
Traduction de livres entiers en conservant le style et le contexte narratif.
Méthode & Prompting
À éviter
Copier-coller un livre entier dans un modèle à petite fenêtre (ex: GPT-3.5) et s’attendre à ce qu’il se souvienne du début, ou saturer la fenêtre avec des données inutiles qui diluent l’attention du modèle.
Bon usage
Optimiser le contexte en ne fournissant que les sections pertinentes, ou utiliser un modèle ‘Large Context’ (Claude 3, GPT-4 Turbo) pour les gros documents. Nettoyer l’historique de chat obsolète.
Impact & Rentabilité
Limites & Points d’attention
Le coût (les tokens en entrée coûtent cher sur les gros modèles), la latence (traiter 1 million de tokens prend du temps), et la précision (risque de dilution de l’information ou ‘Lost in the Middle’). Parfois, une architecture RAG (Retrieval Augmented Generation) est plus efficace qu’une fenêtre immense.
L’essentiel à retenir
- La fenêtre de contexte est la ‘mémoire vive’ temporaire de l’IA.
- Elle se mesure en tokens (1000 tokens ≈ 750 mots).
- Une fenêtre saturée provoque l’oubli des premières informations de la conversation.
- Les modèles ‘Long Context’ réduisent le besoin de découpage complexe des données.
- Attention au coût et à la latence avec les très grandes fenêtres.
Questions Fréquentes
PROMPT-LAB.FR
Comprendre • Prompter • Accélérer