LEXIQUE IA PROMPT LAB
Maîtriser la fenêtre de contexte : La mémoire vive de l’IA
Définition express
Le contexte correspond à l’ensemble des informations (instructions, historique de conversation, documents fournis) que le modèle ‘voit’ et prend en compte au moment de générer une réponse.
Points clés
- Se mesure en ‘tokens’ (fenêtre de contexte).
- Agit comme la mémoire vive (RAM) de la session.
- Détermine la capacité à traiter de longs documents.
- Le dépassement du contexte entraîne l’oubli des premières informations.
Le point différenciant
Contrairement aux données d’entraînement (connaissances figées), le contexte est une mémoire temporaire et dynamique propre à chaque conversation.
En résumé
Imaginez le contexte comme le ‘tableau noir’ ou l’espace de travail actuel de l’IA. Tout ce qui est écrit dessus (votre question actuelle, les messages précédents, les fichiers joints) est accessible pour formuler la réponse. Cependant, ce tableau a une taille limitée. Une fois plein, pour ajouter de nouvelles informations, l’IA doit effacer les plus anciennes. C’est ce qu’on appelle la ‘fenêtre de contexte’.
Pourquoi c’est important ?
La confusion la plus fréquente se fait entre le ‘contexte’ et l »apprentissage’. L’apprentissage (pre-training) est le disque dur de l’IA : c’est sa connaissance encyclopédique figée lors de sa création. Le contexte, lui, est sa mémoire vive (RAM) : c’est l’information spécifique que vous lui donnez lors d’une session (un long PDF, un historique de chat). Augmenter le contexte ne rend pas le modèle plus intelligent dans l’absolu, mais cela lui permet de traiter plus de données spécifiques à l’utilisateur en une seule fois.
Détails & Concepts liés
La mécanique des Tokens et de l’Attention
Techniquement, la fenêtre de contexte est la limite maximale de la séquence de tokens (fragments de mots) que le mécanisme d’attention du modèle peut traiter simultanément. Dans une architecture Transformer, chaque token généré ‘regarde’ tous les tokens précédents pour calculer sa probabilité. Une fenêtre de 128k tokens (comme sur GPT-4 Turbo) signifie que le modèle peut analyser environ 300 pages de texte pour produire sa réponse, mais le coût de calcul augmente souvent de manière quadratique ou linéaire selon les optimisations.
Le phénomène ‘Lost in the Middle’
Avoir une immense fenêtre de contexte ne garantit pas une restitution parfaite. Les chercheurs ont identifié le phénomène ‘Lost in the Middle’ : les modèles tendent à être très performants pour retrouver des informations au début et à la fin du contexte, mais peuvent ‘halluciner’ ou oublier des détails situés au milieu de longs documents. L’ingénierie du prompt doit prendre en compte cette courbe en U de l’attention.
Fenêtre glissante et gestion de la mémoire
Dans une conversation continue (chatbot), lorsque la limite de contexte est atteinte, le système utilise généralement une ‘fenêtre glissante’ (sliding window). Il supprime les messages les plus anciens (le début de la conversation) pour faire entrer les nouveaux messages. C’est pourquoi, après un long échange, ChatGPT ou Claude peut oublier votre prénom ou une règle fixée au tout début, sauf si des mécanismes de résumé ou de mémoire à long terme sont ajoutés.
Cas d’usage concrets
- ✓
Analyse de documents longs : Charger un rapport annuel de 100 pages pour en extraire des synthèses sans perdre le fil.
- ✓
Maintien de la cohérence conversationnelle : Permettre au chatbot de se souvenir des instructions données 20 messages plus haut.
- ✓
Coding : Analyser plusieurs fichiers de code simultanément pour comprendre les dépendances entre fonctions.
- ✓
Few-Shot Prompting : Fournir de nombreux exemples de style et de format dans le prompt pour guider la réponse.
Méthode & Prompting
À éviter
Copier-coller un livre entier sans structure en espérant que l’IA retiendra chaque détail, ou continuer une conversation depuis des semaines en s’attendant à ce que le premier message soit encore en mémoire.
Bon usage
Optimiser l’espace en supprimant les politesses inutiles si on approche la limite, répéter les instructions critiques à la fin du prompt (effet de récence), et utiliser le RAG (Retrieval Augmented Generation) pour les bases de connaissances immenses.
Impact & Rentabilité
Limites & Points d’attention
Coût (les tokens en entrée sont payants), latence (plus le contexte est rempli, plus la réponse peut être lente à démarrer), et risque de dilution de l’attention (trop d’informations non pertinentes peuvent embrouiller le modèle).
L’essentiel à retenir
- Le contexte est la mémoire de travail temporaire de l’IA.
- Il est limité en taille (mesurée en tokens) et varie selon les modèles (8k, 32k, 128k, 1M+).
- Une surcharge du contexte peut entraîner des oublis (Lost in the Middle) ou des hallucinations.
- Pour des données dépassant la fenêtre de contexte, il faut utiliser des techniques comme le RAG.
Questions Fréquentes
PROMPT-LAB.FR
Comprendre • Prompter • Accélérer