Qu’est-ce que le contexte dans un modèle de langage (LLM) ?

Lexique & définitions

LEXIQUE IA PROMPT LAB

Concepts fondamentaux

Maîtriser la fenêtre de contexte : La mémoire vive de l’IA

Définition express

Le contexte correspond à l’ensemble des informations (instructions, historique de conversation, documents fournis) que le modèle ‘voit’ et prend en compte au moment de générer une réponse.

Points clés

  • Se mesure en ‘tokens’ (fenêtre de contexte).
  • Agit comme la mémoire vive (RAM) de la session.
  • Détermine la capacité à traiter de longs documents.
  • Le dépassement du contexte entraîne l’oubli des premières informations.

Le point différenciant

Contrairement aux données d’entraînement (connaissances figées), le contexte est une mémoire temporaire et dynamique propre à chaque conversation.

En résumé

Imaginez le contexte comme le ‘tableau noir’ ou l’espace de travail actuel de l’IA. Tout ce qui est écrit dessus (votre question actuelle, les messages précédents, les fichiers joints) est accessible pour formuler la réponse. Cependant, ce tableau a une taille limitée. Une fois plein, pour ajouter de nouvelles informations, l’IA doit effacer les plus anciennes. C’est ce qu’on appelle la ‘fenêtre de contexte’.

Pourquoi c’est important ?

La confusion la plus fréquente se fait entre le ‘contexte’ et l »apprentissage’. L’apprentissage (pre-training) est le disque dur de l’IA : c’est sa connaissance encyclopédique figée lors de sa création. Le contexte, lui, est sa mémoire vive (RAM) : c’est l’information spécifique que vous lui donnez lors d’une session (un long PDF, un historique de chat). Augmenter le contexte ne rend pas le modèle plus intelligent dans l’absolu, mais cela lui permet de traiter plus de données spécifiques à l’utilisateur en une seule fois.

Détails & Concepts liés


La mécanique des Tokens et de l’Attention

Techniquement, la fenêtre de contexte est la limite maximale de la séquence de tokens (fragments de mots) que le mécanisme d’attention du modèle peut traiter simultanément. Dans une architecture Transformer, chaque token généré ‘regarde’ tous les tokens précédents pour calculer sa probabilité. Une fenêtre de 128k tokens (comme sur GPT-4 Turbo) signifie que le modèle peut analyser environ 300 pages de texte pour produire sa réponse, mais le coût de calcul augmente souvent de manière quadratique ou linéaire selon les optimisations.


Le phénomène ‘Lost in the Middle’

Avoir une immense fenêtre de contexte ne garantit pas une restitution parfaite. Les chercheurs ont identifié le phénomène ‘Lost in the Middle’ : les modèles tendent à être très performants pour retrouver des informations au début et à la fin du contexte, mais peuvent ‘halluciner’ ou oublier des détails situés au milieu de longs documents. L’ingénierie du prompt doit prendre en compte cette courbe en U de l’attention.


Fenêtre glissante et gestion de la mémoire

Dans une conversation continue (chatbot), lorsque la limite de contexte est atteinte, le système utilise généralement une ‘fenêtre glissante’ (sliding window). Il supprime les messages les plus anciens (le début de la conversation) pour faire entrer les nouveaux messages. C’est pourquoi, après un long échange, ChatGPT ou Claude peut oublier votre prénom ou une règle fixée au tout début, sauf si des mécanismes de résumé ou de mémoire à long terme sont ajoutés.

Cas d’usage concrets

  • Analyse de documents longs : Charger un rapport annuel de 100 pages pour en extraire des synthèses sans perdre le fil.

  • Maintien de la cohérence conversationnelle : Permettre au chatbot de se souvenir des instructions données 20 messages plus haut.

  • Coding : Analyser plusieurs fichiers de code simultanément pour comprendre les dépendances entre fonctions.

  • Few-Shot Prompting : Fournir de nombreux exemples de style et de format dans le prompt pour guider la réponse.

Méthode & Prompting

À éviter

Copier-coller un livre entier sans structure en espérant que l’IA retiendra chaque détail, ou continuer une conversation depuis des semaines en s’attendant à ce que le premier message soit encore en mémoire.

Bon usage

Optimiser l’espace en supprimant les politesses inutiles si on approche la limite, répéter les instructions critiques à la fin du prompt (effet de récence), et utiliser le RAG (Retrieval Augmented Generation) pour les bases de connaissances immenses.

TEMPLATE DE PROMPT
Au lieu de juste coller le texte : ‘Voici un texte long [TEXTE].’

Utilisez : ‘Contexte : [TEXTE]. Basé uniquement sur le contexte ci-dessus, réponds à la question suivante en citant les passages clés : [QUESTION].’

Impact & Rentabilité

⏱️ Gain de tempsAnalyse instantanée de documents qui prendraient des heures à lire humainement.
✨ Qualité attendueRéponses hyper-personnalisées grâce à l’injection de données spécifiques dans le contexte.
Impact DécisionnelPermet de croiser des informations éparses dans un grand volume de texte pour une prise de décision éclairée.

Limites & Points d’attention

Coût (les tokens en entrée sont payants), latence (plus le contexte est rempli, plus la réponse peut être lente à démarrer), et risque de dilution de l’attention (trop d’informations non pertinentes peuvent embrouiller le modèle).

L’essentiel à retenir

  • Le contexte est la mémoire de travail temporaire de l’IA.
  • Il est limité en taille (mesurée en tokens) et varie selon les modèles (8k, 32k, 128k, 1M+).
  • Une surcharge du contexte peut entraîner des oublis (Lost in the Middle) ou des hallucinations.
  • Pour des données dépassant la fenêtre de contexte, il faut utiliser des techniques comme le RAG.

Questions Fréquentes

Quelle est la différence entre contexte 8k et 128k ?+
Cela désigne la capacité de mémoire. 8k tokens correspondent environ à 12-15 pages de texte standard, tandis que 128k tokens permettent de charger l’équivalent d’un livre de 300 pages.
Est-ce que l’IA apprend de mon contexte pour toujours ?+
Non, techniquement. Une fois la session fermée ou la fenêtre glissante passée, l’information disparaît de la mémoire vive du modèle. Cependant, attention aux conditions d’utilisation des plateformes qui peuvent utiliser vos conversations pour entraîner de futurs modèles.
Pourquoi l’IA a-t-elle oublié ce que j’ai dit au début ?+
Vous avez probablement dépassé la taille de la fenêtre de contexte. Le système a dû ‘supprimer’ le début de la conversation pour pouvoir traiter vos nouveaux messages.
Puis-je augmenter la fenêtre de contexte moi-même ?+
Non, c’est une limite fixe définie par l’architecture du modèle fourni par l’éditeur (OpenAI, Anthropic, Mistral, etc.). Vous devez choisir un modèle avec une plus grande fenêtre si nécessaire (ex: Claude 3).

PROMPT-LAB.FR

Comprendre • Prompter • Accélérer

Sommaire

Découvre comment l’IA peut te faire gagner 1h par jour (sans devenir expert)

Les articles similaires

C’est quoi Perplexity AI ?

C’est quoi un prompt contradictoire ?

C’est quoi HeyGen ?

L’IA peut-elle vraiment dicter nos choix ?

passe en premium pour débloquer
tous les prompts marketing