CONTEXT
Context window:
hoeveel past er in één keer?
Het “werkgeheugen” van een LLM. Alles wat het model tegelijk moet meenemen: instructies + chatgeschiedenis + documenten + (tool)output. Groter = minder knip/plak, maar het is geen geheugen.
Praktisch (voor jullie werk)
Dossiers / mailthreads kunnen mee → betere consistentie.
Als het “vol” zit, verdwijnt het begin uit beeld → samenvatten of delen.
Vraag expliciet om tussenstappen (per hoofdstuk / per mail) i.p.v. één mega‑antwoord.
Lost in the middle: zet de kernvraag bovenaan en herhaal ’m onderaan.
Visueel
Token budget (één antwoord)
alles telt mee
Instructies
system
Jouw vraag
prompt
Geschiedenis
chat
Docs
bijlagen
Output
antwoord
Tip: als je 10 bijlagen plakt, blijft er minder ruimte over voor redeneren + antwoord.
Schaal (indicatief)
verschilt per model & versie
8k
32k
128k
200k
1M
ChatGPT
±128k
Claude
±200k
Gemini
±1M
Ruwe vuistregel: 1 token ≈ ¾ woord → 100k tokens is grofweg een (groot) dossier.