029 — Context window (werkgeheugen)

CONTEXT

Context window:
hoeveel past er in één keer?

Het “werkgeheugen” van een LLM. Alles wat het model tegelijk moet meenemen: instructies + chatgeschiedenis + documenten + (tool)output. Groter = minder knip/plak, maar het is geen geheugen.

Praktisch (voor jullie werk)

Dossiers / mailthreads kunnen mee → betere consistentie.

Als het “vol” zit, verdwijnt het begin uit beeld → samenvatten of delen.

Vraag expliciet om tussenstappen (per hoofdstuk / per mail) i.p.v. één mega‑antwoord.

Lost in the middle: zet de kernvraag bovenaan en herhaal ’m onderaan.

Visueel

Token budget (één antwoord)

alles telt mee

Instructies

system

Jouw vraag

prompt

Geschiedenis

chat

Docs

bijlagen

Output

antwoord

Tip: als je 10 bijlagen plakt, blijft er minder ruimte over voor redeneren + antwoord.

Schaal (indicatief)

verschilt per model & versie

32k

128k

200k

ChatGPT

±128k

Claude

±200k

Gemini

±1M

Ruwe vuistregel: 1 token ≈ ¾ woord → 100k tokens is grofweg een (groot) dossier.

Context window:hoeveel past er in één keer?

Praktisch (voor jullie werk)

Visueel

Context window:
hoeveel past er in één keer?