Claude's 1M-tokenvenster nu algemeen beschikbaar: wat het betekent voor documentzware AI-agents

Wat er is gebeurd: 1M tokens tegen standaardprijzen, geen toeslag

Op 13 maart 2026 kondigde Anthropic aan dat het contextvenster van 1 miljoen tokens nu algemeen beschikbaar is voor Claude Opus 4.6 en Claude Sonnet 4.6. In de aankondiging zit iets wat verder gaat dan de contextgrootte zelf: standaardprijzen gelden voor het volledige venster. Een verzoek van 900.000 tokens kost hetzelfde per token als een verzoek van 9.000 tokens. De premiumtoeslag voor lange context die voorheen gold boven 200K tokens is verdwenen.

Ook de medialimieten zijn aanzienlijk uitgebreid. Waar de eerdere bèta 100 afbeeldingen of PDF-pagina's per verzoek toestond, ondersteunt de GA-versie tot 600 pagina's. De bèta-header is niet langer vereist: verzoeken boven de 200K tokens werken nu automatisch. Het 1M-venster is vandaag beschikbaar op het Claude Platform en via Amazon Bedrock, Google Cloud Vertex AI en Microsoft Azure Foundry.

Op benchmarks scoort Opus 4.6 78,3% op MRCR v2 bij de volledige 1M-contextlengte, wat Anthropic rapporteert als het hoogste onder frontiermodellen op die omvang. Voor Claude Code-gebruikers op Max-, Team- en Enterprise-plannen is het 1M-venster nu standaard voor Opus 4.6-sessies, wat betekent minder compactie-events en langere ononderbroken agent-runs.

Waarom het belangrijk is: chunking was altijd een omweg, geen oplossing

Voor de meeste bedrijfsdocumentworkflows was chunking nooit de bedoelde oplossing. Het was een omweg om contextlimieten te compenseren. Wanneer je een contract van 200 pagina's splitst in overlappende stukken, accepteer je dat het model het volledige document nooit tegelijk ziet. Kruisverwijzingen tussen clausules op pagina 4 en pagina 187 vereisen zorgvuldig ontworpen retrieval. Tegenstrijdigheden tussen secties zijn gemakkelijk te missen. Het contextvenster was de bottleneck, en engineers bouwden uitgebreide RAG-pipelines om die heen.

600 pagina's in één verzoek verandert die berekening. Een volledige set kwartaalrapporten. Een compleet due diligence-pakket. Een volledige aanbestedingsindiening met bijlagen. Een dossier met getuigenverklaringen en bewijsstukken. Dit alles past ruimschoots binnen 600 pagina's en kan nu in één modelaanroep worden verwerkt, zonder de overhead van chunking. De redenering vindt plaats over het volledige document, niet over een door retrieval benaderd fragment ervan.

Voor AI-agents die meerstaps-workflows uitvoeren is de impact net zo groot. Productie-agents bouwen context op: tool call-outputs, tussentijdse redenering, databasequeryresultaten, API-responses. Bij 200K tokens was compactie voortdurend nodig. Details van vroeg in de workflow werden samengevat, wat leidde tot agents die kritieke informatie 'vergaten' en redundant opnieuw gegevens moesten ophalen. Bij 1M tokens zonder toeslag kan een complexe agent uren draaien zonder zijn werkgeheugen te verliezen, en de kosten daarvoor zijn dezelfde als voor een eenvoudig enkelvoudig verzoek.

Het perspectief van Laava: volledige documentredenering was altijd het doel

Bij Laava bouwen we documentverwerkende agents al voordat contextvensters dit makkelijk maakten. We ontwikkelden chunkingstrategieën, overlap-parameters en retrieval-pipelines precies omdat het moest. Onze Context Layer, het metadata- en structureringswerk dat elk systeem dat we bouwen ondersteunt, was deels ontworpen om de beperkingen te compenseren van wat een model tegelijk kon bevatten.

Het 1M-contextvenster tegen standaardprijzen maakt dat metadata-werk niet overbodig. Een model kan een groot document in context bevatten en er toch slecht over redeneren als het document geen structuur, versietagging of autoriteitsmetadata heeft. Wat verandert is de afweging tussen retrieval-precisie en begrip van het volledige document. Voor bepaalde documenttypen, met name lange contracten, regelgevingsdossiers en complexe zaakdossiers, is het nu vaak beter om het volledige document direct te laden dan om relevante stukken op te halen. De resterende RAG-pipeline wordt een terugvaloptie in plaats van de primaire strategie.

Dit is ook een prijsverhaal. Voor klanten die documentworkflows op hoge volumes draaien, creëerde de vroegere lange-context-toeslag druk om context kort te houden, wat betekende agressiever chunken, wat leidde tot lagere nauwkeurigheid. Die toeslag weghalen doorbreekt de afweging tussen kosten en nauwkeurigheid. Je kunt nu ontwerpen voor nauwkeurigheid als eerste prioriteit en hoeft er geen toeslag voor te betalen. Voor de 4-weekse pilots die we bij klanten uitvoeren, verkort dit direct de benodigde tijd om van ruwe documenten naar productiewaardige extractie te gaan, omdat we geen retrieval-pipelines meer hoeven af te stemmen voordat de agent kan redeneren over een volledig document.

Wat je nu kunt doen

Als je vandaag documentzware AI-workflows draait, bekijk dan je chunkingstrategie opnieuw. Voor documenten onder de 600 pagina's is het laden van het volledige document nu een haalbare optie die het benchmarken waard is tegenover je huidige retrieval-aanpak. Je kan ontdekken dat de nauwkeurigheid verbetert terwijl de architectuurcomplexiteit daalt. Als je de Claude API gebruikt met een bèta-header voor lange-contextverzoeken, kun je die verwijderen: hij wordt nu genegeerd en het 1M-venster activeert automatisch.

Als je AI-agents voor documentverwerking evalueert en te horen hebt gekregen dat RAG-complexiteit onvermijdelijk is, kan die beoordeling verouderd zijn. De architecturen die logisch waren bij 100K tokenlimieten zijn het waard opnieuw te bekijken. Laava helpt organisaties documentautomatisering te ontwerpen die past bij de huidige stand van de technologie, niet bij de omwegen van vorig jaar. Als je een documentintensief proces hebt waarvan je de automatisering hebt uitgesteld omdat de nauwkeurigheidseisen te hoog leken, is het nu een goed moment om opnieuw te kijken.

Claude's 1M-tokenvenster nu algemeen beschikbaar: wat het betekent voor documentzware AI-agents

Wat er is gebeurd: 1M tokens tegen standaardprijzen, geen toeslag

Waarom het belangrijk is: chunking was altijd een omweg, geen oplossing

Het perspectief van Laava: volledige documentredenering was altijd het doel

Wat je nu kunt doen

Bepaal waar dit jullie als eerste echt raakt

Van nieuws naar een concrete eerste route