Nieuw onderzoek halveert tokenkosten van AI-agents: wat xMemory betekent voor zakelijke implementaties

Wat er is gebeurd

Onderzoekers van King's College London en The Alan Turing Institute hebben xMemory gepubliceerd, een nieuwe geheugenarchitectuur voor AI-agents die het tokengebruik terugbrengt van meer dan 9.000 naar ongeveer 4.700 tokens per query. De techniek, gepubliceerd op 25 maart, richt zich op een probleem dat de meeste zakelijke AI-agentimplementaties in stilte pijnigt: geheugen dat prima werkt in demo's, maar vastloopt bij lange, meersessie-interacties.

Het kernprobleem zit bij retrieval-augmented generation (RAG), dat de meeste teams gebruiken om AI-agents van geheugen te voorzien. RAG is ontworpen voor grote, gevarieerde documentdatabases waarbij de uitdaging is om irrelevante inhoud te filteren. Het geheugen van een AI-agent is het tegenovergestelde: een continue stroom van gerelateerde gesprekken, vol bijna-duplicaten en overlappende context. Wanneer een gebruiker in twaalf verschillende sessies heeft aangegeven "ik geef de voorkeur aan beknopte samenvattingen," haalt standaard RAG alle twaalf versies tegelijk op, wat tokens verspilt en het model in verwarring brengt.

xMemory lost dit op door gespreksgeschiedenis te organiseren in een vierniveauhierarchie: ruwe berichten, episodessamenvattingen, gedestilleerde semantische feiten en overkoepelende themas. Wanneer de agent iets moet ophalen, zoekt hij top-down door de hierarchie in plaats van alle ruwe logs te doorzoeken. Het resultaat is schonere context, minder overbodige tokens en aantoonbaar betere antwoorden bij redeneerwerk over langere termijn.

Waarom dit voor bedrijven relevant is

Tokenkosten zijn geen abstracte technische kwestie. Elke token die naar een LLM wordt gestuurd kost geld, voegt latency toe en vergroot de kans dat het model de kern kwijtraakt. Voor een AI-agent die dagelijks 500 facturen verwerkt of een doorlopende klantenservicewachtrij beheert, telt opgeblazen geheugen snel op. Tokengebruik halveren op die werklasten betekent ruwweg de helft minder inferentiekosten. Op schaal is dat een substantieel bedrag.

Er is ook een kwaliteitsdimensie. Agents die coherent geheugen bewaren over sessies heen zijn nuttiger dan agents die elke keer opnieuw beginnen of in de war raken door hun eigen geschiedenis. Een agent die backoffice-administratie afhandelt, moet weten dat een bepaalde leverancier altijd ingescande facturen in een afwijkend formaat stuurt. Een agent die klantenservice ondersteunt, moet weten dat een specifiek account een lopend geschil heeft. Zonder gestructureerd geheugen degraderen zulke agents tot stateloze tools die voortdurende begeleiding vereisen.

Het onderzoek markeert ook een breder volwassenheidsmoment voor zakelijke AI. Vroege AI-pilots waren vaak eenmalig: een vraag stellen, een antwoord krijgen, klaar. De volgende golf van waarde komt van persistente agents die context opbouwen over tijd. Dat vereist een geheugenarchitectuur die echt werkt op schaal, en dat is precies wat onderzoek als xMemory adresseert.

Laava's perspectief

Dit onderzoek bevestigt iets wat we keer op keer zien in productie-implementaties: de architectuur goed krijgen is net zo belangrijk als het kiezen van het juiste model. De meeste mislukkingen van AI-agents zijn geen modelfalen. Het zijn fouten in geheugen, contextbeheer en integratie. Een krachtig model met een slecht ontworpen geheugenlaag levert slechtere resultaten dan een kleiner model met schone, goed gestructureerde context.

Wanneer we AI-agents bouwen voor documentverwerking, backoffice-automatisering of workflowbeheer, is geheugenarchitectuur een van de eerste ontwerpbeslissingen. Voor een kortdurende factuurextractietaak is een vlakke RAG-aanpak prima. Maar voor agents die doorlopende leveranciersrelaties, terugkerende documenttypen of klantgeschiedenissen beheren die maanden beslaan, bepaalt het geheugenontwerp of de agent beter of slechter wordt over tijd. De hierarchische aanpak van xMemory sluit conceptueel nauw aan bij hoe wij persistente geheugen voor agents benaderen: samenvatten, destilleren, organiseren, selectief ophalen.

De kostendimensie is reeel en moet onderdeel zijn van elk gesprek over AI-architectuur. We modelleren routinematig inferentiekosten voor en na architectuurwijzigingen voor klanten, omdat AI op schaal niet gratis is. Een goed ontworpen agent die de helft minder kost om te draaien is geen kleine optimalisatie: het is het verschil tussen een project dat ROI oplevert en een project dat sneuvelt bij de budgetbeoordeling.

Wat je nu kunt doen

Als je een AI-agentimplementatie plant of al uitvoert, stel jezelf dan twee vragen. Ten eerste: bewaart je agent enig geheugen tussen sessies, en zo ja, hoe wordt dat geheugen opgehaald? Als het antwoord is "we slaan alle gesprekken op en zetten ze in de context," heb je waarschijnlijk een schaalprobleem dat nog niet zichtbaar is. Ten tweede: heb je je inferentiekosten gemodelleerd bij realistische gebruiksvolumes? De meeste organisaties onderschatten dit totdat ze een rekening krijgen die verrast.

Laava ontwerpt AI-agents waarbij productiekosten en geheugenarchitectuur vanaf het begin eerste orde zaken zijn. Als je een AI-agent bouwt of evalueert voor backoffice-, document- of workflowgebruik, kijken we graag mee naar je huidige aanpak en waar je mogelijk geld laat liggen.

Nieuw onderzoek halveert tokenkosten van AI-agents: wat xMemory betekent voor zakelijke implementaties

Wat er is gebeurd

Waarom dit voor bedrijven relevant is

Laava's perspectief

Wat je nu kunt doen

Bepaal waar dit jullie als eerste echt raakt

Van nieuws naar een concrete eerste route