Wat er is gebeurd
Epoch AI heeft zijn data over de componentkosten van AI-chips bijgewerkt, en de cijfers laten zien waarom zakelijke AI-budgetten steeds minder voorspelbaar voelen. Voor AI-chips van Nvidia, AMD, Google en Amazon schat Epoch dat geheugen inmiddels 63 procent van de componentuitgaven vormt. Begin 2024 was dat nog 52 procent. De totale componentuitgaven voor AI-chips groeiden van ongeveer 22 miljard dollar in 2024 naar 52 miljard dollar in 2025, waarbij high bandwidth memory ongeveer 20 miljard dollar van die stijging verklaart.
De analyse is geen productlancering, maar een supply chain signaal. Toch raakt het direct aan de vraag waar veel bedrijven nu tegenaan lopen: wat kost AI zodra het niet meer om een demo gaat, maar om dagelijks gebruik? Als geheugen de dominante kostenpost wordt in de chips die AI draaien, werkt dat door in cloudprijzen, beschikbaarheid, inkoopkeuzes en de economie van agents in productie.
Dat is relevant omdat bedrijven niet meer alleen vragen of een model een goed antwoord kan geven. Ze willen weten of AI documenten kan lezen, context kan ophalen, beleid kan controleren, tools kan aanroepen, conceptacties kan maken en dit steeds opnieuw kan doen binnen echte workflows. Dat gebruik vraagt veel van geheugen en infrastructuur, zeker wanneer agents lange context, retrieval, logging en meerdere stappen combineren.
Waarom dit telt
De simpele conclusie zou zijn dat ieder bedrijf nu zelf GPU-capaciteit moet kopen. Dat is de verkeerde les. De meeste organisaties hoeven geen AI-infrastructuurbedrijf te worden. Ze moeten wel begrijpen waar AI-kosten vandaan komen: tokengebruik, contextlengte, modelkeuze, retrievalontwerp, logging, evaluatie, opslag, failover en de runtime-laag die dit alles verbindt.
Veel vroege AI-projecten verbergen deze kosten achter pilotbudgetten of vendor credits. De demo lijkt goedkoop omdat hij op een beperkt aantal voorbeelden draait. Productie is anders. Een documentagent die duizenden bestanden leest, een klantenservice-agent die de hele dag draait, of een workflow-agent die beleid checkt voordat hij een systeem bijwerkt, veroorzaakt herhaald gebruik. Zonder goede architectuur groeit de kostenlijn sneller dan de waarde.
Geheugenintensieve chips onderstrepen ook een ongemakkelijke realiteit voor kopers: betere modellen maken kosten niet automatisch voorspelbaar. Grotere contextvensters en sterkere modellen maken agents krachtiger, maar verleiden teams ook om meer tokens, meer documenten en meer tools op iedere taak te gooien. Zonder routing, caching, retrievaldiscipline en observability wordt de kostenlijn een managementprobleem.
Laava-perspectief
Voor Laava is dit precies waarom AI als operationeel systeem moet worden ontworpen, niet als verzameling losse tools. De relevante eenheid is niet de modelcall. De relevante eenheid is de workflow. Welke data was nodig, welk model paste bij de taak, welke actie mocht de agent uitvoeren, wat is gelogd en wat kostte de volledige run?
Sovereign Runtime en Laava Box passen in dat verhaal als deploymentvormen binnen Laava Agents en Custom Solutions. Het is geen losse hardwarepropositie. De klant koopt managed runtime, agents, integraties, monitoring, logging, updates en doorontwikkeling. De runtime kan dichter bij de klant draaien wanneer soevereiniteit, auditability, latencycontrole of voorspelbare kosten belangrijk zijn, maar de waarde zit in de agents en workflows erbovenop.
Dezelfde logica geldt in de cloud. Een goede zakelijke AI-architectuur is modelagnostisch, kostbewust en auditable. Simpele taken kunnen naar kleinere modellen, sterkere modellen blijven beschikbaar voor redenering met hogere waarde, retrieval blijft smal, herhaalde context wordt gecachet en kosten worden zichtbaar per workflow. Dat klinkt minder spectaculair dan benchmarks, maar het maakt AI bruikbaar in de operatie.
Wat je nu kunt doen
Wie voorbij AI-experimenten wil, moet beginnen bij de workflow in plaats van de prompt. Kies een documentzwaar of backoffice-zwaar proces en breng de volledige run in kaart: datatoegang, retrieval, modelcalls, toolacties, menselijke goedkeuring, logging, fallback en verwacht maandelijks volume. Die kaart laat zien of het kostenrisico zit in modelprijzen, slechte retrieval, onnodige context of onbeheerde toolsprawl.
Ontwerp daarna de runtime voordat het gebruik explodeert. Leg routingregels, goedkeuringsgrenzen, logging, budgetalerts en evaluatie vanaf het begin vast. Of de deployment nu in de cloud, hybride of in een sovereign runtime dicht bij de organisatie draait, het doel blijft hetzelfde: AI die echt werk doet met grip op data, kosten en verantwoordelijkheid.