Dit patroon zien we constant: een bedrijf bouwt een AI-feature, kiest GPT-4o of Claude Sonnet omdat "we de beste kwaliteit willen," shipt het naar productie, en kijkt dan toe hoe de maandelijkse rekening stijgt naar €5.000, €10.000, €20.000. Niemand weet precies waar het geld naartoe gaat. Niemand heeft gemeten of het dure model daadwerkelijk nodig is.
Klinkt bekend? Je bent niet de enige. De meeste organisaties waarmee we werken geven 50-80% te veel uit aan AI. Niet omdat AI inherent duur is—maar omdat ze niet hebben geoptimaliseerd.
Het verborgen kostenprobleem
LLM-kosten zijn standaard onzichtbaar. Anders dan cloud compute waar je CPU- en geheugengebruik kunt zien, is tokenverbruik begraven in API-responses die de meeste teams nooit loggen. Dit creëert een blinde vlek:
- Welke feature eet het grootste deel van het budget?
- Welke gebruikers veroorzaken de hoogste kosten?
- Worden identieke queries herhaaldelijk verwerkt?
- Zou een goedkoper model 80% van het werk aankunnen?
Zonder antwoorden op deze vragen vlieg je blind.
De vier duurste fouten
Na het auditen van tientallen AI-implementaties hebben we de patronen geïdentificeerd die budgetten leegzuigen:
1. Flagship modellen gebruiken voor alles
GPT-4o kost $5 per miljoen input tokens. GPT-4o-mini kost $0,15—dat is 33x goedkoper. Voor veel taken (classificatie, extractie, simpele Q&A) presteert het kleinere model identiek. Toch kiezen de meeste teams standaard voor de dure optie "voor de zekerheid."
2. Geen prompt caching
Zowel OpenAI als Anthropic bieden prompt caching die kosten tot 90% kan reduceren voor herhaalde context. Een system prompt van 10.000 tokens die bij elk verzoek wordt meegestuurd? Dat is pure verspilling als dezelfde instructies steeds opnieuw worden verwerkt.
3. Opgeblazen prompts
We hebben prompts gezien met 4.000 tokens aan instructies terwijl 800 voldoende zou zijn. Elke onnodige token vermenigvuldigd met duizenden dagelijkse requests telt snel op.
4. Dubbele verwerking
Hetzelfde document meerdere keren geanalyseerd. Dezelfde vraag herhaaldelijk beantwoord. Zonder response caching betaal je elke keer de volle prijs.
De oplossing: intelligente model routing
De oplossing is niet om te stoppen met AI—het is om het juiste model voor elke taak te gebruiken. Dit heet model routing, en het werkt als volgt:
- Simpele taken (classificatie, extractie, formatting): GPT-4o-mini, Claude Haiku, of zelf-gehost Llama/Mistral
- Gemiddelde complexiteit (samenvatting, vertaling): GPT-4o-mini of Claude Sonnet
- Complexe redenering (analyse, planning, code generatie): GPT-4o, Claude Sonnet, of Claude Opus
Tools zoals LiteLLM maken dit makkelijk te implementeren. Je definieert routing regels, en requests gaan automatisch naar het juiste model op basis van taaktype, complexiteit, of custom logica.
Het open-source alternatief
Hier wordt het interessant voor kostenbewuste teams: open-source modellen zoals Llama 3 en Mistral kunnen veel taken afhandelen tegen bijna nul marginale kosten wanneer zelf-gehost.
Ja, er zijn infrastructuurkosten. Maar voor high-volume workloads kan een GPU-server van €500/maand die Llama draait €5.000/maand aan API-calls vervangen. We hebben Nederlandse bedrijven hun AI-kosten met 70-90% zien verlagen door classificatie- en extractietaken naar zelf-gehoste modellen te verplaatsen.
De bonus: je data verlaat nooit je infrastructuur. Voor GDPR-bewuste organisaties lost dit twee problemen tegelijk op.
Begin met zichtbaarheid: Langfuse
Voordat je kunt optimaliseren, moet je meten. Langfuse is een open-source LLM observability platform dat elke call, token count en kosten tracked. Binnen een paar dagen implementatie heb je antwoorden op al die blinde-vlek vragen:
- Kostenuitsplitsing per feature, gebruiker en model
- Token usage patronen over tijd
- Detectie van dubbele queries
- Prompt size analyse
Deze zichtbaarheid alleen al onthult vaak quick wins ter waarde van duizenden euro's per maand.
Echte resultaten
Dit is hoe optimalisatie er in de praktijk uitziet:
Een middelgrote verzekeraar gaf €8.000/maand uit aan flagship modellen voor claims intake. Onze audit onthulde dat 85% van de queries simpele classificatietaken waren. Door deze naar GPT-4o-mini en een zelf-gehost Llama model te routeren, daalden de kosten naar €2.400/maand—een reductie van 70% met identieke outputkwaliteit.
Een advocatenkantoor had €4.000/maand aan LLM-kosten zonder enig inzicht. Langfuse tracing onthulde dat dezelfde contracten herhaaldelijk werden geanalyseerd (geen caching) en system prompts bij elk verzoek opnieuw werden gestuurd. Na implementatie van caching en prompt optimalisatie daalden de kosten naar onder €1.000/maand.
Aan de slag: zes stappen naar lagere AI-kosten
Als je LLMs in productie draait en niet hebt geoptimaliseerd, geef je vrijwel zeker te veel uit. Het goede nieuws: de fixes zijn eenvoudig, en de ROI is direct. Hier is het stappenplan:
Stap 1: Krijg zichtbaarheid met observability
Je kunt niet optimaliseren wat je niet meet. Implementeer Langfuse of vergelijkbare tracing om elke API-call, token count en kosten te loggen. Binnen een week heb je antwoorden op de cruciale vragen: welke features kosten het meest? Welke users? Worden queries herhaald? Deze data vormt de basis voor alles wat volgt.
Stap 2: Identificeer je quick wins
Analyseer je data op de grootste kostenveroorzakers. Zoek naar patronen: herhaalde identieke queries (caching-kans), simpele taken op dure modellen (routing-kans), of opgeblazen prompts (optimalisatie-kans). Sorteer op impact—pak eerst aan wat het meeste oplevert.
Stap 3: Implementeer model routing
Dit is waar de grote besparingen zitten. Classificeer je use cases op complexiteit en routeer ze naar het juiste model. Gebruik tools zoals LiteLLM om routing regels te definiëren. Begin conservatief: test het goedkopere model op een subset van je traffic en vergelijk outputkwaliteit voordat je volledig overschakelt.
Stap 4: Activeer caching
Implementeer prompt caching voor herhaalde context (system prompts, voorbeelden) en response caching voor identieke queries. OpenAI en Anthropic bieden native prompt caching; voor response caching kun je Redis of vergelijkbare oplossingen gebruiken. Dit alleen kan kosten al met 30-50% reduceren.
Stap 5: Gebruik batch processing voor niet-urgente taken
Niet alles hoeft real-time. Document analyse, bulk classificatie, content generatie voor later—deze taken kunnen in batches worden verwerkt. OpenAI's Batch API biedt 50% korting voor requests die binnen 24 uur worden afgehandeld. Identificeer welke workloads kunnen wachten en verschuif ze naar off-peak of batch processing. Dit bespaart niet alleen geld, maar vermindert ook piekbelasting op je systemen.
Stap 6: Optimaliseer je prompts
Review je prompts kritisch. Verwijder overbodige instructies, consolideer voorbeelden, en test of kortere versies dezelfde kwaliteit leveren. Een prompt van 4.000 naar 1.000 tokens terugbrengen bespaart 75% op die component—vermenigvuldigd met duizenden daily requests telt dit snel op.
Of laat ons het doen. We bieden gratis kosten-audits die precies laten zien waar je te veel uitgeeft en hoeveel je kunt besparen. Vrijblijvend, resultaat binnen een week.
