Wat er is gebeurd
Intuit, het bedrijf achter QuickBooks, TurboTax en MailChimp, heeft data gepubliceerd uit een van de grootste echte AI-agentimplementaties tot nu toe. Na het uitrollen van gespecialiseerde AI-agents naar 3 miljoen klanten op het gebied van verkoop, belastingen, salarisadministratie, boekhouding en projectbeheer, bleek dat 85% van de gebruikers terugkwam om de agents opnieuw te gebruiken. De betrokkenheid hield niet stand omdat gebruikers geen keus hadden, maar omdat het product aantoonbaar werkte.
De agents voeren echte taken uit: boeken afsluiten, transacties categoriseren, salarissen verwerken, factuurherinneringen automatiseren, afwijkingen signaleren. Klanten melden dat facturen 90% volledig worden betaald en vijf dagen sneller, met 30% minder handmatig werk. Een klant ontdekte aanzienlijke interne fraude door de agent te vragen waarom bepaalde bedragen niet klopten.
De EVP en GM van het bedrijf, Marianna Tessel, schrijft de adoptie toe aan een ontwerpbeslissing boven alles: het bereikbaar houden van mensen. Niet productondersteuningsmedewerkers, maar echte domeinexperts: accountants, belastingspecialisten, salarisadministrateurs. AI handelt de taak af tot een bepaald punt, waarna een menselijke expert beschikbaar is om te beoordelen, te bevestigen of over te nemen. Het platform is ook zo gebouwd dat het menselijke betrokkenheid actief aanbeveelt in risicovolle scenario's, in plaats van standaard autonoom te handelen.
Waarom dit voor bedrijven relevant is
De AI-industrie is luidruchtig geweest over autonomie. Het dominante verhaal is dat het doel volledige automatisering is: agents die zonder menselijke tussenkomst draaien, hun eigen beslissingen goedkeuren en onbeheerd op schaal opereren. De Intuit-data is een nuttige correctie. Op productieschaal, bij miljoenen echte gebruikers die met echte financiele gegevens werken, presteerde de combinatie van AI en menselijke expertise beter dan AI alleen. Dat is geen falen van de technologie. Het is bewijs over waar de technologie daadwerkelijk werkt.
Voor de meeste zakelijke toepassingen is het doel niet om mensen uit het proces te elimineren. Het doel is de vervelende, repetitieve, foutgevoelige onderdelen te elimineren zodat mensen zich kunnen richten op oordeelsvorming, uitzonderingen en beslissingen met hoge waarde. Een AI-agent die 70% van de factuurverwerking automatisch afhandelt, afwijkingen markeert voor menselijke beoordeling en randgevallen naar de juiste persoon doorstuurt, is waardevoller dan een agent die 100% automatisering probeert en op 15% van de gevallen faalt op manieren die niemand opmerkt.
Er is ook een vertrouwensdimensie die de Intuit-data concreet maakt. Gebruikers die weten dat een menselijke expert beschikbaar is, zijn eerder bereid AI in te zetten voor taken die hen aan het hart gaan. Vertrouwen wordt niet opgebouwd door AI-capaciteit op zichzelf te demonstreren. Het wordt opgebouwd door te laten zien dat het systeem zijn eigen grenzen kent en daar adequaat op inspeelt. Dat verandert hoe AI-agents ontworpen moeten worden: niet als systemen die menselijke betrokkenheid vermijden, maar als systemen die de overdracht intelligent beheren.
Laava's perspectief
De bevindingen van Intuit komen overeen met wat wij zien in elke productie-implementatie. De agents die gebruikt worden, zijn de agents die weten wanneer ze moeten stoppen en vragen. Shadow mode, dat wij in elke Laava-implementatie gebruiken, is geen tijdelijke maatregel terwijl de AI vertrouwen opbouwt. Het is een permanente functie van verantwoordelijke agentarchitectuur. Een agent die inkooporders verwerkt en een ongebruikelijke leverancier tegenkomt voor een ongewoon groot bedrag, moet dit markeren, niet goedkeuren. De menselijke goedkeuringsstap is geen knelpunt. Het is wat het systeem betrouwbaar genoeg maakt om de andere 95% autonoom af te handelen.
We zien het autonomie-eerst-denken als een verkooppraatje, niet als een engineeringprincipe. Volledig autonome agents klinken indrukwekkend in demo's. In productie creeren ze aansprakelijkheid. Wanneer een agent op schaal een fout maakt, is de vraag niet of het is gebeurd maar of er een menselijke beoordelingsstap was die het had kunnen onderscheppen. Bedrijven die de mens-in-de-loop-architectuur overslaan om sneller te kunnen shippen, bouwen die doorgaans opnieuw na het eerste incident.
Het cijfer van 85% herhaald gebruik telt ook om een andere reden. Het is een gebruiksstatistiek, geen capaciteitsstatistiek. Het vertelt je of echte gebruikers in echte workflows het systeem de moeite waard vonden om naar terug te keren. Dat is een veel hogere lat dan benchmarkprestaties of succespercentages in demo's. De meeste zakelijke AI-projecten worden nooit op deze manier gemeten, omdat ze niet lang genoeg bij genoeg gebruikers worden ingezet om de data te genereren. Intuit deed het wel. De les verdient serieuze aandacht.
Wat je nu kunt doen
Als je een AI-agentimplementatie ontwerpt of evalueert, stel jezelf dan twee concrete vragen. Ten eerste: waar draagt je agent over aan een mens, en is die overdracht goed ontworpen of een nagedachte? Een goede overdracht bevat context: de agent moet doorgeven wat hij heeft verwerkt, waar hij onzeker over was en welke actie hij aanbeveelt, zodat de menselijke beoordelaar niet van nul hoeft te beginnen. Ten tweede: heb je een manier om herhaald gebruik over tijd te meten? Als gebruikers de agent een keer proberen en niet terugkomen, zegt dat iets belangrijks over of het een echt probleem oplost.
Laava bouwt AI-agents met shadow mode en mens-in-de-loop-overdrachten als standaardarchitectuur, niet als optionele functies. Als je een implementatie plant en wilt begrijpen hoe je de menselijke toezichtlaag ontwerpt, zijn we beschikbaar voor een gratis roadmapsessie van 90 minuten.