Gemini File Search wordt multimodaal: wat betere RAG-grounding betekent voor zakelijke AI

Wat er is gebeurd

Google heeft de File Search-tool in de Gemini API uitgebreid met drie praktische verbeteringen voor retrieval-zware AI-toepassingen. Ten eerste kan File Search nu tekst en beelden samen indexeren en terugvinden, in plaats van documenten alleen als tekst te behandelen. Ten tweede kunnen ontwikkelaars eigen metadata aan bestanden hangen en daar tijdens retrieval op filteren. Ten derde geeft het systeem nu paginacitaties terug, zodat antwoorden te herleiden zijn naar de exacte pagina in het brondocument.

Op papier lijkt dat een bescheiden productupdate. In de praktijk raakt dit drie van de meest voorkomende redenen waarom enterprise RAG-systemen na de demo tegenvallen. Echte bedrijfskennis zit niet in nette markdownbestanden. Die zit in gescande pdf's, presentaties, handleidingen met screenshots, contracten met tabellen en rapportages vol beeldmateriaal. Als retrieval maar een deel van dat materiaal begrijpt, start het model al met een scheef beeld van de werkelijkheid.

Ook de positionering van Google is veelzeggend. Dit is geen consumentenfeature en ook geen cosmetische chatverbetering. Het is infrastructuur voor teams die documentbewuste agents en zoeklagen in echte producten bouwen. De combinatie van multimodale retrieval, metadatafilters en paginagronding wijst op een volwassener fase van enterprise AI: minder nadruk op slimme prompts, meer nadruk op een retrievallaag die onder echte druk standhoudt.

Waarom dit belangrijk is voor bedrijven

De meeste enterprise AI-projecten lopen stil vast in de retrievallaag. Een prototype kan er sterk uitzien op tien schone voorbeeldbestanden en vervolgens instorten zodra het volledige archief eraan hangt: wisselende scans, dubbele versies, afdelingsjargon en duizenden pagina's die net niet relevant zijn. Multimodale retrieval is belangrijk omdat veel zakelijke feiten deels visueel zijn. Denk aan facturen met stempels, technische handleidingen met schema's, aanbestedingen met screenshots of inspectierapporten met geannoteerde foto's.

Metadatafilters zijn om een andere reden cruciaal: ruis. Veel RAG-systemen geven geen slechte antwoorden omdat het model te zwak is, maar omdat de zoekruimte te breed is. Als juridische, financiële, procurement- en operationele documenten in één ongedifferentieerde vectorstore staan, lekt irrelevante context overal naar binnen. Filteren op velden zoals afdeling, status, regio of documenttype lijkt simpel, maar is vaak precies het verschil tussen een leuke demo en een systeem dat een bedrijf echt kan vertrouwen.

Paginacitaties zijn mogelijk zelfs de belangrijkste van de drie verbeteringen. Zakelijke gebruikers willen niet alleen een antwoord, ze willen het kunnen controleren. Als een AI-agent zegt dat een betaaltermijn netto 30 dagen is, wil finance weten op welke contractpagina dat staat. Als een compliance-assistent een eis noemt, wil de reviewer direct terug naar de bron. Citatie is geen cosmetisch detail. Het is de stap die een taalmodelantwoord bruikbaar maakt voor audit, controle en dagelijkse operatie.

Het perspectief van Laava

Deze aankondiging sluit aan op wat wij in productie zien. De bottleneck is zelden dat het basismodel geen vloeiende tekst kan schrijven. De bottleneck is meestal dat de agent het juiste stukje bedrijfscontext niet betrouwbaar kan vinden, of niet kan bewijzen waar dat stuk context vandaan komt. Bij documentverwerking en interne kennisworkflows bepaalt retrievalkwaliteit zowel de antwoordkwaliteit als de hoeveelheid menselijke controle die nodig blijft.

Voor ons zijn vooral paginacitaties en metadata interessant, omdat die twee echte pijnpunten aanpakken. Het eerste is vertrouwen. Teams stoppen snel met een AI-systeem als ze claims niet kunnen controleren. Het tweede is operationele controle. Enterprise kennis moet je niet behandelen als één grote hoop embeddings. Financiële documenten, leverancierscontracten, HR-beleid en projectbestanden hebben andere toegangsregels, andere vocabulaire en andere faalmodi. Retrieval rond die realiteit structureren is gewoon goede engineering.

Tegelijk lost geen enkele vendorfeature de architectuurvraag voor je op. Multimodale zoekfunctionaliteit is nuttig, maar lost niet automatisch permissies, chunkingstrategie, exception handling, human approval flows of systeemintegratie op. Voor organisaties met soevereiniteitseisen blijft ook de vraag waar data staat en welke componenten in een gecontroleerde omgeving moeten draaien. Het patroon is waardevol, maar de implementatiekeuzes blijven doorslaggevend.

Wat je nu kunt doen

Als je al een RAG- of knowledge-agentopzet hebt, is dit een goed moment om die tegen echte productieomstandigheden te testen. Gebruik rommelige documenten in plaats van nette voorbeelden. Controleer of beeldrijke pdf's de antwoordkwaliteit laten dalen. Meet hoe vaak gebruikers een antwoord kunnen terugleiden naar een exacte bron. Als dat vandaag niet kan, is je retrievallaag waarschijnlijk zwakker dan je demo doet vermoeden.

Het is ook slim om eerst je metadatamodel scherp te krijgen voordat je er meer AI bovenop zet. Bepaal welke labels echt relevant zijn voor retrieval, bijvoorbeeld afdeling, workflowstatus, land, documenttype of klantaccount. Maak citatie daarna de standaard voor bedrijfskritische antwoorden. De teams die winnen met enterprise AI zijn meestal niet de teams met de flitsendste demo, maar de teams die retrieval precies, controleerbaar en strak geïntegreerd maken in de systemen die mensen al gebruiken.

Gemini File Search wordt multimodaal: wat betere RAG-grounding betekent voor zakelijke AI

Wat er is gebeurd

Waarom dit belangrijk is voor bedrijven

Het perspectief van Laava

Wat je nu kunt doen

Bepaal waar dit jullie als eerste echt raakt

Van nieuws naar een concrete eerste route