Mistral Small 4 brengt multimodale redenering naar open-source AI en verandert de rekening voor soevereine AI

Mistral AI heeft deze week Mistral Small 4 uitgebracht, een model dat redeneren, multimodale verwerking en agentische codering combineert in een enkel open-source pakket. Uitgebracht onder de Apache 2.0-licentie heeft het model 119 miljard parameters en maakt gebruik van een Mixture-of-Experts-architectuur met 128 experts, waarvan er 4 actief zijn per token. Dit houdt de inferentiekosten beheersbaar, ook bij schaalvergroting. Het model ondersteunt een contextvenster van 256.000 tokens en verwerkt zowel tekst als afbeeldingen als native invoer.

Tot nu toe moesten organisaties kiezen: een model voor redenering, een ander voor documentverwerking met afbeeldingen, en weer een ander voor agentische coderingstaken. Small 4 combineert deze drie in een enkel te deployen eenheid. Het model bevat ook een instelbare reasoning_effort-parameter, waarmee je kunt kiezen tussen snelle lage-latentierespons en diepgaande stapsgewijze redenering, afhankelijk van de taak. Mistral meldt een vermindering van 40% in end-to-end voltooiingstijd en 3x meer verzoeken per seconde vergeleken met Small 3.

Het model kan draaien op vier NVIDIA H100 GPU's als minimale opstelling, of twee H200's, of een enkele DGX B200. Het is al beschikbaar op vLLM, llama.cpp, SGLang, Transformers en Hugging Face. Voor organisaties die al GPU-capaciteit hebben, is de deployment eenvoudig. Voor organisaties zonder eigen hardware zijn er via Mistral's API en diverse externe providers ook cloud-gehoste opties beschikbaar.

Waarom dit belangrijk is voor Europese bedrijven

De Apache 2.0-licentie is geen detail. Die betekent dat elke organisatie Small 4 op eigen infrastructuur kan deployen, kan fine-tunen op eigen data, en kan integreren in commerciele producten, zonder per-token-kosten aan een Amerikaanse cloudprovider en zonder gevoelige documenten via externe API's te sturen. Voor sectoren die persoonsgegevens verwerken onder de AVG, of voor organisaties in de financiele sector, gezondheidszorg of publieke sector met eisen rondom datakoppelingen en -verblijfplaatsen, is dit van wezenlijk belang.

Het contextvenster van 256.000 tokens verandert wat mogelijk is bij documentintensieve workflows. De meeste AI-toepassingen in de onderneming draaien om lange documenten: contracten, auditrapportages, beleidshandboeken, inkoopspecificaties. Modellen met kortere contextvensters dwingen ontwikkelaars om documenten op te splitsen en antwoorden aan elkaar te naaien, wat fouten en complexiteit introduceert. Met 256k tokens past een typisch contract van 200 paginas comfortabel in een enkele context, en kan het model over het volledige document redeneren zonder de draad te verliezen.

De native multimodale ondersteuning is even relevant. Veel documenten die bedrijven moeten verwerken zijn geen schone tekstbestanden: het zijn gescande facturen, gefotografeerde afleveringsbonnen, PDF's met gemengde opmaak of als afbeelding geexporteerde spreadsheets. Tot voor kort vereiste dit een apart visiemodel in de pipeline. Small 4 combineert dit in een enkelvoudige modelaanroep, wat de architectuurcomplexiteit en operationele overhead vermindert.

Het perspectief van Laava

Laava adviseert klanten al langer over soevereine AI-deployment, nog voor het een mainstream gesprek werd. Het kernargument is consistent: Europese organisaties zouden geen kritieke AI-workflows moeten bouwen op infrastructuur die ze niet controleren, zeker niet wanneer de onderliggende modellen zelf te hosten zijn zonder wezenlijk kwaliteitsverlies. Mistral Small 4 versterkt dat argument aanzienlijk. Een jaar geleden betekende kiezen voor open-source het accepteren van lagere kwaliteit. Dat compromis is grotendeels verdwenen.

De praktische implicaties voor documentverwerking zijn direct. Een organisatie die factuurextractie, contractanalyse of rapportgeneratie uitvoert op een zelf gehoste Small 4-instantie krijgt een model dat gescande documenten native aankan, over lange documenten kan redeneren zonder opsplitsing, en volledig binnen de eigen netwerkperimeter opereert. Gecombineerd met fine-tuning op bedrijfsspecifieke documentformaten overtreft de nauwkeurigheid op gespecialiseerde taken regelmatig wat algemene cloud-API's op dezelfde invoer leveren.

De instelbare reasoning-inspanning is ook relevant voor workflowautomatisering. Niet elke taak in een backoffice-pipeline vereist diepgaande redenering. Een routeringsbeslissing bij een inkomende e-mail heeft niet dezelfde rekenkracht nodig als het opstellen van een commercieel antwoord op een contractgeschil. De mogelijkheid om reasoning_effort per taak in te stellen, in plaats van voor de volledige rekeningkracht te betalen bij triviale stappen, verlaagt de operationele kosten direct zonder kwaliteitsverlies waar het ertoe doet.

Wat je nu kunt doen

Als jouw organisatie momenteel documenten verwerkt via een cloud-gehoste AI-API en je vragen hebt over dataverblijfplaats of langetermijnafhankelijkheid van een leverancier, is dit een goed moment om te evalueren wat een zelf gehost model voor jouw specifieke workflows kan betekenen. De combinatie van de mogelijkheden van Mistral Small 4, de Apache 2.0-licentie en de brede compatibiliteit met open-source inference-frameworks (vLLM, llama.cpp) zorgt ervoor dat de technische drempel lager is dan ooit.

Laava kan helpen bij een gerichte pilot van vier weken: een documentintensief proces definiëren, een zelf gehost model deployen, nauwkeurigheid en doorvoer meten, en een helder beeld van kosten en mogelijkheden geven, voordat je je aan een infrastructuurinvestering verbindt. Als je wilt begrijpen hoe soevereine AI er in de praktijk uitziet voor jouw organisatie, begin daar.

Mistral Small 4 brengt multimodale redenering naar open-source AI en verandert de rekening voor soevereine AI

Bepaal waar dit jullie als eerste echt raakt

Van nieuws naar een concrete eerste route