Een box van $12.000 die 120B AI-modellen offline draait - wat dat betekent voor soevereine AI in Europa

Dit weekend steeg de tinybox van tinygrad naar de top van Hacker News met 431 upvotes en meer dan 260 reacties. De reden: tinygrad - het neural network framework gebouwd door George Hotz, de engineer die als eerste de iPhone jailbreakte - levert nu een compacte AI-computer die modellen op 120B-parametersniveau volledig offline kan draaien, zonder cloud. De tinybox red v2 begint bij $12.000 en wordt binnen een week geleverd. De tinybox green v2 heeft 384 GB GPU-geheugen en 3.086 TFLOPS aan FP16-rekenkracht voor $65.000.

De tinybox is geen speeltje. Hij benchmarkt in MLPerf Training 4.0 tegen machines die tien keer zoveel kosten. Beide modellen worden geleverd met Ubuntu 24.04, volledige netwerkconnectiviteit en een BIOS-beheerinterface. Het tinygrad-framework dat het aanstuurt wordt al in productie gebruikt: het draait het rijmodel in Comma.ai's openpilot, een van de meest gebruikte open-source autonome rijsystemen ter wereld.

Wat dit moment significant maakt, is de prijs. Tot voor kort vereiste het draaien van een frontier open-source model op eigen hardware ofwel een hyperscaler-account of een investering van zes cijfers in enterprise GPU-infrastructuur. De tinybox verandert die berekening. Voor de prijs van de eerste drie maanden van een senior medewerker kan een bedrijf de hardware bezitten en Llama 3, Mistral of Qwen-modellen draaien zonder API-kosten, zonder vendor lock-in, en zonder dat data het gebouw verlaat.

Voor Europese bedrijven is dit om meer redenen relevant dan alleen kosten. De EU AI Act, de AVG en een groeiend aantal sectorspecifieke regelingen stellen strenge eisen aan waar en hoe persoonsgegevens worden verwerkt door geautomatiseerde systemen. Wanneer een Nederlands logistiek bedrijf factuurgegevens of personeelsdata verstuurt via een Amerikaanse cloud-AI-API, verzendt het data onder Amerikaans recht, naar Amerikaanse infrastructuur, verwerkt door systemen die mogelijk worden gebruikt om modellen te verbeteren op manieren waarover de Europese klant nooit overeenstemming heeft bereikt.

Juridische teams zijn steeds minder bereid dit risico te accepteren. Enterprise AI-overeenkomsten van OpenAI en Anthropic bevatten zero-retention-bepalingen, maar deze vereisen afzonderlijke onderhandeling, afzonderlijke prijzen en een zekere mate van vertrouwen in contractuele handhaving over jurisdicties heen. Een server in het eigen datacenter vereist dat vertrouwen niet. De data verlaat nooit het gebouw.

Er speelt ook een kostenvergelijking. Cloud AI-inferentieprijzen zijn de afgelopen twee jaar drastisch gedaald, maar ze blijven verbruiksgebonden: hoe meer je gebruikt, hoe meer je betaalt. Bij hoog volume wordt dit een significante operationele kostenpost. Een zelfgehost model op eigen hardware zet die variabele kosten om in een vaste kapitaalinvestering. Voor organisaties die tienduizenden documentverwerkingsquery's per dag uitvoeren, verschuift de rekensomme snel.

Bij Laava zetten we open-source modellen al in soevereine configuraties in vanaf het begin. Llama 3 en Mistral draaien in client-VPC's en on-premise servers voor klanten in de financiele dienstverlening en juridische sector, waar het alternatief - gevoelige documenten versturen via een cloud-API - simpelweg geen optie is die hun juridische team accordeert.

Wat hardware als de tinybox verandert, is de drempel voor die architectuur. Historisch vereiste on-premise AI-inferentie ofwel een significante kapitaalinvestering in speciale GPU-servers, of het accepteren van de beperkingen van kleinere modellen die op CPU of consumentenhardware konden draaien. De kloof tussen wat je lokaal kon draaien en wat de cloud bood was groot. Die kloof sluit snel.

Dit betekent niet dat elke organisatie meteen een tinybox moet aanschaffen. De hardware is slechts een onderdeel. Het draaien van open-source modellen in productie vereist meer dan rekenkracht: je hebt een goed gestructureerde RAG-pipeline nodig, metadata-governance, guardrails, evaluatiepipelines en integratie met de systemen waar het werk daadwerkelijk plaatsvindt: ERP, CRM, e-mail. Een tinybox met een hallucinerend Llama-exemplaar dat nergens aan gekoppeld is, is geen AI-agent. Het is een dure server.

Als jouw organisatie gevoelige documenten op schaal verwerkt - facturen, contracten, klantcommunicatie, interne beleidsstukken - en je juridische team ongemakkelijk is met cloud-AI, is dit het juiste moment om een soevereine AI-architectuur te evalueren. De modellen zijn goed genoeg. De hardwarekosten zijn nu toegankelijk. De resterende vraag is of je de systems engineering hebt om het correct in te zetten.

Laava voert een gratis Roadmap Sessie van 90 minuten uit waarbij we beoordelen of een soevereine AI-implementatie zinvol is voor jouw proces, jouw compliancevereisten en jouw datavolumes. We zeggen eerlijk als de cloud de betere keuze is. Als dat niet zo is, bouwen we de architectuur om op jouw infrastructuur te draaien, met jouw data, onder jouw controle.

Een box van $12.000 die 120B AI-modellen offline draait - wat dat betekent voor soevereine AI in Europa

Bepaal waar dit jullie als eerste echt raakt

Van nieuws naar een concrete eerste route