Private LLM on-premise: data-soevereine AI binnen uw eigen muren
Voor organisaties die generatieve AI willen inzetten zónder gevoelige data buiten de eigen infrastructuur te brengen. Wij ontwerpen, implementeren en beheren on-premise large-language-modellen — Llama 3.3, Qwen, Mistral, DeepSeek en Gemma — op uw eigen GPU-cluster of in een Nederlandse private-cloud-zone. Geen US-cloud, geen trainingslek, geen onverwachte modelwissels: u houdt volledige controle over data, modellen en audit-trails.
Bespreek uw on-prem case Bekijk architectuurWaarom on-premise of private-cloud LLM's, en niet de publieke API
Voor de meeste organisaties begint het verhaal bij dezelfde vraag: mogen patiëntdossiers, hypotheekaanvragen, due-diligence-stukken of operationele militaire data überhaupt door een Amerikaanse cloud-LLM worden verwerkt? Het antwoord is meestal genuanceerder dan ja of nee, maar in vier domeinen is het hek van de dam.
Het eerste domein is data-soevereiniteit. Sinds Schrems II is de juridische basis voor data-export naar de Verenigde Staten broos: organisaties moeten per verwerkingsstroom afwegen of standard contractual clauses, een transfer impact assessment en aanvullende technische maatregelen voldoende zijn. Voor zorginstellingen onder NEN 7510, voor financiële instellingen onder DNB- en AFM-toezicht, voor overheid onder de BIO en voor defensie-aanverwante organisaties is die afweging in de praktijk vrijwel altijd negatief. On-premise of een Nederlandse private-cloud-zone zonder transatlantische verwerking maakt de discussie eenvoudig: data verlaat het pand niet.
Het tweede domein is no-train guarantees. Publieke API-leveranciers belijden dat enterprise-data niet voor modeltraining wordt gebruikt — maar de juridische afdwingbaarheid is gelimiteerd, telemetrie loopt vaak buiten de EU, en bij elke modelwissel of policy-update verandert de feitelijke verwerking. Een private LLM die u zelf draait, kan eenvoudigweg nooit per ongeluk in een trainingsbatch belanden. Voor IP-gevoelige sectoren — pharma, hightech, advocatuur, M&A-bureaus — is dat een keiharde voorwaarde.
Het derde domein is latency en beschikbaarheid. Inferentie binnen het eigen datacenter levert sub-100ms time-to-first-token in plaats van 400-1500ms over een transatlantische verbinding. Voor real-time use cases — interactieve copilots, agent-loops met meerdere tool-calls per seconde, voice-AI — is dat het verschil tussen werkbaar en frustrerend. Bovendien valt u niet uit als de upstream-provider een storing heeft of plotseling rate-limits aanscherpt.
Het vierde domein is auditbaarheid. AVG art. 32 verlangt dat u kunt aantonen welke gegevens zijn verwerkt, door welk model, met welk resultaat en door welke gebruiker. ENISA-richtlijnen voor AI-systemen versterken dat. Op een private LLM kunt u elke prompt, elke response, elke modelversie en elke gewogen output volledig vastleggen — zonder afhankelijkheid van wat een externe leverancier in zijn auditlog opneemt.
Welke open-weight modellen werken vandaag on-premise
De afgelopen achttien maanden is open-weight in veel benchmarks competitief geworden met de grootste closed-source modellen. Voor de meeste enterprise-use-cases — RAG, samenvatten, classificeren, code-assist, gestructureerde extractie — is on-prem inmiddels een volwaardig alternatief. Een korte oriëntatie op het modellandschap.
Llama 3.1 / 3.3 (Meta)
De Llama-familie levert solide algemene Engels- en Nederlandstalige prestaties op 8B, 70B en 405B parameters. Llama 3.3 70B Instruct is de werkpaardgrootte voor bedrijfschats en RAG: redelijk te quantizeren naar AWQ-INT4 op één H100 of L40S, met sterke instruction-following en tool-use. De licentie staat commercieel gebruik toe binnen de bekende drempels.
Qwen 2.5 / 3 (Alibaba)
Qwen 2.5-72B en de recentere Qwen 3-series scoren bijzonder goed op meertalige benchmarks, code en wiskunde. Qwen 2.5-Coder-32B is een populaire keuze voor on-prem code-assistants. De Apache-2.0-licentie van veel varianten is voor enterprise-juristen prettiger dan de Llama-community-licentie.
Mistral & Mixtral
Mistral Small/Medium en de Mixtral 8x22B mixture-of-experts-modellen zijn Europese open-weight kandidaten met expliciet enterprise-gerichte licenties. Mixtral combineert hoge effectieve capaciteit met relatief lage actieve parameters per token, wat throughput op duurdere GPU's gunstig houdt.
DeepSeek (V3 / R1)
DeepSeek-V3 en de redeneer-variant R1 hebben open-weights van flink formaat (671B MoE met ~37B actief). Voor reasoning-heavy taken — juridisch, wetenschappelijk, financiële analyse — is een gequantizeerde DeepSeek-distill een interessante on-prem optie, mits u accepteert dat de basismodellen zelf in China zijn getraind: de gewichten zijn lokaal en doen niets richting upstream.
Gemma 2 / 3 (Google)
Gemma 2-27B en Gemma 3 zijn relatief kleine, scherp-gekalibreerde modellen. Gemma 3 met multimodale vision en lange context is interessant voor documentverwerkingspijplijnen waar OCR + tekst gecombineerd worden. Goede kandidaat voor edge-deployments met beperkte VRAM.
EU-specifieke en domein-modellen
EuroLLM, Salamandra en de Aleph-Alpha-modellen positioneren zich expliciet als Europese alternatieven. Daarnaast zien we groeiend gebruik van domein-finetunes: medische Llama-varianten (Meditron, OpenBioLLM), juridische finetunes en financial-LLM's. Wij toetsen welke variant past bij uw datadomein en regulatory context.
De inferentie-stack: van model-gewichten naar productie-API
Een open-weight model downloaden is de eenvoudige stap. De daadwerkelijke uitdaging zit in het bouwen van een inferentie-laag die throughput, latency, geheugen en betrouwbaarheid verenigt. De keuze van inferentie-engine bepaalt vaak de helft van uw GPU-rekening.
vLLM is de facto standaard geworden voor high-throughput LLM-serving. Continue batching, paged-attention en KV-cache-optimalisatie maken dat een H100 met vLLM 5-10x meer concurrent users aankan dan een naïeve transformers-implementatie. vLLM ondersteunt Llama, Qwen, Mistral, Gemma, DeepSeek en quantization-formats AWQ, GPTQ, GGUF en FP8 native, plus prefix-caching voor RAG-workloads waar dezelfde context herhaaldelijk gebruikt wordt.
Hugging Face Text Generation Inference (TGI) is een sterk alternatief, met goede integratie in het bredere HF-ecosysteem en degelijke Triton-Inference-Server-koppeling. Voor organisaties die al op NVIDIA-stack staan, is NVIDIA NIM (NVIDIA Inference Microservices) een aantrekkelijke optie: kant-en-klare gecontaineriseerde inferentie-microservices met TensorRT-LLM-optimalisaties, FP8-paths op Hopper, en Helm-charts voor Kubernetes. NIM biedt out-of-the-box throughput die met een hand-gebouwde vLLM-deployment moeilijk te evenaren is.
Voor lichtere of edge-deployments zijn Ollama en llama.cpp uitstekend. llama.cpp draait GGUF-gequantizeerde modellen op CPU, op kleinere GPU's of zelfs Apple Silicon, en is een goede keuze voor laptop-copilots of demo-omgevingen. Ollama bouwt daar een gebruiksvriendelijke API-laag overheen, met automatische modelmanagement. Niet elke use case vraagt een 8x H100-cluster — soms is een Mac Studio of een enkele L40S al genoeg.
Quantization is het scharnierpunt tussen modelgrootte en GPU-budget. AWQ (activation-aware weight quantization) en GPTQ leveren INT4-gewichten met <1% nauwkeurigheidsverlies op de meeste benchmarks. FP8 op Hopper-GPU's (H100/H200) combineert hoge throughput met betere kwaliteit dan INT4. GGUF is de gangbare quantization voor llama.cpp en biedt 2-bit tot 8-bit varianten. Voor RAG-pipelines optimaliseren we daarnaast met FlashAttention-2 of -3 voor lange contexten, en TensorRT-LLM-engines voor kritische lage-latency-paden.
GPU-keuzes en capacity planning
De hardware-keuze hangt af van modelgrootte, gelijktijdige gebruikers, gewenste tokens-per-seconde per gebruiker en context-lengtes. Een schets van wat we in productie zien werken.
NVIDIA H100 / H200
De Hopper-generatie blijft de premium keuze voor 70B+-modellen. 80GB HBM3 (H100) of 141GB HBM3e (H200) maakt dat een Llama 3.3 70B Instruct in FP8 op één kaart past, met flinke ruimte voor KV-cache en lange contexten. Voor 405B-modellen of MoE's als DeepSeek-V3 zet u 4-8 kaarten in tensor-parallelisme via NVLink/NVSwitch.
NVIDIA L40S
De Ada-generatie L40S met 48GB GDDR6 is de prijs-prestatie-favoriet voor 7B-tot-30B-modellen en INT4-gequantizeerde 70B. Geen NVLink, dus tensor-parallelisme over PCIe is suboptimaal — maar voor enkelvoudige inferentie of pipeline-parallelisme uitstekend. Vaak de juiste keuze voor mid-market on-prem deployments.
NVIDIA A100
De Ampere-vorige-generatie blijft relevant: 40GB en 80GB-varianten, sterke FP16/BF16-prestaties, breed beschikbaar in tweedehandsmarkt. Geen FP8, dus quantization landt op INT4-AWQ of INT8. Voor veel klanten een goede stap als een nieuwe H100-allocatie maanden wachttijd heeft.
AMD MI300X
192GB HBM3 op één kaart maakt MI300X de enige optie waarop u een 405B-model in BF16 op enkele kaarten kunt draaien. ROCm-toolchain met vLLM en SGLang is in 2025 echt productie-rijp. Voor organisaties die NVIDIA-lock-in willen vermijden of acuut leveringstijd willen verkorten, een serieuze kandidaat.
Capacity planning begint bij vier vragen: welk model, welke quantization, hoeveel gelijktijdige sessies en welke context-lengte. Een Llama 3.3 70B AWQ-INT4 op één H100 levert in vLLM-benchmarks doorgaans 30-60 concurrent users met acceptabele latency op contexten tot 8k. Verdubbeling vraagt een tweede kaart of een agressievere quantization. Wij rekenen voor uw use case door op gemeten tokens-per-seconde, niet op leveranciersmarketing.
Cost vs cloud-LLM: voor steady-state workloads boven ~100M tokens/maand kantelt de TCO van GPU-bezit ten opzichte van publieke API's. Voor sterk piekende of kleine workloads blijft API-pay-per-token economisch — tenzij data-soevereiniteit dat onmogelijk maakt. Wij maken die rekensom expliciet voordat hardware besteld wordt.
Sectoren waar private LLM on-premise vaak de enige optie is
Niet elke organisatie heeft on-prem LLM nodig. Maar voor deze sectoren is de afweging vrijwel altijd al gemaakt door wet- en regelgeving of contractuele verplichtingen.
Zorg (NEN 7510 / NEN 7512 / NEN 7513)
Patiëntdossiers, EPD-data, beeldverslagen en triage-conversaties vallen onder bijzondere persoonsgegevens. Een private LLM voor klinische copilots, ontslagbrief-conceptie of triage-ondersteuning verwerkt deze data binnen het ziekenhuisnetwerk, met audit-trails die NEN 7513 logging-eisen halen. Inzet vraagt vrijwel altijd een DPIA en afstemming met de Functionaris Gegevensbescherming.
Finance (DNB / AFM / DORA)
Banken, verzekeraars en pensioenfondsen onder DNB-toezicht moeten outsourcing-risico's expliciet beheersen. DORA voegt sinds 2025 strikte eisen voor ICT-derde-partijen toe. Een private LLM voor compliance-monitoring, anti-witwas-screening of fraudedetectie houdt verwerking binnen de eigen risicoperimeter. Combineerbaar met onze AI fraud detection-oplossingen en met domein-finetunes op interne policy-documenten.
Overheid (BIO / AVG / Wet open overheid)
Rijks- en gemeente-organisaties werken onder de Baseline Informatiebeveiliging Overheid en aanvullende sectorbaselines. Een on-prem of NL-private-cloud LLM voldoet aan de BIO-eisen rondom dataclassificatie en jurisdictie. Bekijk ook onze pagina's over AI voor gemeenten en overheid voor sector-specifieke implementaties.
Defensie en kritieke infrastructuur
Defensie-aanverwante toeleveranciers, energie-, water- en telecombedrijven onder NIS2 hebben classificatie-eisen die publieke API's uitsluiten. Air-gapped private LLM's zijn dan geen luxe maar noodzaak. Wij ontwerpen deployments waarbij modellen, data en logging fysiek gescheiden blijven van het internet.
M&A en due-diligence
Datarooms, intentieverklaringen en concept-koopovereenkomsten zijn extreem gevoelig: een lek kost een deal of leidt tot koersgevoelige issues. Een private LLM die in een geïsoleerde projectomgeving documenten samenvat, red-flags markeert en vragenlijsten beantwoordt is een natuurlijke fit. Na de transactie wordt de omgeving simpelweg opgedoekt.
Pharma, hightech en advocatuur
R&D-protocollen, octrooidossiers, klinische data, cliëntdossiers — IP en confidentiality-verplichtingen die geen ruimte laten voor publieke API's. Een private LLM die op interne corpora is gefinetuned levert betere resultaten dan een generiek model én voldoet aan de geheimhoudingsverplichtingen.
Test je idee eerst — werkend prototype in 1 dag
Met OneDayBuild maken we je idee in één dag tastbaar voor €950, zodat je weet of verdere ontwikkeling de investering waard is. Besluit je door te gaan met de volledige bouw? Dan verrekenen we de kosten volledig.
Bekijk OneDayBuild →Architectuur: air-gapped, hybrid of multi-tenant
Drie architectuur-patronen dekken de meeste enterprise-cases. Welke past hangt af van risicoprofiel, schaalbehoefte en bestaande infrastructuur.
Air-gapped on-premise
Modellen, vector-stores en logging draaien op infrastructuur zonder uitgaande internetverbinding. Updates van modelgewichten en software gaan via een sluis-procedure: download op een bastion, virusscan, hash-verificatie, transfer naar de gesloten zone. Standaard voor defensie, kritieke infrastructuur en hoogste classificaties bij overheid.
Hybrid: on-prem + cloud burst
Gevoelige verwerking on-prem, niet-gevoelige bulk via een EU-hosted private endpoint of een gemodereerde publieke API. Een classificatie-laag aan de poort routeert iedere prompt naar de juiste backend op basis van datalabels. Voor organisaties die piekschaalbaarheid willen zonder data-soevereiniteit op te geven.
API-gateway voor multi-app
Eén on-prem LLM-cluster bedient meerdere applicaties via een centrale gateway met OAuth/OIDC, per-applicatie rate-limits, prompt-filtering, PII-redactie en quota-monitoring. Vergelijkbaar met een interne OpenAI-API: developers krijgen een token, IT-Security houdt centraal toezicht.
Observability en audit
Volledige prompt/response-logging in een append-only datastore, met PII-pseudonimisering vóór opslag waar nodig. Modelversies, system-prompts en tooling-config worden mee-gelogd voor reproduceerbaarheid. OpenTelemetry-traces tot in de inferentie-engine maken latency-regressies vindbaar.
Model-update-pipeline
Nieuwe modelversies doorlopen een vaste pipeline: download, hash-verificatie, eval-suite (Nederlandse benchmark, RAG-set, refusal-tests), canary-rollout aan 5% van het verkeer, daarna volledige promotie. Rollback in minuten als kwaliteitsmetrieken degraderen.
Fallback-strategie
Bij GPU-uitval of cluster-onderhoud routeert de gateway naar een secundaire pool, een kleiner reserve-model of een gracefully-degraded modus die alleen kritieke verzoeken accepteert. Voor zorg- en finance-toepassingen tekenen we expliciete RTO/RPO-doelen vast in een service-level-objective-document.
Van eerste workshop tot beheerde private-LLM-omgeving
Onze aanpak voor on-prem LLM-projecten volgt vier fasen. Elke fase levert een toetsbaar resultaat — geen abstracte architectuurplaatjes zonder werkend systeem eronder.
Discovery en risicoanalyse
We inventariseren use cases, dataclassificaties, regulatory frame (NEN 7510, BIO, DNB-circulaires, DORA, NIS2) en bestaande infrastructuur. Resultaat: een ranglijst van kandidaat-toepassingen met haalbaarheid en risicoprofiel.
Proof of value op pilot-hardware
Op een testopstelling — vaak één L40S of H100 — draaien we de gekozen kandidaat-modellen tegen uw eigen data. Eval-suite met Nederlandse benchmarks, RAG-relevantie-tests en refusal-tests. Concrete go/no-go op kwaliteit.
Productie-deployment
Cluster-design, GPU-bestelling, vLLM/NIM-orkestratie op Kubernetes, gateway met OAuth en logging, model-update-pipeline. Integratie met identity-provider, SIEM en bestaande monitoring-stack. Test-, acceptatie- en productie-omgeving.
Beheer en doorontwikkeling
SLA-gebonden beheer: 24/7 monitoring, modelversie-rollouts, capaciteitsbewaking, security-patches en regelmatige refusal-eval. Periodieke heroverweging of nieuwere modellen meerwaarde brengen — modelmarkt beweegt snel.
Waarom Appfront voor uw private-LLM-traject
Soevereine stack als uitgangspunt
Wij bouwen al langer software voor sectoren waar Amerikaanse-cloud-by-default geen optie is. Onze defaults zijn EU-hosting, no-egress-architecturen en AVG-art.32-conforme verwerkingsregisters. Dat is geen extra dienst — dat is hoe we standaard werken.
Diepe LLM-engineering
Quantization-keuzes, KV-cache-tuning, paged-attention-config, prefix-caching voor RAG, TensorRT-LLM-engine-build: dit zijn geen aanvinkvakjes maar dagelijks werk. Wij weten wanneer FP8 wel of niet kwaliteit kost en hoe u 2x throughput haalt zonder extra hardware.
Eén partner van workshop tot beheer
Discovery, architectuur, implementatie, integratie met uw applicaties en doorlopend beheer onder één dak. Geen overdracht tussen consultancy en bouwteam, geen verlies van context bij elke fase. U houdt één gesprekspartner voor de hele lifecycle.
Veelgestelde vragen over private LLM on-premise
Private LLM op uw eigen voorwaarden
Bespreek met ons of een on-premise of private-cloud LLM voor uw organisatie haalbaar is. We brengen risico's, modelkeuze en TCO concreet in kaart — vrijblijvend en zonder verplichtingen.
Plan een verkenning