Private LLM on-premise: data-soevereine AI binnen uw eigen muren

Q: Wat is het verschil tussen on-premise, private cloud en publieke LLM-API?

On-premise betekent dat de GPU-hardware en het model fysiek in uw eigen datacenter of colocatie staan, onder uw eigen netwerk- en toegangscontrole. Private cloud is een dedicated tenant bij een (Nederlandse) cloud-provider, logisch geïsoleerd maar fysiek gedeeld in dezelfde regio. Publieke LLM-API stuurt prompts naar een gedeelde multi-tenant-dienst van een externe leverancier. De keuze hangt af van data-classificatie, controlebehoefte en beschikbaar IT-personeel.

Q: Welk open-weight model is op dit moment het beste voor Nederlandstalige enterprise-use?

Voor algemene Nederlandstalige zakelijke toepassingen presteert Llama 3.3 70B Instruct doorgaans goed, met Qwen 2.5-72B en Mistral Medium als sterke alternatieven. De feitelijke keuze hangt af van uw use case: code-assist vraagt andere finetunes dan klinische conceptie of contractanalyse. Wij draaien een eval-suite op uw eigen data voor een onderbouwde keuze.

Q: Hoeveel GPU-capaciteit heb ik nodig voor 100 gelijktijdige gebruikers?

Als ruwe vuistregel: een Llama 3.3 70B in AWQ-INT4 op één H100 kan met vLLM 30-60 gelijktijdige sessies aan met acceptabele latency op contexten tot 8k tokens. Voor 100 gebruikers met langere contexten of hogere tokens-per-second-eisen rekent u op 2-4 H100's, of een MoE-model op 4-8 kaarten. Capacity planning hangt sterk af van prompt-lengte, output-lengte en gewenste latency. Wij benchmarken met representatieve verkeerprofielen.

Q: Voldoet on-premise LLM aan de AVG en sectorale baselines zoals NEN 7510 of de BIO?

On-premise is een belangrijke randvoorwaarde, niet de hele oplossing. AVG-conformiteit vraagt daarnaast een DPIA, dataminimalisatie, doelbinding, retentiebeleid, audit-trails en passende technische en organisatorische maatregelen onder art. 32. NEN 7510 en BIO voegen sectorale eisen toe rondom logging, segmentatie en autorisatie. Wij leveren de inrichting die op deze frameworks toetsbaar is, inclusief documentatie en betrokkenheid van uw FG/CISO.

Q: Kan ik mijn private LLM ook fine-tunen op interne data?

Ja. Voor de meeste use cases is RAG (retrieval-augmented generation) het eerste antwoord: u houdt het basismodel ongewijzigd en haalt uw data op uit een vector-store. Voor gespecialiseerde domeinen — juridisch jargon, medische terminologie, eigen taxonomieën — voegen we LoRA- of full-finetuning toe op uw eigen GPU-infrastructuur. Trainingsdata blijft binnen het pand; er gaat niets naar een externe provider.

Q: Wat gebeurt er als er morgen een beter open-weight model uitkomt?

Onze deployments zijn modulair opgezet via vLLM, TGI of NIM. Een nieuw model toevoegen betekent: gewichten downloaden, hash-verifiëren, door de eval-suite halen, canary-rollout. Geen herontwerp van de stack. De modelmarkt beweegt snel; wij hebben dat verandertempo expliciet ingebouwd in de architectuur.

Q: Hoe verhoudt de TCO zich tot publieke API-kosten?

Voor steady-state workloads boven enkele tientallen miljoenen tokens per maand kantelt de rekensom doorgaans richting eigen GPU-bezit, ook na meerekenen van afschrijving, stroom, koeling en beheer. Voor sterk piekende of zeer kleine workloads blijft pay-per-token aantrekkelijker — tenzij de regulatory framework die optie uitsluit. Wij maken de business case expliciet voordat hardware besteld wordt.

Q: Kan een private LLM volledig air-gapped draaien?

Ja. We hebben deployments waarbij de inferentie-omgeving geen uitgaande verbinding heeft. Modelupdates, software-patches en CVE-fixes lopen via een sluis-procedure: bastion-host downloadt, scant en hashes; transfer naar de gesloten zone gebeurt via gecontroleerde media of een eenrichtingsverbinding. Logging blijft volledig binnen de zone. Standaard voor defensie en hoogste-classificatie-overheidstoepassingen.

Voor organisaties die generatieve AI willen inzetten zónder gevoelige data buiten de eigen infrastructuur te brengen. Wij ontwerpen, implementeren en beheren on-premise large-language-modellen — Llama 3.3, Qwen, Mistral, DeepSeek en Gemma — op uw eigen GPU-cluster of in een Nederlandse private-cloud-zone. Geen US-cloud, geen trainingslek, geen onverwachte modelwissels: u houdt volledige controle over data, modellen en audit-trails.

vLLM & TGI NVIDIA NIM Air-gapped deployments Quantization (AWQ/GPTQ/FP8) NEN 7510 / BIO / AVG

Bespreek uw on-prem case Bekijk architectuur

Waarom on-premise of private-cloud LLM's, en niet de publieke API

Voor de meeste organisaties begint het verhaal bij dezelfde vraag: mogen patiëntdossiers, hypotheekaanvragen, due-diligence-stukken of operationele militaire data überhaupt door een Amerikaanse cloud-LLM worden verwerkt? Het antwoord is meestal genuanceerder dan ja of nee, maar in vier domeinen is het hek van de dam.

Het eerste domein is data-soevereiniteit. Sinds Schrems II is de juridische basis voor data-export naar de Verenigde Staten broos: organisaties moeten per verwerkingsstroom afwegen of standard contractual clauses, een transfer impact assessment en aanvullende technische maatregelen voldoende zijn. Voor zorginstellingen onder NEN 7510, voor financiële instellingen onder DNB- en AFM-toezicht, voor overheid onder de BIO en voor defensie-aanverwante organisaties is die afweging in de praktijk vrijwel altijd negatief. On-premise of een Nederlandse private-cloud-zone zonder transatlantische verwerking maakt de discussie eenvoudig: data verlaat het pand niet.

Het tweede domein is no-train guarantees. Publieke API-leveranciers belijden dat enterprise-data niet voor modeltraining wordt gebruikt — maar de juridische afdwingbaarheid is gelimiteerd, telemetrie loopt vaak buiten de EU, en bij elke modelwissel of policy-update verandert de feitelijke verwerking. Een private LLM die u zelf draait, kan eenvoudigweg nooit per ongeluk in een trainingsbatch belanden. Voor IP-gevoelige sectoren — pharma, hightech, advocatuur, M&A-bureaus — is dat een keiharde voorwaarde.

Het derde domein is latency en beschikbaarheid. Inferentie binnen het eigen datacenter levert sub-100ms time-to-first-token in plaats van 400-1500ms over een transatlantische verbinding. Voor real-time use cases — interactieve copilots, agent-loops met meerdere tool-calls per seconde, voice-AI — is dat het verschil tussen werkbaar en frustrerend. Bovendien valt u niet uit als de upstream-provider een storing heeft of plotseling rate-limits aanscherpt.

Het vierde domein is auditbaarheid. AVG art. 32 verlangt dat u kunt aantonen welke gegevens zijn verwerkt, door welk model, met welk resultaat en door welke gebruiker. ENISA-richtlijnen voor AI-systemen versterken dat. Op een private LLM kunt u elke prompt, elke response, elke modelversie en elke gewogen output volledig vastleggen — zonder afhankelijkheid van wat een externe leverancier in zijn auditlog opneemt.

AI-ontwikkeling Custom LLM-integraties GDPR-compliance platform NIS2-compliant software

Welke open-weight modellen werken vandaag on-premise

De afgelopen achttien maanden is open-weight in veel benchmarks competitief geworden met de grootste closed-source modellen. Voor de meeste enterprise-use-cases — RAG, samenvatten, classificeren, code-assist, gestructureerde extractie — is on-prem inmiddels een volwaardig alternatief. Een korte oriëntatie op het modellandschap.

🦙

Llama 3.1 / 3.3 (Meta)

De Llama-familie levert solide algemene Engels- en Nederlandstalige prestaties op 8B, 70B en 405B parameters. Llama 3.3 70B Instruct is de werkpaardgrootte voor bedrijfschats en RAG: redelijk te quantizeren naar AWQ-INT4 op één H100 of L40S, met sterke instruction-following en tool-use. De licentie staat commercieel gebruik toe binnen de bekende drempels.

🐉

Qwen 2.5 / 3 (Alibaba)

Qwen 2.5-72B en de recentere Qwen 3-series scoren bijzonder goed op meertalige benchmarks, code en wiskunde. Qwen 2.5-Coder-32B is een populaire keuze voor on-prem code-assistants. De Apache-2.0-licentie van veel varianten is voor enterprise-juristen prettiger dan de Llama-community-licentie.

🌬️

Mistral & Mixtral

Mistral Small/Medium en de Mixtral 8x22B mixture-of-experts-modellen zijn Europese open-weight kandidaten met expliciet enterprise-gerichte licenties. Mixtral combineert hoge effectieve capaciteit met relatief lage actieve parameters per token, wat throughput op duurdere GPU's gunstig houdt.

🐳

DeepSeek (V3 / R1)

DeepSeek-V3 en de redeneer-variant R1 hebben open-weights van flink formaat (671B MoE met ~37B actief). Voor reasoning-heavy taken — juridisch, wetenschappelijk, financiële analyse — is een gequantizeerde DeepSeek-distill een interessante on-prem optie, mits u accepteert dat de basismodellen zelf in China zijn getraind: de gewichten zijn lokaal en doen niets richting upstream.

💎

Gemma 2 / 3 (Google)

Gemma 2-27B en Gemma 3 zijn relatief kleine, scherp-gekalibreerde modellen. Gemma 3 met multimodale vision en lange context is interessant voor documentverwerkingspijplijnen waar OCR + tekst gecombineerd worden. Goede kandidaat voor edge-deployments met beperkte VRAM.

🇪🇺

EU-specifieke en domein-modellen

EuroLLM, Salamandra en de Aleph-Alpha-modellen positioneren zich expliciet als Europese alternatieven. Daarnaast zien we groeiend gebruik van domein-finetunes: medische Llama-varianten (Meditron, OpenBioLLM), juridische finetunes en financial-LLM's. Wij toetsen welke variant past bij uw datadomein en regulatory context.

De inferentie-stack: van model-gewichten naar productie-API

Een open-weight model downloaden is de eenvoudige stap. De daadwerkelijke uitdaging zit in het bouwen van een inferentie-laag die throughput, latency, geheugen en betrouwbaarheid verenigt. De keuze van inferentie-engine bepaalt vaak de helft van uw GPU-rekening.

vLLM is de facto standaard geworden voor high-throughput LLM-serving. Continue batching, paged-attention en KV-cache-optimalisatie maken dat een H100 met vLLM 5-10x meer concurrent users aankan dan een naïeve transformers-implementatie. vLLM ondersteunt Llama, Qwen, Mistral, Gemma, DeepSeek en quantization-formats AWQ, GPTQ, GGUF en FP8 native, plus prefix-caching voor RAG-workloads waar dezelfde context herhaaldelijk gebruikt wordt.

Hugging Face Text Generation Inference (TGI) is een sterk alternatief, met goede integratie in het bredere HF-ecosysteem en degelijke Triton-Inference-Server-koppeling. Voor organisaties die al op NVIDIA-stack staan, is NVIDIA NIM (NVIDIA Inference Microservices) een aantrekkelijke optie: kant-en-klare gecontaineriseerde inferentie-microservices met TensorRT-LLM-optimalisaties, FP8-paths op Hopper, en Helm-charts voor Kubernetes. NIM biedt out-of-the-box throughput die met een hand-gebouwde vLLM-deployment moeilijk te evenaren is.

Voor lichtere of edge-deployments zijn Ollama en llama.cpp uitstekend. llama.cpp draait GGUF-gequantizeerde modellen op CPU, op kleinere GPU's of zelfs Apple Silicon, en is een goede keuze voor laptop-copilots of demo-omgevingen. Ollama bouwt daar een gebruiksvriendelijke API-laag overheen, met automatische modelmanagement. Niet elke use case vraagt een 8x H100-cluster — soms is een Mac Studio of een enkele L40S al genoeg.

Quantization is het scharnierpunt tussen modelgrootte en GPU-budget. AWQ (activation-aware weight quantization) en GPTQ leveren INT4-gewichten met <1% nauwkeurigheidsverlies op de meeste benchmarks. FP8 op Hopper-GPU's (H100/H200) combineert hoge throughput met betere kwaliteit dan INT4. GGUF is de gangbare quantization voor llama.cpp en biedt 2-bit tot 8-bit varianten. Voor RAG-pipelines optimaliseren we daarnaast met FlashAttention-2 of -3 voor lange contexten, en TensorRT-LLM-engines voor kritische lage-latency-paden.

vLLM TGI NVIDIA NIM Triton Inference Server TensorRT-LLM FlashAttention-3 paged-attention KV-cache AWQ GPTQ GGUF FP8 llama.cpp Ollama Kubernetes Helm

GPU-keuzes en capacity planning

De hardware-keuze hangt af van modelgrootte, gelijktijdige gebruikers, gewenste tokens-per-seconde per gebruiker en context-lengtes. Een schets van wat we in productie zien werken.

NVIDIA H100 / H200

De Hopper-generatie blijft de premium keuze voor 70B+-modellen. 80GB HBM3 (H100) of 141GB HBM3e (H200) maakt dat een Llama 3.3 70B Instruct in FP8 op één kaart past, met flinke ruimte voor KV-cache en lange contexten. Voor 405B-modellen of MoE's als DeepSeek-V3 zet u 4-8 kaarten in tensor-parallelisme via NVLink/NVSwitch.

NVIDIA L40S

De Ada-generatie L40S met 48GB GDDR6 is de prijs-prestatie-favoriet voor 7B-tot-30B-modellen en INT4-gequantizeerde 70B. Geen NVLink, dus tensor-parallelisme over PCIe is suboptimaal — maar voor enkelvoudige inferentie of pipeline-parallelisme uitstekend. Vaak de juiste keuze voor mid-market on-prem deployments.

NVIDIA A100

De Ampere-vorige-generatie blijft relevant: 40GB en 80GB-varianten, sterke FP16/BF16-prestaties, breed beschikbaar in tweedehandsmarkt. Geen FP8, dus quantization landt op INT4-AWQ of INT8. Voor veel klanten een goede stap als een nieuwe H100-allocatie maanden wachttijd heeft.

AMD MI300X

192GB HBM3 op één kaart maakt MI300X de enige optie waarop u een 405B-model in BF16 op enkele kaarten kunt draaien. ROCm-toolchain met vLLM en SGLang is in 2025 echt productie-rijp. Voor organisaties die NVIDIA-lock-in willen vermijden of acuut leveringstijd willen verkorten, een serieuze kandidaat.

Capacity planning begint bij vier vragen: welk model, welke quantization, hoeveel gelijktijdige sessies en welke context-lengte. Een Llama 3.3 70B AWQ-INT4 op één H100 levert in vLLM-benchmarks doorgaans 30-60 concurrent users met acceptabele latency op contexten tot 8k. Verdubbeling vraagt een tweede kaart of een agressievere quantization. Wij rekenen voor uw use case door op gemeten tokens-per-seconde, niet op leveranciersmarketing.

Cost vs cloud-LLM: voor steady-state workloads boven ~100M tokens/maand kantelt de TCO van GPU-bezit ten opzichte van publieke API's. Voor sterk piekende of kleine workloads blijft API-pay-per-token economisch — tenzij data-soevereiniteit dat onmogelijk maakt. Wij maken die rekensom expliciet voordat hardware besteld wordt.

Sectoren waar private LLM on-premise vaak de enige optie is

Niet elke organisatie heeft on-prem LLM nodig. Maar voor deze sectoren is de afweging vrijwel altijd al gemaakt door wet- en regelgeving of contractuele verplichtingen.

Zorg (NEN 7510 / NEN 7512 / NEN 7513)

Patiëntdossiers, EPD-data, beeldverslagen en triage-conversaties vallen onder bijzondere persoonsgegevens. Een private LLM voor klinische copilots, ontslagbrief-conceptie of triage-ondersteuning verwerkt deze data binnen het ziekenhuisnetwerk, met audit-trails die NEN 7513 logging-eisen halen. Inzet vraagt vrijwel altijd een DPIA en afstemming met de Functionaris Gegevensbescherming.

Finance (DNB / AFM / DORA)

Banken, verzekeraars en pensioenfondsen onder DNB-toezicht moeten outsourcing-risico's expliciet beheersen. DORA voegt sinds 2025 strikte eisen voor ICT-derde-partijen toe. Een private LLM voor compliance-monitoring, anti-witwas-screening of fraudedetectie houdt verwerking binnen de eigen risicoperimeter. Combineerbaar met onze AI fraud detection-oplossingen en met domein-finetunes op interne policy-documenten.

Overheid (BIO / AVG / Wet open overheid)

Rijks- en gemeente-organisaties werken onder de Baseline Informatiebeveiliging Overheid en aanvullende sectorbaselines. Een on-prem of NL-private-cloud LLM voldoet aan de BIO-eisen rondom dataclassificatie en jurisdictie. Bekijk ook onze pagina's over AI voor gemeenten en overheid voor sector-specifieke implementaties.

Defensie en kritieke infrastructuur

Defensie-aanverwante toeleveranciers, energie-, water- en telecombedrijven onder NIS2 hebben classificatie-eisen die publieke API's uitsluiten. Air-gapped private LLM's zijn dan geen luxe maar noodzaak. Wij ontwerpen deployments waarbij modellen, data en logging fysiek gescheiden blijven van het internet.

M&A en due-diligence

Datarooms, intentieverklaringen en concept-koopovereenkomsten zijn extreem gevoelig: een lek kost een deal of leidt tot koersgevoelige issues. Een private LLM die in een geïsoleerde projectomgeving documenten samenvat, red-flags markeert en vragenlijsten beantwoordt is een natuurlijke fit. Na de transactie wordt de omgeving simpelweg opgedoekt.

Pharma, hightech en advocatuur

R&D-protocollen, octrooidossiers, klinische data, cliëntdossiers — IP en confidentiality-verplichtingen die geen ruimte laten voor publieke API's. Een private LLM die op interne corpora is gefinetuned levert betere resultaten dan een generiek model én voldoet aan de geheimhoudingsverplichtingen.

Architectuur: air-gapped, hybrid of multi-tenant

Drie architectuur-patronen dekken de meeste enterprise-cases. Welke past hangt af van risicoprofiel, schaalbehoefte en bestaande infrastructuur.

Air-gapped on-premise

Modellen, vector-stores en logging draaien op infrastructuur zonder uitgaande internetverbinding. Updates van modelgewichten en software gaan via een sluis-procedure: download op een bastion, virusscan, hash-verificatie, transfer naar de gesloten zone. Standaard voor defensie, kritieke infrastructuur en hoogste classificaties bij overheid.

Hybrid: on-prem + cloud burst

Gevoelige verwerking on-prem, niet-gevoelige bulk via een EU-hosted private endpoint of een gemodereerde publieke API. Een classificatie-laag aan de poort routeert iedere prompt naar de juiste backend op basis van datalabels. Voor organisaties die piekschaalbaarheid willen zonder data-soevereiniteit op te geven.

API-gateway voor multi-app

Eén on-prem LLM-cluster bedient meerdere applicaties via een centrale gateway met OAuth/OIDC, per-applicatie rate-limits, prompt-filtering, PII-redactie en quota-monitoring. Vergelijkbaar met een interne OpenAI-API: developers krijgen een token, IT-Security houdt centraal toezicht.

Observability en audit

Volledige prompt/response-logging in een append-only datastore, met PII-pseudonimisering vóór opslag waar nodig. Modelversies, system-prompts en tooling-config worden mee-gelogd voor reproduceerbaarheid. OpenTelemetry-traces tot in de inferentie-engine maken latency-regressies vindbaar.

Model-update-pipeline

Nieuwe modelversies doorlopen een vaste pipeline: download, hash-verificatie, eval-suite (Nederlandse benchmark, RAG-set, refusal-tests), canary-rollout aan 5% van het verkeer, daarna volledige promotie. Rollback in minuten als kwaliteitsmetrieken degraderen.

Fallback-strategie

Bij GPU-uitval of cluster-onderhoud routeert de gateway naar een secundaire pool, een kleiner reserve-model of een gracefully-degraded modus die alleen kritieke verzoeken accepteert. Voor zorg- en finance-toepassingen tekenen we expliciete RTO/RPO-doelen vast in een service-level-objective-document.

AI voor banken & finance AI in de zorgsector Datacenter-software op maat

Van eerste workshop tot beheerde private-LLM-omgeving

Onze aanpak voor on-prem LLM-projecten volgt vier fasen. Elke fase levert een toetsbaar resultaat — geen abstracte architectuurplaatjes zonder werkend systeem eronder.

Discovery en risicoanalyse

We inventariseren use cases, dataclassificaties, regulatory frame (NEN 7510, BIO, DNB-circulaires, DORA, NIS2) en bestaande infrastructuur. Resultaat: een ranglijst van kandidaat-toepassingen met haalbaarheid en risicoprofiel.

Proof of value op pilot-hardware

Op een testopstelling — vaak één L40S of H100 — draaien we de gekozen kandidaat-modellen tegen uw eigen data. Eval-suite met Nederlandse benchmarks, RAG-relevantie-tests en refusal-tests. Concrete go/no-go op kwaliteit.

Productie-deployment

Cluster-design, GPU-bestelling, vLLM/NIM-orkestratie op Kubernetes, gateway met OAuth en logging, model-update-pipeline. Integratie met identity-provider, SIEM en bestaande monitoring-stack. Test-, acceptatie- en productie-omgeving.

Beheer en doorontwikkeling

SLA-gebonden beheer: 24/7 monitoring, modelversie-rollouts, capaciteitsbewaking, security-patches en regelmatige refusal-eval. Periodieke heroverweging of nieuwere modellen meerwaarde brengen — modelmarkt beweegt snel.

Waarom Appfront voor uw private-LLM-traject

Soevereine stack als uitgangspunt

Wij bouwen al langer software voor sectoren waar Amerikaanse-cloud-by-default geen optie is. Onze defaults zijn EU-hosting, no-egress-architecturen en AVG-art.32-conforme verwerkingsregisters. Dat is geen extra dienst — dat is hoe we standaard werken.

Diepe LLM-engineering

Quantization-keuzes, KV-cache-tuning, paged-attention-config, prefix-caching voor RAG, TensorRT-LLM-engine-build: dit zijn geen aanvinkvakjes maar dagelijks werk. Wij weten wanneer FP8 wel of niet kwaliteit kost en hoe u 2x throughput haalt zonder extra hardware.

Eén partner van workshop tot beheer

Discovery, architectuur, implementatie, integratie met uw applicaties en doorlopend beheer onder één dak. Geen overdracht tussen consultancy en bouwteam, geen verlies van context bij elke fase. U houdt één gesprekspartner voor de hele lifecycle.

Plan een verkenning AI-consultant voor uw bedrijf Interim AI tech-lead AI-implementatiepartner

Veelgestelde vragen over private LLM on-premise

Wat is het verschil tussen on-premise, private cloud en publieke LLM-API?

On-premise betekent dat de GPU-hardware en het model fysiek in uw eigen datacenter of colocatie staan, onder uw eigen netwerk- en toegangscontrole. Private cloud is een dedicated tenant bij een (Nederlandse) cloud-provider, logisch geïsoleerd maar fysiek gedeeld in dezelfde regio. Publieke LLM-API stuurt prompts naar een gedeelde multi-tenant-dienst van een externe leverancier. De keuze hangt af van data-classificatie, controlebehoefte en beschikbaar IT-personeel.

Welk open-weight model is op dit moment het beste voor Nederlandstalige enterprise-use?

Voor algemene Nederlandstalige zakelijke toepassingen presteert Llama 3.3 70B Instruct doorgaans goed, met Qwen 2.5-72B en Mistral Medium als sterke alternatieven. De feitelijke keuze hangt af van uw use case: code-assist vraagt andere finetunes dan klinische conceptie of contractanalyse. Wij draaien een eval-suite op uw eigen data voor een onderbouwde keuze.

Hoeveel GPU-capaciteit heb ik nodig voor 100 gelijktijdige gebruikers?

Als ruwe vuistregel: een Llama 3.3 70B in AWQ-INT4 op één H100 kan met vLLM 30-60 gelijktijdige sessies aan met acceptabele latency op contexten tot 8k tokens. Voor 100 gebruikers met langere contexten of hogere tokens-per-second-eisen rekent u op 2-4 H100's, of een MoE-model op 4-8 kaarten. Capacity planning hangt sterk af van prompt-lengte, output-lengte en gewenste latency. Wij benchmarken met representatieve verkeerprofielen.

Voldoet on-premise LLM aan de AVG en sectorale baselines zoals NEN 7510 of de BIO?

On-premise is een belangrijke randvoorwaarde, niet de hele oplossing. AVG-conformiteit vraagt daarnaast een DPIA, dataminimalisatie, doelbinding, retentiebeleid, audit-trails en passende technische en organisatorische maatregelen onder art. 32. NEN 7510 en BIO voegen sectorale eisen toe rondom logging, segmentatie en autorisatie. Wij leveren de inrichting die op deze frameworks toetsbaar is, inclusief documentatie en betrokkenheid van uw FG/CISO.

Kan ik mijn private LLM ook fine-tunen op interne data?

Ja. Voor de meeste use cases is RAG (retrieval-augmented generation) het eerste antwoord: u houdt het basismodel ongewijzigd en haalt uw data op uit een vector-store. Voor gespecialiseerde domeinen — juridisch jargon, medische terminologie, eigen taxonomieën — voegen we LoRA- of full-finetuning toe op uw eigen GPU-infrastructuur. Trainingsdata blijft binnen het pand; er gaat niets naar een externe provider.

Wat gebeurt er als er morgen een beter open-weight model uitkomt?

Onze deployments zijn modulair opgezet via vLLM, TGI of NIM. Een nieuw model toevoegen betekent: gewichten downloaden, hash-verifiëren, door de eval-suite halen, canary-rollout. Geen herontwerp van de stack. De modelmarkt beweegt snel; wij hebben dat verandertempo expliciet ingebouwd in de architectuur.

Hoe verhoudt de TCO zich tot publieke API-kosten?

Voor steady-state workloads boven enkele tientallen miljoenen tokens per maand kantelt de rekensom doorgaans richting eigen GPU-bezit, ook na meerekenen van afschrijving, stroom, koeling en beheer. Voor sterk piekende of zeer kleine workloads blijft pay-per-token aantrekkelijker — tenzij de regulatory framework die optie uitsluit. Wij maken de business case expliciet voordat hardware besteld wordt.

Kan een private LLM volledig air-gapped draaien?

Ja. We hebben deployments waarbij de inferentie-omgeving geen uitgaande verbinding heeft. Modelupdates, software-patches en CVE-fixes lopen via een sluis-procedure: bastion-host downloadt, scant en hashes; transfer naar de gesloten zone gebeurt via gecontroleerde media of een eenrichtingsverbinding. Logging blijft volledig binnen de zone. Standaard voor defensie en hoogste-classificatie-overheidstoepassingen.

Private LLM op uw eigen voorwaarden

Bespreek met ons of een on-premise of private-cloud LLM voor uw organisatie haalbaar is. We brengen risico's, modelkeuze en TCO concreet in kaart — vrijblijvend en zonder verplichtingen.

Plan een verkenning

Private LLM on-premise: data-soevereine AI binnen uw eigen muren

Waarom on-premise of private-cloud LLM's, en niet de publieke API

Welke open-weight modellen werken vandaag on-premise

Llama 3.1 / 3.3 (Meta)

Qwen 2.5 / 3 (Alibaba)

Mistral & Mixtral

DeepSeek (V3 / R1)

Gemma 2 / 3 (Google)

EU-specifieke en domein-modellen

De inferentie-stack: van model-gewichten naar productie-API

GPU-keuzes en capacity planning

NVIDIA H100 / H200

NVIDIA L40S

NVIDIA A100

AMD MI300X

Sectoren waar private LLM on-premise vaak de enige optie is

Zorg (NEN 7510 / NEN 7512 / NEN 7513)

Finance (DNB / AFM / DORA)

Overheid (BIO / AVG / Wet open overheid)

Defensie en kritieke infrastructuur

M&A en due-diligence

Pharma, hightech en advocatuur

Test je idee eerst — werkend prototype in 1 dag

Architectuur: air-gapped, hybrid of multi-tenant

Air-gapped on-premise

Hybrid: on-prem + cloud burst

API-gateway voor multi-app

Observability en audit

Model-update-pipeline

Fallback-strategie

Van eerste workshop tot beheerde private-LLM-omgeving

Discovery en risicoanalyse

Proof of value op pilot-hardware

Productie-deployment

Beheer en doorontwikkeling

Waarom Appfront voor uw private-LLM-traject

Soevereine stack als uitgangspunt

Diepe LLM-engineering

Eén partner van workshop tot beheer

Veelgestelde vragen over private LLM on-premise

Private LLM op uw eigen voorwaarden

Edit Content