Dienst · Software-ontwikkeling

Custom LLM integraties in uw eigen software.

Een Large Language Model rechtstreeks geïntegreerd in uw applicatie, workflow of klantportaal. Documenten classificeren, samenvatten, doorzoeken of vrije input mappen naar gestructureerde velden — zonder dat uw data het modelhuis verlaat richting een training-set.

Claude · GPT · GeminiPrivate LLMRAG & embeddingsEU data-residency

Plan een kennismaking Lees over AI-strategie

Een LLM is een bouwsteen, geen product.

Een Large Language Model — Claude, GPT-4o, Gemini, Llama — is op zichzelf gewoon een API-call. De waarde ontstaat pas zodra zo'n model écht in uw werkproces zit: het leest uw documenten, het classificeert uw inkomende mails, het zoekt door uw kennisbank, of het mapt klantinput naar de juiste velden in uw CRM. Daar zit ons werk: de integratie, de context, en de bewaking eromheen.

Wij bouwen LLM-integraties als onderdeel van een breder software-traject of als losse capability binnen een bestaande applicatie. Een AI-agent is daarin een specifieke vorm — een multi-step systeem dat tools kan aanroepen. Een LLM-integratie is breder en vaak simpeler: één goed geprompte call, een embedding-search met RAG, of een fine-getunede classifier die in productie staat.

Drie smaken LLM-integratie.

Afhankelijk van wat het model moet doen, hoe gevoelig de data is en hoeveel maatwerk er rond het model heen komt. We adviseren welke past in het eerste gesprek en kijken altijd eerst of een lichtere variant volstaat.

Compact traject · vast sprintbudget

Single-call LLM-feature

Een afgebakende feature in uw applicatie waarin één goed-geprompte LLM-call het werk doet: een binnenkomende mail classificeren, een lang document samenvatten, een review automatisch een sentiment-label geven, of vrije klantinput omzetten naar gestructureerde velden in uw CRM. Cloud-LLM van Anthropic, OpenAI of Google. Inclusief monitoring op token-verbruik en kwaliteit.

Prompt-engineeringClassificatieSummarizationForm-mapping

Middelgroot traject · vast sprintbudget

RAG en semantic search

Het LLM krijgt context uit úw data. We bouwen een retrieval-pipeline op uw documenten, kennisbank of productcatalogus: embeddings, vector-store, semantic search, en een chat- of Q&A-laag die alleen antwoordt op basis van gevonden bronnen. Bronvermelding standaard, hallucinaties beperkt. Geschikt voor interne kennisbanken, klantsupport, en productzoekfuncties.

EmbeddingsVector-storeHybrid searchBronvermelding

Groter traject · vast sprintbudget

Private LLM op uw eigen infrastructuur

Een open-source model — Llama, Mistral, of een gespecialiseerde variant — draaiend op uw eigen cloud of on-premise. Volledige data-controle, geen calls naar externe API's, geen onzekerheid over training-set. We zetten het op via vLLM, Ollama of een managed inferentie-laag, met de bijbehorende monitoring, schaling en autorisatie. Hoger initieel werk, maar voor compliance-gevoelige sectoren vaak de enige route.

Llama / MistralvLLM · OllamaGPU-infraOn-premise

Wat u krijgt aan het einde.

Een productieklare LLM-integratie, plus alles eromheen om die zelf te beheren en bij te sturen op kosten, kwaliteit en privacy.

De LLM-integratie zelfIn productie + staging, draaiend in uw eigen cloud (GCP, AWS, Azure) of bij ons. Voor private LLMs inclusief de inferentie-stack.
Prompt-bibliotheek en evaluatie-setVersie-beheerde prompts, een eval-set met testvoorbeelden, en een rapportje dat aantoont hoe goed het model uw taak doet.
Codebase + architectuur-documentatieVolledige source code, build- en deploy-instructies, en een architectuur-overzicht waarin model-keuze, caching-strategie en data-flow worden uitgelegd.
Kostenbewaking en token-dashboardInzicht in tokens per call, kosten per gebruiker of feature, en alerts wanneer verbruik onverwacht oploopt. Caching ingericht waar dat zinvol is.
Compliance-pakketDPIA waar relevant, AVG-mapping van datastromen, contractuele afspraken met de modelleverancier over data-retentie en training, en een overzicht hoe uw integratie zich verhoudt tot de EU AI Act.
Beheer-contract (optioneel)Monitoring op modelkwaliteit, prompt-onderhoud, doorontwikkeling en migratie als u op een nieuwer model wilt overstappen. Vaste maandprijs.

Wanneer een LLM-integratie de juiste keuze is.

Vier patronen waarin we klanten begeleiden — herkent u er één, dan praten we graag verder. Niet elke use-case vraagt om een LLM; soms is een klassieke regel-engine of een gespecialiseerd model goedkoper en betrouwbaarder.

Documentstromen

Inkomende stroom is te groot voor handmatig

Honderden facturen, contracten, mails of aanvragen per dag die nu handmatig worden gelezen, gesorteerd en doorgezet. Een LLM kan classificeren, samenvatten en de relevante velden eruit halen — uw team houdt tijd over voor de gevallen die echt aandacht vragen.

Kennis ontsluiten

Uw kennisbank wordt niet gevonden

Medewerkers of klanten zoeken in een groeiende berg documenten en vinden net niet wat ze nodig hebben. Semantic search met RAG tilt zoekresultaten van keyword-niveau naar betekenis-niveau, mét bronvermelding zodat u weet waar het antwoord vandaan komt.

Vrije input verwerken

Klanten typen, uw systeem verwacht velden

Lead-formulieren, supportverzoeken, productspecificaties — gebruikers schrijven in vrije tekst, uw CRM of ERP wil gestructureerde data. Een LLM-integratie mapt vrije tekst naar de juiste velden, met validatie en menselijke check waar nodig.

Compliance & privacy

Data mag niet naar een cloud-API

Werkt u met medische, juridische of financiële data waar AVG en sectorregelgeving streng zijn? Dan is een private LLM op uw eigen infrastructuur de aangewezen route — duurder in opzet, maar zonder de privacy-tradeoffs van een externe API.

Waar we LLMs concreet voor inzetten.

De toepassingen die we het vaakst bouwen. De rode draad: een goed afgebakende taak, een meetbare kwaliteitsdrempel en een logging-laag die laat zien wat het model deed.

Documenten

Classificatie en extractie

Inkomende facturen, contracten, mails of aanvragen automatisch labelen en de relevante velden eruit halen — bedrag, datum, partij, type, prioriteit. Voor een grote stroom inkomende post scheelt dat aantoonbaar handmatig werk en zorgt het voor consistente data in uw backoffice.

Tekst & taal

Samenvattingen en vertalingen

Lange documenten in een paar alinea's vatten, of domeinspecifieke vertalingen produceren die juridisch of technisch jargon kennen. Veel betrouwbaarder dan generieke vertaal-API's zodra u het model context geeft over uw vakgebied.

Sentiment & review

Reviews en supporttickets begrijpen

Klantreviews, NPS-toelichtingen of supportverzoeken automatisch labelen op sentiment, onderwerp en urgentie. Levert een dashboard waarmee teams trends zien voordat klachten escaleren.

Zoeken

Semantic search met RAG

Een zoekfunctie die snapt wat een gebruiker bedoelt, niet alleen welke woorden er staan. Combineert keyword-search met embeddings en geeft antwoorden met bronvermelding. Bouwsteen voor zowel interne kennisbanken als productzoekfuncties.

Formulieren

Vrije input naar gestructureerde data

Een klant typt in vrije tekst wat hij zoekt, het LLM mapt dat naar de juiste velden in uw CRM, ERP of order-systeem. Inclusief een menselijke check bij lage zekerheidsscores zodat fouten niet in productie belanden.

Productdata

Productbeschrijvingen genereren

Voor e-commerce-catalogi met duizenden SKU's: consistente, SEO-vriendelijke beschrijvingen op basis van specificaties. Tone-of-voice geborgd via prompt-bibliotheek; mensen blijven in de loop voor steekproef en eindredactie.

Code & SQL

Code- en SQL-generatie in eigen tooling

Een LLM dat queries of code-snippets genereert binnen úw applicatie — bijvoorbeeld een rapportage-tool waarin niet-technische gebruikers in gewone taal vragen kunnen stellen die het model omzet naar veilige SQL.

Privacy

Anonimisatie en redaction

Logs, supportticket-archieven of trainingsdata ontdoen van persoonsgegevens voordat ze verder worden gebruikt. Een LLM herkent patronen die regex misloopt — namen, adressen, polisnummers in vrije tekst.

Modellen en infrastructuur waarmee we werken.

Geen vendor-lock-in op één modelhuis. We kiezen per use-case wat past op kwaliteit, prijs, latency en compliance — en we zorgen dat overstappen op een nieuwer model later geen volledige verbouwing wordt.

Cloud-LLMs

Anthropic, OpenAI, Google, Cohere

Anthropic Claude (Opus, Sonnet, Haiku) voor genuanceerd taalwerk en lange context. OpenAI GPT-4o en o1 voor brede inzet en complexe redenering. Google Gemini binnen Vertex AI voor wie al in Google Cloud zit. Azure OpenAI voor wie Microsoft-stack draait. Cohere voor specifieke embedding- en classification-werk.

ClaudeGPT-4o · o1GeminiAzure OpenAICohere

Open-source & private

Llama, Mistral, vLLM, Ollama

Voor scenario's waarin data niet de deur uit mag. Llama-3 (70B en kleiner), Mistral-varianten en gespecialiseerde fine-tunes draaien wij via vLLM op GPU-instances of via Ollama voor kleinere modellen. Inclusief de operationele laag: schaling, monitoring, autorisatie en kostenbewaking.

Llama-3MistralvLLMOllamaGPU-orchestratie

Retrieval, evaluatie & caching

Vector-stores, evals, prompt-caching

Postgres-pgvector, Qdrant of Pinecone als vector-store, afhankelijk van schaal en bestaande stack. Evaluatie-frameworks om regressie te detecteren bij modelupdates. Prompt-caching van Anthropic en cached prompts van OpenAI worden ingezet waar dat zinvol is — een caching-strategie kan token-kosten in productie aanzienlijk drukken.

pgvectorQdrantPrompt-cachingEval-sets

Hoe een LLM-integratie-traject loopt.

Kennismaking en use-case-scan

Een gesprek waarin we begrijpen welke taak het model moet uitvoeren, welke data daarbij komt kijken, hoe gevoelig die data is en welke kwaliteit acceptabel is. Hier ontstaat ook het eerste antwoord op de cloud-versus-private-vraag.

Prototyping en model-keuze

We testen meerdere modellen — Claude Sonnet, GPT-4o, Gemini, of een Llama-variant — op uw eigen voorbeelden. Aan het eind ligt er een vergelijking op kwaliteit, latency en kosten, plus een advies welk model in welke flow het beste past.

Bouw in sprints

Elke twee weken een werkende build. We bouwen de integratie in uw stack, zetten een evaluatie-set op, richten caching en kostenmonitoring in, en regelen de logging zo dat we kunnen bewijzen welke promptversie welk antwoord gaf. Onderdeel daarvan zijn de eventuele koppelingen met uw bestaande systemen.

Uitrol, evaluatie en beheer

Gefaseerde rollout, eerst voor een kleine gebruikersgroep zodat we ongewenst gedrag opvangen voordat het schaal krijgt. Daarna doorlopend beheer: prompts blijven leven, modellen worden vervangen, en uw eval-set groeit mee.

Veelgestelde vragen.

Wat opdrachtgevers meestal willen weten voor we beginnen — inclusief de meest gestelde vraag: wat kost een private LLM?

Hoe werkt een LLM eigenlijk, op hoofdlijnen?

Een Large Language Model is getraind op enorme hoeveelheden tekst en heeft daarin patronen geleerd. Bij elke vraag voorspelt het, woord voor woord, wat statistisch het meest plausibele volgende stukje tekst is. Het redeneert niet zoals een mens; het herkent patronen. Voor uw integratie betekent dat: hoe duidelijker u de taak afbakent en hoe specifieker de context die u meegeeft, hoe betrouwbaarder het resultaat. Een goed gebouwde LLM-integratie steunt op drie pijlers: zorgvuldige prompts, relevante context (vaak via RAG), en een evaluatie-set die meet of het model uw taak goed doet.

Wat kost een private LLM ten opzichte van een cloud-LLM?

Geen vaste bedragen, maar wel een duidelijke logica. Een cloud-LLM van Anthropic, OpenAI of Google betaalt u per token — voor een afgebakende use-case blijft dat vaak beperkt, zeker met caching. Een private LLM op eigen GPU-infrastructuur heeft hogere vaste kosten (hardware of GPU-instances, beheer, monitoring) maar geen variabele tokenkosten meer. De omslagpunt ligt waar het tokenvolume zo hoog wordt dat een eigen inferentie-stack goedkoper uitkomt — óf, vaker, waar compliance een private route afdwingt, ongeacht de prijs. We rekenen beide scenario's voor u door in de eerste sprint zodat de keuze op feiten staat.

Welk model kiezen we — Claude, GPT, Gemini of Llama?

Dat hangt af van de taak, de data-residency-eisen en de prijs-prestatie-balans. Anthropic Claude is sterk in genuanceerde tekst en lange context; OpenAI GPT-4o is breed inzetbaar en multimodaal; Google Gemini is interessant binnen het Workspace-ecosysteem; Mistral en Llama zijn open-source en geschikt voor private deployment. We testen meerdere modellen op uw eigen voorbeelden voordat we kiezen — een keuze op gevoel of merknaam is zelden de juiste.

Blijft onze data binnen Europa?

Ja, mits we daarvoor kiezen. Anthropic en OpenAI bieden EU-regio-deployments via respectievelijk hun Bedrock- en Azure-varianten, Google Gemini draait via Vertex AI in EU-regio's, en een private LLM op uw eigen Europese cloud of on-premise houdt data sowieso binnen Europa. We leggen de keuze contractueel vast en documenteren de datastromen voor uw AVG-administratie.

Wat met AVG en de EU AI Act?

Voor de AVG geldt: persoonsgegevens die u door een LLM laat verwerken vragen om een verwerkersovereenkomst met de modelleverancier, een DPIA bij hogere risico's en een duidelijke documentatie van welke data waar terechtkomt. De EU AI Act voegt daar een classificatie aan toe — afhankelijk van de toepassing valt uw integratie onder minimale, beperkte of hoge risico-eisen. We mappen uw use-case bij de start tegen beide kaders en bouwen de integratie zo dat u aantoonbaar voldoet.

Worden onze data gebruikt om het model te trainen?

Niet bij de zakelijke API-tiers die wij gebruiken. Anthropic, OpenAI (via de API, niet de gratis ChatGPT-app) en Google Vertex AI bieden contractuele garanties dat inputs en outputs niet worden ingezet voor training. We leggen die clausules expliciet vast en kiezen bij twijfel voor een private LLM zodat uw data het modelhuis sowieso niet bereikt.

Hoe lang duurt zo'n traject?

Voor een afgebakende single-call feature kunnen we binnen enkele sprints in productie staan. Een RAG-traject met grotere documentcorpora vraagt vaak een paar extra sprints voor data-pipeline en evaluatie. Een volledige private-LLM-opzet inclusief infrastructuur is een traject van meerdere sprints. We werken sowieso iteratief: na de eerste sprint heeft u een prototype waar u op kunt sturen.

Werken jullie samen met onze interne IT- of data-afdeling?

Vrijwel altijd. We doen kennisoverdracht gedurende het traject, leveren een runbook voor incidenten en spreken duidelijke verantwoordelijkheden af. Voor organisaties die LLM-werk structureler willen oppakken combineren we deze integratie graag met een lichte AI-strategie, zodat de eerste integratie niet op zichzelf staat maar onderdeel is van een groter plan.

Praat met ons over uw LLM-integratie.

Een kennismaking van een half uur, vrijblijvend. Wij luisteren naar uw use-case, stellen vragen over data, compliance en kwaliteit, en geven richting waar u iets aan heeft — ook als het uiteindelijke advies is om geen LLM in te zetten. Voor grotere trajecten kunt u dit gesprek combineren met een verkenning richting enterprise AI-implementatie.

Plan een kennismaking Of bekijk meer cases