AI cost optimization: grip op uw LLM-rekening voordat hij u verrast
Wat begon als een proof-of-concept van enkele tientjes, groeit binnen een paar maanden uit tot maandfacturen van duizenden euro's bij OpenAI, Anthropic of Google. Wij helpen engineering- en finance-teams om die LLM-kosten transparant te maken, technisch te verlagen en voorspelbaar te houden — zonder dat de kwaliteit van uw AI-product eronder lijdt.
Vraag een kostenscan aan Bekijk strategieënWaarom uw LLM-rekening sneller groeit dan uw productadoptie
De pricing van large language models lijkt op het eerste gezicht overzichtelijk: een bedrag per miljoen input-tokens en een bedrag per miljoen output-tokens. In de praktijk lopen kosten alsnog uit de hand omdat tokens zich opstapelen op plekken waar engineers er niet op letten — system prompts die bij elke call meegestuurd worden, retrieval-context die ongelimiteerd groeit, agentic loops die zichzelf opnieuw aanroepen en chat-geschiedenis die tot tienduizenden tokens uitdijt.
Een chatbot met tienduizend conversaties per dag, een gemiddelde context van vijfduizend tokens en een topmodel zoals GPT-4o of Claude Sonnet als enige router komt al snel uit boven de duizend euro per dag. Een agentic-systeem dat per gebruikersactie tien tot twintig modelaanroepen doet — voor planning, tool-selectie, observatie en reflectie — vermenigvuldigt die rekening nog eens met factor tien. Wie nooit een baseline meet, ziet pas op het einde van de maand wat er gebeurd is.
AI cost optimization is geen eenmalige technische ingreep, maar een doorlopend FinOps-proces voor large language models: meten, attribueren per feature en team, optimaliseren op het niveau dat de meeste kosten veroorzaakt en blijven monitoren naarmate uw volume groeit. De goede tool of techniek hangt af van uw workload — een batch-pipeline vraagt om iets anders dan een real-time copiloot.
De zeven hefbomen die uw LLM-kosten echt verlagen
Niet elke besparingstactiek werkt voor elke workload. Hieronder de technische hefbomen waarop wij sturen — gerangschikt naar typische impact wanneer ze passend zijn bij uw use case.
Prompt-caching
Anthropic en OpenAI ondersteunen prompt-caching: bij Claude levert een cache-hit tot negentig procent korting op input-tokens, bij OpenAI ongeveer vijftig procent. Werkt vooral voor lange system prompts, statische context en RAG-fragmenten die over meerdere requests gelijk blijven. Wij structureren uw prompts zo dat het cacheable deel vooraan staat en zorgen dat de TTL aansluit op uw verkeerspatroon.
Model-routing
De meeste verzoeken in een productie-pipeline zijn simpel — classificatie, extractie, samenvatting. Routeer die naar een goedkoop model zoals Claude Haiku, GPT-4o-mini of Gemini Flash en stuur alleen de complexe redeneer-taken naar Sonnet, GPT-4o of Opus. Een LLM-as-router patroon, of dedicated routers zoals Martian, Portkey of Eden AI, beslist per request welk model het meest geschikt is.
Batch API
Voor alles wat niet real-time hoeft — embedding-pipelines, document-classificatie, nightly enrichment, dataset-cleaning — biedt OpenAI Batch een korting van vijftig procent met een SLA van vierentwintig uur, en Anthropic een vergelijkbare Message Batches API. Wij splitsen uw workload in real-time en async lagen en zetten alles wat kan in batches met cron-aansturing en resume-logica.
Semantic caching
Bij chatbots en search-interfaces komen veel gebruikersvragen op semantisch niveau overeen, ook als de exacte tekst verschilt. Een vector-cache (Redis met embeddings, GPTCache of Portkey-semantic-cache) matcht vergelijkbare queries en serveert het bestaande antwoord. In support-bots besparen we daar regelmatig dertig tot zestig procent van de model-calls mee, mits de relevance-threshold goed staat.
Context-pruning & structured output
Lange chat-histories en RAG-resultaten vol bijzaken zijn een sluipmoordenaar. Wij snoeien de context tot wat het model echt nodig heeft via summary-rollups, top-k re-ranking en token-budgetten per conversatie. Met JSON-schema's of Anthropic tool-use forceren we kortere, gestructureerde output — geen vrije prozalappen waar een lijst voldoet.
RAG in plaats van long-context
Een miljoen tokens in de context-window stoppen kan, maar is duur en traag. Voor kennis-vragen werkt een goed gebouwde RAG-pipeline (chunking, hybrid search, re-ranking) bijna altijd goedkoper én accurater dan het hele document mee te sturen. We bouwen retrieval-laagjes met pgvector, Qdrant of Elastic en evalueren met RAGAS-achtige frameworks.
Distillation & fine-tuning
Voor herhalende taken met voldoende voorbeelden trainen we een kleiner model dat het gedrag van het grote model nabootst — knowledge-distillation. Een gefinetunede Llama 3.1 8B of Mistral Small kan voor specifieke domeinen tegen een fractie van de kosten draaien, of u nu via Together AI, Fireworks of zelf-gehost werkt.
Quantization voor on-prem
Wie modellen zelf host — om compliance-redenen of bij voldoende volume — kan met quantization (AWQ, GPTQ, GGUF, FP8) hetzelfde model op kleinere GPU's draaien. Een 70B-model dat normaal twee A100's vraagt, past gequantiseerd op één H100 of zelfs op consumer-GPU's. We berekenen waar de break-even tussen API-kosten en self-hosting ligt voor uw verkeer.
Observability & alerting
Zonder meting geen optimalisatie. Wij rollen Helicone, Langfuse, OpenLLMetry of Vellum uit als gateway voor uw LLM-calls. Per feature, gebruiker en model zien we kosten, latency, cache-ratio en errors. Budget-alerts en anomaly-detection voorkomen dat een loop in productie u binnen een uur duizend euro kost.
Onze aanpak: van rauwe factuur naar voorspelbare unit-cost
We werken in vier fasen, met na elke fase een concreet besparings- en risicobeeld. Geen lange traject zonder tussenresultaten — uw rekening daalt al tijdens de scan.
Cost audit
We koppelen uw provider-billing en analyseren waar tokens werkelijk verbruikt worden — per feature, per endpoint, per gebruiker. Vaak veroorzaakt twintig procent van de calls tachtig procent van de kosten. Het audit-rapport benoemt de hot spots concreet.
Quick wins
Binnen twee tot drie weken implementeren we de laaghangende fruit-optimalisaties: prompt-caching aanzetten, system prompts inkorten, batch verplaatsen. Die zijn meestal goed voor twintig tot veertig procent besparing zonder dat het product verandert.
Architecturele ingrepen
Daarna pakken we model-routing, semantic caching, RAG-redesign en eventueel fine-tuning aan. Hier zit de structurele besparing. We bouwen, A/B-testen en meten kwaliteit voor en na, zodat u zeker weet dat uw output op niveau blijft.
FinOps-loop
We installeren observability, dashboards en budget-alerts en dragen de operatie over aan uw team. Maandelijks of per kwartaal evalueren we mee om nieuwe modellen, lagere prijzen en groeiend verkeer in te bouwen.
Tooling waarmee wij werken
Een volwassen AI-cost-stack bestaat uit drie lagen: een gateway-laag voor caching, routing en observability; een evaluation-laag om kwaliteit niet uit het oog te verliezen tijdens optimalisaties; en een orchestratie-laag voor batch-jobs en agent-loops. Wij combineren best-of-breed open source met provider-native features waar dat schaalbaar en goedkoper is.
De keuze hangt af van uw stack. Werkt u op AWS Bedrock, dan benutten we cross-region inference profiles en provisioned throughput voor vaste prijzen. Op Azure OpenAI gebruiken we Provisioned Throughput Units (PTU's) waar volume het rechtvaardigt. Bij directe Anthropic- of OpenAI-keys leunen we sterker op gateways zoals Portkey of LiteLLM. Op-prem of in een eigen VPC werken we met vLLM, TGI of Ollama achter een interne gateway.
Test je idee eerst — werkend prototype in 1 dag
Met OneDayBuild maken we je idee in één dag tastbaar voor €950, zodat je weet of verdere ontwikkeling de investering waard is. Besluit je door te gaan met de volledige bouw? Dan verrekenen we de kosten volledig.
Bekijk OneDayBuild →Drie typische workloads en wat erop te besparen valt
De juiste optimalisatie hangt af van het gedrag van uw applicatie. Hieronder drie scenario's die we vaak tegenkomen, met de tactieken die per type het meeste opleveren.
Chatbot / customer-support copiloot
Veel gebruikers, herhalende intents, lange system prompts met merkrichtlijnen. De grootste hefbomen zijn prompt-caching voor het system-deel, semantic caching op de meest gestelde vragen, een goedkoop default-model met escalatie naar duurder bij intent-classificatie en strakke chat-history-pruning. Vaak haalbare besparing: dertig tot zestig procent.
Document-pipeline / batch-extractie
Tienduizenden facturen, contracten of e-mails per dag verwerken. Batch-API levert direct vijftig procent korting; embedding-modellen voor pre-classificatie houden dure LLM-calls weg van triviale documenten; gestructureerde output via JSON-schema voorkomt herwerking. Voor hoogvolume taken is een gefinetunede kleiner model vaak de eindstap.
Agent / multi-step orchestrator
Per gebruikersactie tien tot dertig modelaanroepen voor planning, tool-keuze en reflectie. Daar werkt model-routing per stap zeer goed: een goedkoop model voor planning en tool-selectie, een duurder voor de eindredenering. Caching op tool-omschrijvingen en stricte loop-limieten met budget-alerts voorkomen runaway-kosten.
Hoe een audit eruitziet
Een voorbeeldopzet van de eerste week. We mappen elke feature aan kosten, routing en optimalisatie-potentieel — concreet en met cijfers.
| Feature | Huidig model | Voorgestelde optimalisatie | Verwachte impact |
|---|---|---|---|
| Support-chatbot | Claude Sonnet bij elke call | Prompt-caching + Haiku voor classificatie | Input-tokens 90% goedkoper, 70% routes naar Haiku |
| Nightly document-tagging | GPT-4o real-time | OpenAI Batch + GPT-4o-mini | 50% batch-korting + factor 15 lagere per-token-prijs |
| RAG kennisbank | 200K context per query | Hybrid search + top-8 re-ranking | Context van 200K naar gemiddeld 4K tokens |
| Agent planner-loop | Sonnet voor elke stap | Haiku voor planning, Sonnet voor synthese | ~60% lagere kosten per agent-trace |
| Embedding-pipeline | text-embedding-3-large | 3-small + dimension-reduction 1024 | ~60% lagere embedding-kosten |
Cijfers in de tabel zijn typische orden van grootte op basis van publieke pricing van providers (Anthropic, OpenAI). Uw exacte besparing hangt af van verkeerspatroon, kwaliteitseisen en latency-budgetten — die bepalen we in de audit-fase samen.
Waarom Appfront voor AI cost optimization
Wij zijn een productontwikkelteam, geen pure consulting-club. Onze aanbevelingen zijn altijd in code te leveren, niet alleen in slides.
Veelgestelde vragen over AI cost optimization
Grip krijgen op uw LLM-kosten?
Stuur ons uw provider-billing of een week aan logs. Wij maken een eerste analyse en laten zien waar de grootste besparing zit — vrijblijvend en zonder verplichtingen.
Plan een kostenscan