AI document-verwerking: van inkomende stapel naar gestructureerde data
Facturen, contracten, formulieren, mails, bonnetjes, rapporten — elk Nederlands bedrijf verwerkt dagelijks honderden tot duizenden documenten. Veel daarvan landen nog handmatig in spreadsheets, ERP-velden of mailboxen. Wij bouwen AI-pipelines die documenten automatisch lezen, classificeren, valideren en doorzetten naar uw bestaande systemen — met menselijke review op de plekken waar dat ertoe doet.
Geen out-of-the-box SaaS waar uw documenten doorheen moeten passen, maar een oplossing die past bij úw documentstromen, úw uitzonderingen en úw integraties. Of het nu gaat om Peppol-facturen, gescande PDF's, foto's vanuit een buitendienst-app of e-mailbijlagen.
Wat AI document-verwerking inhoudt — voorbij OCR
OCR is het oudste stuk van de keten: pixels omzetten naar tekens. Maar moderne document-verwerking is veel meer dan dat. Een serieuze pipeline doet minimaal vijf dingen na elkaar, en elk van die stappen heeft een eigen modelkeuze, foutmodus en bijbehorende guardrail. We zetten ze hieronder op een rij — niet om indruk te maken, maar om duidelijk te maken waar uw bestaande tooling waarschijnlijk vastloopt en waar maatwerk loont.
1. Documentclassificatie — voordat er ook maar één veld wordt geëxtraheerd moet het systeem weten welk type document binnenkomt. Een verkoopfactuur, een inkomende vrachtbrief en een retourformulier vragen totaal verschillende velden en validaties. We trainen lichte classifiers (vaak voldoende: een fine-tuned DistilBERT of een prompt-based LLM-router) zodat de juiste downstream-pipeline wordt aangeroepen.
2. Layout-analyse en OCR — voor scans en foto's gebruiken we afhankelijk van de eis Tesseract (open source, gratis, prima voor schone scans), AWS Textract of Google Document AI (sterker op tabellen en handgeschreven tekst), of nieuwere VLM's als GPT-4o en Claude 3.5 Sonnet die direct vanuit een afbeelding gestructureerde JSON kunnen produceren. De keuze hangt af van volume, talen, kosten en compliance — niet van wat trendy is.
3. Velden-extractie en entity recognition — uit ruwe tekst de juiste velden plukken. IBAN, KvK-nummer, datum, BTW-nummer, factuurregels met BTW-tarieven, handtekeningvelden. Dit doen we met een combinatie van structured prompting (LLM met JSON-schema) en classieke regex/NER waar dat goedkoper en betrouwbaarder is. Niet alles hoeft een LLM te zijn — een goed regex voor postcodes is sneller, voorspelbaarder en gratis.
4. Validatie en business rules — extracted data toetsen aan de echte wereld. BTW-totaal kloppen ten opzichte van regels. Leverancier bestaat in de crediteurenadministratie. Datum binnen redelijk venster. PO-nummer matcht met openstaand inkoopdocument. Hier wint maatwerk vrijwel altijd van een SaaS — uw business rules zijn niet die van de buurman.
5. Mens-in-de-loop voor uitzonderingen — wanneer confidence-scores onvoldoende zijn of validaties falen, wordt het document naar een review-queue gestuurd waar een mens corrigeert. Die correcties voeden vervolgens het model terug. Een goede pipeline neemt tussen de 70% en 95% van het werk over zonder menselijke aanraking — niet 100%, en dat is geen falen maar realisme.
Concrete documentstromen die wij automatiseren
Onderstaande stromen komen we het vaakst tegen bij Nederlandse middelgrote en grote organisaties. We bouwen er pipelines voor die rechtstreeks aansluiten op de ERP-, CRM- en DMS-systemen die u al gebruikt.
Crediteurenfacturen
PDF, UBL/Peppol, gescande papieren factuur of foto vanuit een buitendienst. Wij extraheren factuurkop, regels, BTW-tarieven en koppelen aan PO-nummers. Output gaat rechtstreeks naar Exact, AFAS, Twinfield, Unit4, Navision of een eigen ERP via REST/SOAP.
Inkomende contracten
NDA's, leveranciersovereenkomsten, huurcontracten. Wij identificeren clausules (looptijd, opzegtermijn, indexering, aansprakelijkheid), zetten kerngegevens in een contractregister en zetten alerts klaar voor verloopdatums. Integratie met DocuSign, PandaDoc of een eigen DMS.
Aanvraag- en intake-formulieren
Klantonboarding, schadeaangiftes, subsidieaanvragen, sollicitaties. Of het nu een digitaal formulier is, een ingescand papieren formulier of een foto vanuit een mobiele app — we extraheren velden, valideren tegen bedrijfsregels en routeren naar de juiste afdeling.
E-mail-classificatie en routering
Generieke inboxen (info@, klantenservice@) classificeren naar onderwerp, urgentie en doelgroep. Bijlagen worden meegenomen in het oordeel. Routering naar Zendesk, Freshdesk, TOPdesk of een eigen ticket-systeem. Auto-replies voor de eenvoudige gevallen.
ID-verificatie en KYC
Paspoort, rijbewijs, identiteitskaart — extractie van MRZ, controle van houografische echtheidskenmerken en vergelijking met selfie. Nuttig in fintech, mobility en uitzendbranche. Met fall-back naar gespecialiseerde partners (Onfido, iDIN, Veriff) voor de zwaardere compliance-gevallen.
Rapport- en spreadsheet-analyse
Jaarrekeningen, marktrapporten, due-diligence-bestanden, kwartaalrapportages. We bouwen retrieval-pipelines die documenten doorzoekbaar maken op semantische vraag, met juiste bronvermelding zodat een eindgebruiker terug kan klikken naar de pagina waar het antwoord vandaan kwam.
Onze typische technische stack — en wanneer we waarom kiezen
Geen blinde voorliefde voor één leverancier. We kiezen per project op basis van documenttype, volume, talen, latency-eisen, kosten en data-residency. Hieronder de combinaties die we het vaakst inzetten.
OCR & layout
- Tesseract / OCRmyPDF — als de scans schoon zijn en het volume hoog. Open source, geen API-kosten, draait on-premise wanneer dat nodig is.
- AWS Textract — als tabellen en formulieren centraal staan. Sterk op gestructureerde layouts en vraag-antwoord-paren.
- Google Document AI — wanneer er veel handgeschreven tekst tussen zit of bij specifieke vooraf-getrainde processors (factuur, paspoort, W-9).
- Azure AI Document Intelligence — voor klanten die volledig in Microsoft 365 / Azure-stack zitten en de data binnen EU willen houden.
LLM's voor extractie en classificatie
- GPT-4o & GPT-4o-mini — uitstekend op gestructureerde JSON-output, snel en relatief goedkoop voor mini. Kan rechtstreeks afbeeldingen lezen.
- Claude 3.5 Sonnet — sterk op lange documenten en redenering. Vaak onze keuze voor contractanalyse.
- Mistral-modellen via private endpoint — wanneer data het bedrijf niet uit mag (defensie, zorg, financiële sector).
- DistilBERT / spaCy NER — voor classifiers en entity-extractie waar latency en kosten echt knellen. Een gefinetuned BERT-model is vaak 10x goedkoper en sneller dan een LLM-call.
Workflow en orchestration
- Temporal / AWS Step Functions — voor lange-lopende, retry-veilige document-pipelines met menselijke approval-stappen.
- n8n / Make — als de business het zelf wil kunnen aanpassen en de logica niet te complex is.
- FastAPI + Celery + Redis — onze go-to voor maatwerk pipelines die we volledig in beheer nemen.
- Apache Kafka — voor event-driven architecturen waar document-events ook andere systemen moeten triggeren.
Opslag en retrieval
- S3 / Azure Blob voor de ruwe documenten, met versioning en lifecycle-policies.
- PostgreSQL met pgvector als de hoeveelheid documenten beheersbaar is — minder bewegende delen.
- Pinecone / Weaviate / Qdrant wanneer het echt om enterprise-volumes gaat.
- Elasticsearch / OpenSearch voor klassieke full-text search naast semantic retrieval.
Hoe wij een document-verwerking-traject doorlopen
We werken in vier fases. Die lijken simpel, maar de inhoud van elke fase is sterk afhankelijk van uw documenttypes en volumes. We brengen geen vooraf-gepakte methode mee, wel een rugzak van eerdere implementaties.
Document-audit
Twee weken. We verzamelen 50–200 representatieve voorbeelden per documenttype, meten huidige doorlooptijden, brengen uitzonderingen in kaart en bepalen welke velden er écht uitgehaald moeten worden. Resultaat: scope-document met use-cases en succescriteria.
Proof-of-concept
Drie tot vier weken. We bouwen een werkende pipeline op de drukste documentstroom met eenvoudige UI voor review. Doel: aantonen dat we boven een afgesproken accuracy-drempel komen op echte data, niet op een demo-set.
Productie en integratie
Zes tot twaalf weken afhankelijk van scope. Koppelingen naar ERP/CRM/DMS, monitoring (Datadog, Grafana of in eigen stack), audit-logging, gebruikers- en rolbeheer, en een review-UI die past bij uw eindgebruikers.
Doorontwikkeling
Continu. Nieuwe documenttypes toevoegen, modellen herzien, accuracy bewaken via dashboards, nieuwe velden, nieuwe taalondersteuning. We houden modellen actueel — dat is een doorlopende verantwoordelijkheid, geen one-off.
Compliance, privacy en dataresidency
AI document-verwerking raakt vrijwel altijd aan persoonsgegevens, bedrijfsgevoelige informatie of compliance-eisen. Dat zit in onze afwegingen vanaf dag één — niet als bijgedachte achteraf.
AVG en doelbinding
We bouwen pipelines waarin alleen de gegevens worden vastgelegd die voor het verwerkingsdoel nodig zijn. Persoonsgegevens worden gepseudonimiseerd of geredact wanneer dat past bij de use-case. Bewaartermijnen zijn instelbaar per documenttype. Verwerkersovereenkomsten regelen we standaard.
EU-only data-residency
Als uw documenten Europa niet uit mogen, gebruiken we modellen en infrastructuur die binnen de EU blijven: Azure OpenAI in West-Europe, Mistral in eigen private endpoints, of self-hosted modellen op Nederlandse cloud-infra. Geen Amerikaanse SaaS-doorvoer wanneer dat een no-go is.
Sectorale regels
Voor zorg (NEN 7510, ISO 27001), financiële sector (DORA, PCI-DSS) en overheid (BIO, NIS2) hebben we eerdere implementaties achter de rug. Audit-logging, segregatie van rollen, encryptie at-rest en in-transit, en pen-testing zijn standaard onderdeel.
EU AI Act-classificatie
We classificeren samen met u welke risico-categorie uw use-case valt onder de AI Act. Voor medium- en high-risk-toepassingen leggen we transparantie-, monitoring- en menselijke oversight-eisen in het ontwerp vast.
Wat het oplevert — en wat niet
We kunnen geen claims als "60% sneller" of "40% kostenbesparing" uit het niets doen — die getallen hangen volledig af van uw documentvolume, huidige doorlooptijd en de complexiteit van uitzonderingen. Wel een eerlijke schets van wat we in vergelijkbare trajecten hebben gezien:
- Bij hoog-volume gestructureerde documenten (zoals binnenkomende facturen in een bekende format) komen we vaak op 85–95% straight-through-processing zonder menselijke tussenkomst.
- Bij ongestructureerde documenten (handgeschreven formulieren, foto's, contracten) ligt dat doorgaans tussen 50–75% — nog steeds een forse besparing op handmatige verwerking, maar niet de 95% die SaaS-leveranciers in hun marketing claimen.
- De grootste winst zit zelden in pure FTE-besparing. Vaker in foutreductie (BTW-fouten, dubbele betalingen), snellere doorlooptijd (sneller crediteur betalen = leveranciersrelatie verbetert) en betere data voor rapportage.
- Implementaties betalen zich vrijwel altijd terug binnen 12–18 maanden bij volumes vanaf circa 500 documenten per week. Onder dat volume is een SaaS-oplossing soms goedkoper — daar zijn we eerlijk over.
Hoe wij verschillen van out-of-the-box leveranciers
Er zijn prima SaaS-oplossingen voor document-AI: Klippa, Rossum, Hypatos, Docparser, Mendable. Voor bedrijven met standaard documentstromen en lage maatwerk-eisen werken die uitstekend — wij raden ze ook regelmatig aan in plaats van een eigen build. Wij komen in beeld wanneer:
- Uw documenten vallen niet in standaard categorieën — branche-specifieke formulieren, bouwkundige tekeningen, juridische akten, scheepsdocumenten.
- Uw business-rules zijn complex en uniek (zoals een eigen prijsmodel voor leveranciersfacturen of een specifiek goedkeurings-routing).
- Data mag absoluut niet buiten EU of buiten uw eigen infrastructuur.
- U integreert met legacy-systemen die geen moderne API-koppelingen hebben.
- U wilt eigenaar zijn van het model en de pipeline, niet vendor-locked.
- Het volume is zo hoog dat per-document-pricing van SaaS de business case opvreet.
Veelgestelde vragen
Hoe accuraat is AI document-verwerking nu echt?
Voor schone, gestructureerde documenten zoals digitale facturen halen moderne pipelines vaak boven de 98% velden-accuracy. Voor handgeschreven formulieren of slechte scans zakt dat richting 80–90%. Wij testen op uw eigen data tijdens de PoC-fase — niet op marketingvoorbeelden — zodat de cijfers die we in de business case zetten kloppen.
Werkt dit op gescande PDF's en foto's, niet alleen op digitale documenten?
Ja. We combineren OCR (Tesseract, Textract, Document AI) met layout-detectie en LLM-extractie. Foto's vanuit een mobiele app worden automatisch rechtgezet en geoptimaliseerd voordat ze de pipeline ingaan. Verschil in accuracy tussen een gescand papier en een digitale PDF is meestal kleiner dan mensen denken.
Hoe gaan jullie om met documenten in meerdere talen?
Moderne LLM's en OCR-modellen ondersteunen Nederlands, Engels, Duits, Frans en Spaans van nature. Voor talen met andere schriften (Pools, Russisch, Arabisch, Chinees) gebruiken we vaak een aparte taal-detectie-stap voorafgaand. We beperken nooit een pipeline tot één taal als uw werkelijke documentstroom meertalig is.
Kunnen jullie integreren met onze bestaande ERP / DMS?
In bijna alle gevallen ja. We hebben eerdere koppelingen gebouwd naar Exact Online, AFAS, Twinfield, Unit4, SAP, Navision/Business Central, Salesforce, HubSpot, TOPdesk, M-Files, SharePoint en SharePoint-on-prem. Voor systemen zonder publieke API werken we met file-watch op SFTP-uitwisseling of database-replicatie.
Wat als het model een fout maakt — wie is dan aansprakelijk?
Een document-AI-pipeline bewerkt voorstellen, geen besluiten. De business-logica bepaalt welke velden zonder menselijke check de boekhouding ingaan en welke een review nodig hebben. Wij richten dit ontwerp samen met u in zodat aansprakelijkheid en risico passen bij uw governance — niet bij wat technisch maximaal kan.
Kunnen jullie ook on-premise draaien zonder cloud?
Ja. Voor klanten waar data het pand niet uit mag (defensie, sommige zorginstellingen, klassieke financials) draaien we self-hosted modellen op uw eigen GPU-infrastructuur of een Nederlandse private cloud. Dat is duurder dan een SaaS-oplossing, dus we leggen samen met u de afweging op tafel.
Klaar om uw documentprocessen te automatiseren?
Een eerste gesprek is vrijblijvend. We bekijken uw documentstromen, schatten realistisch in waar AI loont en waar niet, en zijn eerlijk wanneer een SaaS-oplossing een betere fit is dan maatwerk.