AI-document-extractie en OCR: van papier en PDF naar gestructureerde data
Backoffices, shared service centers, accountancy, verzekeraars en juridische teams verwerken dagelijks duizenden facturen, polissen, contracten, KvK-uittreksels, taxaties en e-mailbijlagen. Traditionele OCR herkent karakters, maar laat de interpretatie aan de mens. Met moderne AI-document-extractie — Vision-LLM's, layout-aware modellen en structured-output schemas — leest software documenten in elk format en levert direct gevalideerde JSON aan uw boekhoud-, polis- of dossiersysteem.
Bespreek uw documentstroom Bekijk toepassingenWat AI-document-extractie en moderne OCR doen
Documentverwerking is in vijf jaar fundamenteel veranderd. Waar Tesseract en ABBYY vroeger karakters lazen en u zelf reguliere expressies en sjablonen moest schrijven, halen Vision-LLM's en layout-aware modellen tegenwoordig betekenis uit een document — inclusief tabellen, handgeschreven notities, stempels en gescande kopieën van wisselende kwaliteit.
Een factuur kan binnenkomen als een gestructureerd PEPPOL UBL-bestand, als een PDF gegenereerd uit een ERP, als een gescande papieren factuur of als foto vanuit een telefoon. Voor elk format moet uw systeem de leverancier, het btw-nummer, de factuurregels, de eindtotalen en de betaalreferentie correct vaststellen — en idealiter ook detecteren of de boekingsregels logisch zijn. Klassieke OCR levert tekst, niet betekenis. AI-document-extractie levert direct een gevalideerd JSON-object dat overeenkomt met het schema dat uw boekhoudpakket of dossiersysteem verwacht.
Hetzelfde geldt voor KvK-uittreksels, kadasterbestek en akten, polisbladen, schadedossiers, koopovereenkomsten, hypotheekoffertes, paspoorten en ID-bewijzen, CV's, bonnetjes en zelfs de inhoud van inkomende e-mails. Elk type document heeft een eigen schema; Appfront ontwerpt dat schema samen met u, traint of finetunet het model en bouwt de pipeline die documenten ontvangt, classificeert, extraheert, valideert en doorzet naar uw bestaande systemen — met human-in-the-loop voor de gevallen waar de confidence-score onder uw drempel valt.
Het verschil met traditionele OCR zit in drie dingen: layout-bewustzijn (modellen begrijpen kolommen, tabellen en visuele groepering), context-begrip (de tekst "totaal" wordt anders gewogen als hij rechts onderin staat dan in de header) en directe structuur (output is een typed JSON-schema, niet een lap platte tekst die u zelf nog moet parsen). Dat verschil bepaalt of een verwerking 30 seconden duurt en daarna in 90% van de gevallen automatisch doorstroomt, of dat elke factuur opnieuw door menselijke handen gaat.
Document-typen die wij verwerken
Wij bouwen extractie-pipelines voor vrijwel elk document dat in een Nederlandse backoffice voorkomt. Hieronder de zes meest voorkomende categorieën — voor elk daarvan hebben wij een referentie-schema dat we samen met u verfijnen.
Facturen en bonnetjes (AP-automation)
PEPPOL UBL via Mijn Overheid- of leveranciersportals, vrije PDF-facturen, gescande papieren facturen, kassabonnen en restaurantbonnetjes. Wij extraheren leverancier, KvK- en btw-nummers, IBAN, factuurnummer, factuurdatum, vervaldatum, regelitems met btw-tarief en eindtotalen. Output sluit aan op Exact Online, AFAS, Twinfield, Yuki, Visma.net of een eigen ERP. Zie ook onze factuurherkenning-pagina.
KvK-uittreksels en kadasterstukken
Uittreksels uit het Handelsregister, kadastrale berichten, eigendomsinformatie, hypotheekakten en leveringsakten. Naast directe extractie via de KvK API en de Kadaster-koppeling verwerken wij ook gescande historische dossiers waar geen API-bron beschikbaar is.
Polissen en schadedossiers
Polisbladen, polisvoorwaarden, schadeformulieren (PV's, expertise-rapporten), medische rapporten en correspondentie van assurantietussenpersonen. Het model herkent dekkingen, eigen risico, premies, polisnummers en schadeposten. Geschikt voor zorgverzekeraars, schade- en levensverzekeraars, herverzekeraars en volmachtbedrijven.
Contracten en juridische dossiers
Koopovereenkomsten, arbeidsovereenkomsten, NDA's, SLA's, huurovereenkomsten en algemene voorwaarden. Clause-extractie identificeert opzegtermijnen, boetebedingen, governing-law-clausules, prijsindexaties en ontbindende voorwaarden. Output gaat naar uw contractbeheer-systeem of CLM-tooling.
Paspoorten, ID's en KYC-documenten
Nederlandse en buitenlandse paspoorten, ID-kaarten, rijbewijzen, MRZ-zone-extractie, NFC-uitlezing waar beschikbaar, plus aanvullende KYC-bewijzen zoals utility bills en uittreksels GBA. Onderdeel van bredere KYC-AML-compliance-software voor banken, verzekeraars en notarissen.
CV's, e-mails en bijlagen
CV's in elk format (PDF, Word, gescand), inkomende e-mails met meerdere bijlagen, vrachtpapieren, CMR-formulieren en bestek-PDF's voor bouw- en infraprojecten. De pipeline classificeert eerst document-type, kiest het juiste schema en extraheert vervolgens. Voor de bouwsector zie ook onze CMR/vrachtpapier-pagina.
OCR, ICR, IDP en Vision-LLM's: wat werkt waarvoor
Het werkveld kent jargon dat door elkaar loopt. Een korte oriëntatie helpt om te bepalen welk type oplossing past bij uw documentstroom — en welke combinatie u doorgaans nodig heeft in productie.
Traditionele OCR (Tesseract, ABBYY FineReader)
Klassieke optical character recognition leest pixels en geeft tekst terug. Werkt goed bij schone scans van getypte documenten. Nadeel: geen begrip van layout, geen interpretatie van tabellen, gevoelig voor schuine scans en handgeschreven tekst. Bruikbaar als pre-processor voor downstream NLP, maar vereist regex-engineering of templates voor structuur.
ICR (Intelligent Character Recognition)
Variant op OCR die ook handgeschreven karakters probeert te herkennen. Ouderwetse ICR-engines zijn beperkt; moderne handwriting-recognition leunt op transformer-modellen. Relevant voor schadeformulieren, medische notities en historische archieven.
IDP (Intelligent Document Processing)
Verzamelnaam voor end-to-end platformen: Hyperscience, Rossum, AWS Textract, Azure Document Intelligence, Google Document AI. Zij combineren OCR, layout-analyse, classificatie en extractie. Geschikt als u een snel out-of-the-box-traject wilt en standaard document-typen verwerkt; minder geschikt voor unieke schemas of strikte EU-data-residency-eisen.
Vision-LLM's en layout-aware modellen
Donut, LayoutLMv3, Pix2Struct en de huidige vision-modellen van Anthropic Claude en OpenAI GPT-4o lezen documenten holistisch — beeld, tekst en layout tegelijk. Ze leveren direct gestructureerde JSON-output via structured-output-schemas. Voordeel: geen regex, geen template-engineering, snelle iteratie. Aandachtspunt: kosten per pagina en data-residency vereisen architectuurkeuzes.
In de praktijk combineren wij vaak meerdere lagen: een lichte OCR of layout-analyzer (bijv. via Azure Document Intelligence Read of een open-source-stack) als voorbewerking, een classifier die het document-type bepaalt en daarna een gespecialiseerd extractie-model — soms een gefinetunede LayoutLMv3 voor hoog-volume standaard-documenten, soms een Vision-LLM voor lange staart en uitzonderingen. Die combinatie levert in onze ervaring het beste evenwicht tussen kosten, latency en accuratesse.
Welke aanpak past bij u hangt af van het volume, de gevoeligheid van data, de gewenste straight-through-processing-graad en uw bestaande infrastructuur. In een intake-gesprek brengen we deze variabelen in kaart en doen een voorstel met een proof of concept — zie ook onze pagina over de AI-discovery-workshop.
Toepassingen per sector
Document-extractie heeft per sector een eigen karakter. Hieronder vier sectoren waar wij regelmatig werken; de patronen zijn breder toepasbaar.
Accountancy en boekhouding
Voor accountantskantoren en boekhoudafdelingen automatiseren we accounts-payable: inkomende facturen worden gelezen, gematcht aan inkooporders, geboekt op de juiste grootboekrekening (op basis van leverancier en eerdere boekingen) en doorgestuurd naar de fiatteur. Combineerbaar met onze AI-voor-accountancy-pagina en accountants-portaal.
Verzekeringen en assurantietussenpersonen
Polisinvoer en schadebehandeling zijn document-zwaar. Het model leest polisbladen van mandaatverzekeraars, classificeert claims op basis van schaderapporten en routeert naar de juiste behandelaar. Zie ook AI voor verzekeringen en verzekeringsapp-ontwikkeling.
Juridisch en notariaat
Juridische teams gebruiken clause-extractie voor due diligence (data rooms met honderden contracten), contractreview en risico-flagging. Voor notariskantoren extraheren we akten, kadasterstukken en KvK-uittreksels. Output stroomt naar uw DMS of CLM.
Shared service centers en backoffice
Bij grote organisaties met een centrale backoffice (energie, telecom, woningcorporaties, zorginstellingen) verwerken we e-mailpost, klantbrieven en formulieren. De pipeline classificeert eerst (offerte, klacht, contract-wijziging), extraheert dan en routeert naar de juiste afdeling. Vaak gekoppeld aan workflow-engines via onze document-workflow-automatisering.
Hoe wij een document-extractie-pipeline opleveren
Van eerste analyse tot productie in vier fases. We werken iteratief en valideren ieder onderdeel met echte documenten uit uw eigen archief.
Document-audit
U levert een representatieve set van enkele honderden documenten aan. Wij analyseren formats, kwaliteit, layout-variatie en bepalen welke document-typen het meeste volume vertegenwoordigen. Resultaat: een prioriteitslijst en een eerste schema-voorstel.
Schema en golden dataset
Per document-type definiëren we een JSON-schema (verplichte velden, types, validaties). U labelt of valideert een golden dataset van 100-500 documenten. Dat wordt onze ground truth voor zowel training als testen.
Model-selectie en pipeline
We kiezen tussen Vision-LLM, gefinetunede LayoutLMv3/Donut of een hybride. Daaromheen bouwen we de pipeline: ontvangst (e-mail, API, upload), preprocessing, classificatie, extractie, schema-validatie en human-in-the-loop voor lage-confidence-gevallen.
Productie en monitoring
Deployment in uw cloud of on-premises, koppeling aan downstream-systemen, monitoring op accuracy en throughput, feedback-loop waarin gecorrigeerde documenten het model continu verbeteren. Inclusief alerting wanneer accuratesse onder een drempel valt.
Test je idee eerst — werkend prototype in 1 dag
Met OneDayBuild maken we je idee in één dag tastbaar voor €950, zodat je weet of verdere ontwikkeling de investering waard is. Besluit je door te gaan met de volledige bouw? Dan verrekenen we de kosten volledig.
Bekijk OneDayBuild →Technologie en tooling
Wij werken vendor-agnostisch en kiezen op basis van uw eisen rondom data-residency, kosten en accuratesse. Onderstaand de stack die regelmatig terugkomt — uw situatie kan een andere combinatie vragen.
Naast modeltechniek besteden wij veel aandacht aan structured-output-schemas (Pydantic, JSON-schema, Anthropic tool-use of OpenAI function-calling), aan retry- en validatie-logica en aan archiefconformiteit volgens NEN 2082 voor organisaties die documenten conform e-archiefwetgeving moeten bewaren. Ook eIDAS-aspecten (handtekening-validatie op contracten, integriteit van akten) krijgen aandacht waar relevant.
Architectuur, accuratesse en human-in-the-loop
Een document-extractie-systeem dat 95% accuraat extraheert, gaat in de overige 5% iets fout. De vraag is hoe u die fouten ziet, valideert en terug-leert in het model. Onze architectuur is daarop ontworpen.
Confidence-scores en drempels
Per veld leveren wij een confidence-score. Velden onder uw drempel (bijvoorbeeld 0,90 voor IBAN, 0,98 voor totaalbedrag) gaan naar een review-queue. Velden boven de drempel stromen direct door. U bepaalt zelf het evenwicht tussen straight-through-processing en kwaliteitsborging.
Human-in-the-loop interface
Een lichte review-interface toont het document met geëxtraheerde velden en herkende posities. De medewerker corrigeert in seconden in plaats van minuten. Iedere correctie wordt geregistreerd als verbeter-signaal voor model-retraining of prompt-tuning.
Schema-validatie en business-regels
Naast confidence valideren we de output: telt de som van regelitems op tot het totaal, is het btw-tarief consistent, klopt het IBAN-checkdigit, bestaat het KvK-nummer? Business-regels vangen plausibele maar incorrecte extracties die het model alleen niet ziet.
Continuous evaluation
Een dashboard meet field-level accuracy, doorlooptijd, escalaties en kostprijs per document — over tijd en per document-type. Bij regressie volgt een alert. Wij gebruiken golden datasets voor regressie-tests bij iedere model-update.
Voor sectoren met strikte data-residency-eisen (zorg, overheid, financiële instellingen) bouwen wij de extractie-pipeline op uw eigen infrastructuur of een Europese cloud — geen documenten verlaten uw beheersgebied. Voor minder gevoelige stromen kan een Vision-LLM-as-a-service binnen Europa worden ingezet, mits met een afgesloten DPA en zero-retention-instelling. Welke route past, bespreken we tijdens de architectuurfase.
Waarom Appfront voor document-extractie
Documentstromen begrijpen
Wij hebben pipelines gebouwd voor accountantskantoren, verzekeraars, juridische teams, woningcorporaties en logistieke dienstverleners. Die domeinkennis vertaalt zich in pragmatische schema's en realistische verwachtingen rond accuratesse.
Geen vendor lock-in
Wij kiezen modellen en cloudleveranciers per case. Geen gedwongen Hyperscience- of Rossum-licentie als een open-source-LayoutLMv3 op uw eigen infrastructuur beter past. Uw schema en uw data blijven van u.
Van POC tot productie
Veel document-AI-projecten stranden tussen prototype en daadwerkelijke integratie met ERP, DMS of polissysteem. Wij begeleiden het hele traject — extractie, integratie, monitoring en doorlopend onderhoud.
Veelgestelde vragen over AI-document-extractie
Documentstroom automatiseren?
Bespreek uw documentstroom met Appfront. We analyseren samen welke document-typen het meeste tijd kosten en waar AI-extractie de grootste winst oplevert — vrijblijvend en zonder verplichtingen.
Plan een gesprek