AI-document-extractie en OCR: van papier en PDF naar gestructureerde data

Backoffices, shared service centers, accountancy, verzekeraars en juridische teams verwerken dagelijks duizenden facturen, polissen, contracten, KvK-uittreksels, taxaties en e-mailbijlagen. Traditionele OCR herkent karakters, maar laat de interpretatie aan de mens. Met moderne AI-document-extractie — Vision-LLM's, layout-aware modellen en structured-output schemas — leest software documenten in elk format en levert direct gevalideerde JSON aan uw boekhoud-, polis- of dossiersysteem.

Factuur-extractie (PEPPOL UBL) KvK-uittreksels Polis- en claimsverwerking Contract-clause-extractie Paspoort/ID en KYC CV's en e-mails

Bespreek uw documentstroom Bekijk toepassingen

Wat AI-document-extractie en moderne OCR doen

Documentverwerking is in vijf jaar fundamenteel veranderd. Waar Tesseract en ABBYY vroeger karakters lazen en u zelf reguliere expressies en sjablonen moest schrijven, halen Vision-LLM's en layout-aware modellen tegenwoordig betekenis uit een document — inclusief tabellen, handgeschreven notities, stempels en gescande kopieën van wisselende kwaliteit.

Een factuur kan binnenkomen als een gestructureerd PEPPOL UBL-bestand, als een PDF gegenereerd uit een ERP, als een gescande papieren factuur of als foto vanuit een telefoon. Voor elk format moet uw systeem de leverancier, het btw-nummer, de factuurregels, de eindtotalen en de betaalreferentie correct vaststellen — en idealiter ook detecteren of de boekingsregels logisch zijn. Klassieke OCR levert tekst, niet betekenis. AI-document-extractie levert direct een gevalideerd JSON-object dat overeenkomt met het schema dat uw boekhoudpakket of dossiersysteem verwacht.

Hetzelfde geldt voor KvK-uittreksels, kadasterbestek en akten, polisbladen, schadedossiers, koopovereenkomsten, hypotheekoffertes, paspoorten en ID-bewijzen, CV's, bonnetjes en zelfs de inhoud van inkomende e-mails. Elk type document heeft een eigen schema; Appfront ontwerpt dat schema samen met u, traint of finetunet het model en bouwt de pipeline die documenten ontvangt, classificeert, extraheert, valideert en doorzet naar uw bestaande systemen — met human-in-the-loop voor de gevallen waar de confidence-score onder uw drempel valt.

Het verschil met traditionele OCR zit in drie dingen: layout-bewustzijn (modellen begrijpen kolommen, tabellen en visuele groepering), context-begrip (de tekst "totaal" wordt anders gewogen als hij rechts onderin staat dan in de header) en directe structuur (output is een typed JSON-schema, niet een lap platte tekst die u zelf nog moet parsen). Dat verschil bepaalt of een verwerking 30 seconden duurt en daarna in 90% van de gevallen automatisch doorstroomt, of dat elke factuur opnieuw door menselijke handen gaat.

Document-typen die wij verwerken

Wij bouwen extractie-pipelines voor vrijwel elk document dat in een Nederlandse backoffice voorkomt. Hieronder de zes meest voorkomende categorieën — voor elk daarvan hebben wij een referentie-schema dat we samen met u verfijnen.

📄

Facturen en bonnetjes (AP-automation)

PEPPOL UBL via Mijn Overheid- of leveranciersportals, vrije PDF-facturen, gescande papieren facturen, kassabonnen en restaurantbonnetjes. Wij extraheren leverancier, KvK- en btw-nummers, IBAN, factuurnummer, factuurdatum, vervaldatum, regelitems met btw-tarief en eindtotalen. Output sluit aan op Exact Online, AFAS, Twinfield, Yuki, Visma.net of een eigen ERP. Zie ook onze factuurherkenning-pagina.

🏛️

KvK-uittreksels en kadasterstukken

Uittreksels uit het Handelsregister, kadastrale berichten, eigendomsinformatie, hypotheekakten en leveringsakten. Naast directe extractie via de KvK API en de Kadaster-koppeling verwerken wij ook gescande historische dossiers waar geen API-bron beschikbaar is.

📋

Polissen en schadedossiers

Polisbladen, polisvoorwaarden, schadeformulieren (PV's, expertise-rapporten), medische rapporten en correspondentie van assurantietussenpersonen. Het model herkent dekkingen, eigen risico, premies, polisnummers en schadeposten. Geschikt voor zorgverzekeraars, schade- en levensverzekeraars, herverzekeraars en volmachtbedrijven.

⚖️

Contracten en juridische dossiers

Koopovereenkomsten, arbeidsovereenkomsten, NDA's, SLA's, huurovereenkomsten en algemene voorwaarden. Clause-extractie identificeert opzegtermijnen, boetebedingen, governing-law-clausules, prijsindexaties en ontbindende voorwaarden. Output gaat naar uw contractbeheer-systeem of CLM-tooling.

🆔

Paspoorten, ID's en KYC-documenten

Nederlandse en buitenlandse paspoorten, ID-kaarten, rijbewijzen, MRZ-zone-extractie, NFC-uitlezing waar beschikbaar, plus aanvullende KYC-bewijzen zoals utility bills en uittreksels GBA. Onderdeel van bredere KYC-AML-compliance-software voor banken, verzekeraars en notarissen.

📧

CV's, e-mails en bijlagen

CV's in elk format (PDF, Word, gescand), inkomende e-mails met meerdere bijlagen, vrachtpapieren, CMR-formulieren en bestek-PDF's voor bouw- en infraprojecten. De pipeline classificeert eerst document-type, kiest het juiste schema en extraheert vervolgens. Voor de bouwsector zie ook onze CMR/vrachtpapier-pagina.

OCR, ICR, IDP en Vision-LLM's: wat werkt waarvoor

Het werkveld kent jargon dat door elkaar loopt. Een korte oriëntatie helpt om te bepalen welk type oplossing past bij uw documentstroom — en welke combinatie u doorgaans nodig heeft in productie.

Traditionele OCR (Tesseract, ABBYY FineReader)

Klassieke optical character recognition leest pixels en geeft tekst terug. Werkt goed bij schone scans van getypte documenten. Nadeel: geen begrip van layout, geen interpretatie van tabellen, gevoelig voor schuine scans en handgeschreven tekst. Bruikbaar als pre-processor voor downstream NLP, maar vereist regex-engineering of templates voor structuur.

ICR (Intelligent Character Recognition)

Variant op OCR die ook handgeschreven karakters probeert te herkennen. Ouderwetse ICR-engines zijn beperkt; moderne handwriting-recognition leunt op transformer-modellen. Relevant voor schadeformulieren, medische notities en historische archieven.

IDP (Intelligent Document Processing)

Verzamelnaam voor end-to-end platformen: Hyperscience, Rossum, AWS Textract, Azure Document Intelligence, Google Document AI. Zij combineren OCR, layout-analyse, classificatie en extractie. Geschikt als u een snel out-of-the-box-traject wilt en standaard document-typen verwerkt; minder geschikt voor unieke schemas of strikte EU-data-residency-eisen.

Vision-LLM's en layout-aware modellen

Donut, LayoutLMv3, Pix2Struct en de huidige vision-modellen van Anthropic Claude en OpenAI GPT-4o lezen documenten holistisch — beeld, tekst en layout tegelijk. Ze leveren direct gestructureerde JSON-output via structured-output-schemas. Voordeel: geen regex, geen template-engineering, snelle iteratie. Aandachtspunt: kosten per pagina en data-residency vereisen architectuurkeuzes.

In de praktijk combineren wij vaak meerdere lagen: een lichte OCR of layout-analyzer (bijv. via Azure Document Intelligence Read of een open-source-stack) als voorbewerking, een classifier die het document-type bepaalt en daarna een gespecialiseerd extractie-model — soms een gefinetunede LayoutLMv3 voor hoog-volume standaard-documenten, soms een Vision-LLM voor lange staart en uitzonderingen. Die combinatie levert in onze ervaring het beste evenwicht tussen kosten, latency en accuratesse.

Welke aanpak past bij u hangt af van het volume, de gevoeligheid van data, de gewenste straight-through-processing-graad en uw bestaande infrastructuur. In een intake-gesprek brengen we deze variabelen in kaart en doen een voorstel met een proof of concept — zie ook onze pagina over de AI-discovery-workshop.

Toepassingen per sector

Document-extractie heeft per sector een eigen karakter. Hieronder vier sectoren waar wij regelmatig werken; de patronen zijn breder toepasbaar.

Accountancy en boekhouding

Voor accountantskantoren en boekhoudafdelingen automatiseren we accounts-payable: inkomende facturen worden gelezen, gematcht aan inkooporders, geboekt op de juiste grootboekrekening (op basis van leverancier en eerdere boekingen) en doorgestuurd naar de fiatteur. Combineerbaar met onze AI-voor-accountancy-pagina en accountants-portaal.

Verzekeringen en assurantietussenpersonen

Polisinvoer en schadebehandeling zijn document-zwaar. Het model leest polisbladen van mandaatverzekeraars, classificeert claims op basis van schaderapporten en routeert naar de juiste behandelaar. Zie ook AI voor verzekeringen en verzekeringsapp-ontwikkeling.

Juridisch en notariaat

Juridische teams gebruiken clause-extractie voor due diligence (data rooms met honderden contracten), contractreview en risico-flagging. Voor notariskantoren extraheren we akten, kadasterstukken en KvK-uittreksels. Output stroomt naar uw DMS of CLM.

Shared service centers en backoffice

Bij grote organisaties met een centrale backoffice (energie, telecom, woningcorporaties, zorginstellingen) verwerken we e-mailpost, klantbrieven en formulieren. De pipeline classificeert eerst (offerte, klacht, contract-wijziging), extraheert dan en routeert naar de juiste afdeling. Vaak gekoppeld aan workflow-engines via onze document-workflow-automatisering.

Hoe wij een document-extractie-pipeline opleveren

Van eerste analyse tot productie in vier fases. We werken iteratief en valideren ieder onderdeel met echte documenten uit uw eigen archief.

Document-audit

U levert een representatieve set van enkele honderden documenten aan. Wij analyseren formats, kwaliteit, layout-variatie en bepalen welke document-typen het meeste volume vertegenwoordigen. Resultaat: een prioriteitslijst en een eerste schema-voorstel.

Schema en golden dataset

Per document-type definiëren we een JSON-schema (verplichte velden, types, validaties). U labelt of valideert een golden dataset van 100-500 documenten. Dat wordt onze ground truth voor zowel training als testen.

Model-selectie en pipeline

We kiezen tussen Vision-LLM, gefinetunede LayoutLMv3/Donut of een hybride. Daaromheen bouwen we de pipeline: ontvangst (e-mail, API, upload), preprocessing, classificatie, extractie, schema-validatie en human-in-the-loop voor lage-confidence-gevallen.

Productie en monitoring

Deployment in uw cloud of on-premises, koppeling aan downstream-systemen, monitoring op accuracy en throughput, feedback-loop waarin gecorrigeerde documenten het model continu verbeteren. Inclusief alerting wanneer accuratesse onder een drempel valt.

Technologie en tooling

Wij werken vendor-agnostisch en kiezen op basis van uw eisen rondom data-residency, kosten en accuratesse. Onderstaand de stack die regelmatig terugkomt — uw situatie kan een andere combinatie vragen.

Tesseract ABBYY FineReader AWS Textract Azure Document Intelligence Google Document AI Hyperscience Rossum LayoutLMv3 Donut Pix2Struct Claude Vision GPT-4o Hugging Face Transformers PyTorch LangChain LlamaIndex Pydantic FastAPI Docker PostgreSQL PEPPOL UBL NEN 2082 (e-archief)

Naast modeltechniek besteden wij veel aandacht aan structured-output-schemas (Pydantic, JSON-schema, Anthropic tool-use of OpenAI function-calling), aan retry- en validatie-logica en aan archiefconformiteit volgens NEN 2082 voor organisaties die documenten conform e-archiefwetgeving moeten bewaren. Ook eIDAS-aspecten (handtekening-validatie op contracten, integriteit van akten) krijgen aandacht waar relevant.

Architectuur, accuratesse en human-in-the-loop

Een document-extractie-systeem dat 95% accuraat extraheert, gaat in de overige 5% iets fout. De vraag is hoe u die fouten ziet, valideert en terug-leert in het model. Onze architectuur is daarop ontworpen.

Confidence-scores en drempels

Per veld leveren wij een confidence-score. Velden onder uw drempel (bijvoorbeeld 0,90 voor IBAN, 0,98 voor totaalbedrag) gaan naar een review-queue. Velden boven de drempel stromen direct door. U bepaalt zelf het evenwicht tussen straight-through-processing en kwaliteitsborging.

Human-in-the-loop interface

Een lichte review-interface toont het document met geëxtraheerde velden en herkende posities. De medewerker corrigeert in seconden in plaats van minuten. Iedere correctie wordt geregistreerd als verbeter-signaal voor model-retraining of prompt-tuning.

Schema-validatie en business-regels

Naast confidence valideren we de output: telt de som van regelitems op tot het totaal, is het btw-tarief consistent, klopt het IBAN-checkdigit, bestaat het KvK-nummer? Business-regels vangen plausibele maar incorrecte extracties die het model alleen niet ziet.

Continuous evaluation

Een dashboard meet field-level accuracy, doorlooptijd, escalaties en kostprijs per document — over tijd en per document-type. Bij regressie volgt een alert. Wij gebruiken golden datasets voor regressie-tests bij iedere model-update.

Voor sectoren met strikte data-residency-eisen (zorg, overheid, financiële instellingen) bouwen wij de extractie-pipeline op uw eigen infrastructuur of een Europese cloud — geen documenten verlaten uw beheersgebied. Voor minder gevoelige stromen kan een Vision-LLM-as-a-service binnen Europa worden ingezet, mits met een afgesloten DPA en zero-retention-instelling. Welke route past, bespreken we tijdens de architectuurfase.

Waarom Appfront voor document-extractie

Documentstromen begrijpen

Wij hebben pipelines gebouwd voor accountantskantoren, verzekeraars, juridische teams, woningcorporaties en logistieke dienstverleners. Die domeinkennis vertaalt zich in pragmatische schema's en realistische verwachtingen rond accuratesse.

Geen vendor lock-in

Wij kiezen modellen en cloudleveranciers per case. Geen gedwongen Hyperscience- of Rossum-licentie als een open-source-LayoutLMv3 op uw eigen infrastructuur beter past. Uw schema en uw data blijven van u.

Van POC tot productie

Veel document-AI-projecten stranden tussen prototype en daadwerkelijke integratie met ERP, DMS of polissysteem. Wij begeleiden het hele traject — extractie, integratie, monitoring en doorlopend onderhoud.

AI-document-verwerking Document-classificatie AI Documentbeheersysteem Document-configurator Neem contact op

Veelgestelde vragen over AI-document-extractie

Wat is het verschil tussen klassieke OCR en AI-document-extractie?

Klassieke OCR (Tesseract, ABBYY) zet pixels om naar tekst, zonder begrip van layout of betekenis. AI-document-extractie combineert layout-analyse, classificatie en interpretatie en levert direct een gestructureerd JSON-object dat overeenkomt met uw doel-schema. In de praktijk werken moderne pipelines vaak met een combinatie: OCR als voorbewerking, een Vision-LLM of layout-aware model voor de extractie.

Welke accuratesse is haalbaar?

Dat hangt af van het document-type, de kwaliteit van de scans en de complexiteit van het schema. Voor standaard-facturen halen wij in de regel hoge accuratesse op kernvelden zoals leverancier, totaalbedrag en datum. Voor complexe contracten of slecht gescande historische dossiers ligt dat lager. We meten en rapporteren field-level accuracy op een golden dataset; dat is de eerlijke maatstaf.

Kan dit on-premises draaien voor data-residency-redenen?

Ja. Voor sectoren waar data het pand niet mag verlaten (zorg, overheid, sommige financiële instellingen) bouwen wij de pipeline op uw eigen infrastructuur of een Europese cloud. Open-source-modellen zoals LayoutLMv3, Donut of een lokaal Llama-model kunnen volledig zelfgehost draaien.

Hoe gaan jullie om met PEPPOL UBL en gestructureerde formats?

PEPPOL UBL en e-Factuur-XML zijn al gestructureerd; daarvoor is geen extractie nodig, alleen een mapping naar uw interne schema. Onze pipeline classificeert eerst het format. Bij gestructureerde input slaat hij de extractie-fase over en valideert direct. Bij vrije PDF's of scans gaat het document via de extractie-modellen. Het resultaat: hetzelfde schema, ongeacht de input-vorm.

Werkt het ook voor handgeschreven schadeformulieren?

Handgeschreven tekst is moeilijker dan getypt, maar moderne Vision-LLM's en gespecialiseerde handwriting-recognition-modellen halen redelijke resultaten op leesbare formulieren. Voor doorslaggevend belangrijke velden (bijvoorbeeld het schadebedrag) raden we vrijwel altijd human-in-the-loop-review aan.

Hoe sluit het aan op onze boekhoud- of polissoftware?

Wij bouwen koppelingen via REST-API's, webhooks of bestaande integratieplatformen. Voor boekhoudpakketten als Exact Online, AFAS, Twinfield, Yuki en Visma.net hebben wij standaard-mappers; voor polissystemen werken wij met Sequel, IDIT en eigen polisadministraties. De extractie levert het schema, de integratie zet het door.

Voldoet dit aan AVG en NEN 2082?

AVG: documenten kunnen persoonsgegevens bevatten; wij richten de pipeline in volgens privacy-by-design met DPA, zero-retention bij externe modelproviders en heldere bewaartermijnen. NEN 2082 (e-archief): wij implementeren metadatering, integriteitswaarborgen en duurzame opslag wanneer u archiefplichtig bent. De juridische context bepaalt de exacte invulling.

Hoe lang duurt een implementatie typisch?

Een proof of concept op één document-type staat doorgaans binnen enkele weken. Een productie-pipeline met meerdere document-typen, integraties en monitoring vraagt meer tijd, sterk afhankelijk van de complexiteit van uw systeemlandschap. Wij werken in iteratieve sprints met tussentijdse oplevering, zodat u vroeg ziet of de aanpak werkt.

Documentstroom automatiseren?

Bespreek uw documentstroom met Appfront. We analyseren samen welke document-typen het meeste tijd kosten en waar AI-extractie de grootste winst oplevert — vrijblijvend en zonder verplichtingen.

Plan een gesprek