Dienst · Software-ontwikkeling

High availability systeem ontwikkelen voor mission-critical applicaties.

Maatwerk HA-architecturen voor platformen die simpelweg niet uit de lucht mogen. Van redundante database-clusters en multi-region failover tot observability en runbook-discipline — gebouwd rond een concreet uptime-doel dat past bij uw business-case.

Multi-region failoverDatabase HASLO/SLI & error-budgetsBlue-green deployment

Plan een kennismaking Bekijk gerelateerd werk

High availability is geen vinkje, het is een ontwerpkeuze.

Een high-availability-systeem (HA) is een platform dat zo is ontworpen dat een storing in één component — een server, een datacenter, een netwerk-link, een database-replica — niet leidt tot uitval van de dienst voor uw eindgebruikers. Dat klinkt simpel, maar het raakt elke laag van uw stack: hoe u uw applicatie schrijft, hoe uw database is opgezet, hoe uw netwerk verkeer routeert, hoe uw deployments lopen, en hoe uw team reageert wanneer er om half drie 's nachts iets stuk gaat.

Wij ontwerpen en bouwen HA-systemen voor partijen waarvoor downtime direct geld of vertrouwen kost: betalings-providers, banken en verzekeraars, telecom, e-commerce platforms rond piekmomenten als Black Friday, zorginstellingen met een EPD, overheid die kritieke diensten levert, SaaS-leveranciers met SLA-verplichtingen, en energie- en logistieke platforms waar de operatie 24/7 doordraait. Het uitgangspunt is altijd hetzelfde: we beginnen bij het concrete uptime-doel — 99,9%, 99,99% of 99,999% — en redeneren terug naar de architectuur die daarbij hoort. Niet andersom.

We werken nauw samen met uw eigen DevOps- of platform-engineers en met onze DevOps-as-a-service als die functie nog niet intern is belegd. De ontwerpen die we leveren landen in code (Terraform, Pulumi, Kubernetes-manifests) en in runbook-discipline, niet alleen in PDF-rapporten die in een Confluence-map vergeten worden.

Drie typische HA-trajecten die wij bouwen.

Welke past, hangt af van waar u nu staat: greenfield HA-ontwerp, een bestaande applicatie HA-fähig maken, of een complete multi-region of multi-cloud opzet. We adviseren in het eerste gesprek welke variant aansluit op uw beschikbaarheidsdoel en budget.

Greenfield-traject · vast sprintbudget

HA-platform vanaf nul ontwerpen en bouwen

Voor een nieuwe applicatie of een vervangend platform ontwerpen we de architectuur rond een gekozen beschikbaarheidsdoel. Meerdere availability zones, stateless application-services, een database-cluster met automatische failover, een load-balancer met health-checks en circuit-breakers, en een deployment-pipeline die blue-green of canary releases ondersteunt. Alles wordt direct vastgelegd in infrastructure-as-code zodat de hele omgeving reproduceerbaar is — bij ons, bij u, of bij een derde partij die u later inschakelt.

Architectuur-blueprintMulti-AZ deploymentIaC (Terraform/Pulumi)CI/CD met blue-green

Brownfield-traject · vast sprintbudget

Bestaande applicatie HA-upgraden

U heeft een werkende applicatie die nu op één server draait of die bij een uitval pas na handmatige interventie weer in de lucht komt. We analyseren waar de single points of failure zitten — meestal in de database, in stateful application-componenten of in netwerk-routing — en pakken die stap voor stap aan: replicatie en automatic failover voor de database, sessies en state uit application-services halen, een load-balancer plaatsen, een goede observability-laag toevoegen, en de release-pipeline opbouwen die instant rollback mogelijk maakt.

SPOF-auditDB-replicatie + failoverStateless refactorLoad balancing

Enterprise-traject · vast sprintbudget

Multi-region of multi-cloud HA-architectuur

Voor platformen waar 99,99% of strakker nodig is en waar het verlies van een hele cloud-regio een reëel risico is. We bouwen active-active of active-passive setups over meerdere regio's, met geo-DNS-routing, cross-region replicatie voor data en een chaos-engineering-praktijk die periodiek regio-uitval simuleert. Vaak gecombineerd met cloud-native-platformontwikkeling en met edge-computing voor lage latentie op verkeer dat uit verschillende delen van de wereld komt.

Active-activeGeo-DNSCross-region replicatieChaos engineering

Wat u krijgt aan het einde van een traject.

Een werkend, gemonitord en gedocumenteerd HA-systeem dat aansluit op het uptime-doel dat we samen hebben afgesproken — plus de runbooks, training en deploy-pipeline die uw eigen team nodig heeft om het te beheren.

Architectuur-blueprint met uptime-doelEen gedocumenteerd ontwerp met SLO, error-budget, RPO en RTO per kritieke flow, plus de motivatie achter elke keuze tussen active-active, active-passive en multi-region.
Productie- en staging-omgeving als codeVolledige omgeving in Terraform of Pulumi, draaiend op AWS, GCP of Azure — of hybrid waar dat zinnig is. Reproduceerbaar opnieuw uitrolbaar in een nieuwe regio of bij een nieuwe leverancier.
Database-HA en backup-strategieLeader-follower of multi-master replicatie (PostgreSQL met Patroni, MySQL/MariaDB met Galera, CockroachDB of YugabyteDB), point-in-time recovery en een 3-2-1-backupopzet die we periodiek testen.
Deployment-pipeline met instant rollbackCI/CD met blue-green of canary releases, feature flags voor stapsgewijze uitrol, en een rollback-procedure die in minuten in plaats van uren werkt.
Observability-stackPrometheus en Grafana of Datadog voor metrics en SLO-tracking, OpenTelemetry of Jaeger voor distributed tracing en Pingdom of Checkly voor synthetic monitoring vanaf buiten uw netwerk.
Runbook-bibliotheek en on-call-opzetConcrete runbooks voor de meest waarschijnlijke incidenten, geïntegreerd met PagerDuty of Opsgenie. Inclusief een sjabloon voor post-mortems en de eerste begeleide DR-drill met uw team.
Training en kennisoverdrachtWerksessies voor uw ops- en platform-engineers, plus documentatie waarmee een nieuwe collega het systeem zelfstandig kan beheren zonder dat u afhankelijk bent van ons.
Beheer-contract (optioneel)Monitoring, security-patching, capacity-planning en doorontwikkeling. Vaste maandprijs, meerdere reactietijd-niveaus afgestemd op het uptime-doel van uw platform.

Wanneer een HA-systeem de juiste keuze is.

Vier patronen die wij steeds terugzien bij organisaties die ons benaderen voor high-availability werk. Herkent u er één, dan praten we graag verder.

Mission-critical

Downtime kost direct geld of vertrouwen

U draait een betalings-platform, een orderstroom op een groot e-commerce-domein, een telecom-dienst of een EPD waarop zorgverleners realtime steunen. Elke minuut storing betekent geweigerde transacties, verloren omzet, klachten of erger. Een single-region single-database opzet is dan een risico dat niet meer past bij het volume of de gevoeligheid van uw business.

SLA-druk

U heeft contractuele uptime-verplichtingen

Uw zakelijke klanten — vooral grotere corporates en overheid — eisen 99,9% of 99,99% in het contract, met boetes bij overschrijding. Uw huidige platform haalt dat niet structureel, of het ontbreekt aan de meet- en bewijslaag om aan te kunnen tonen dat u eraan voldoet. Een SLO-gedreven monitoring-opzet met error-budgets sluit dat gat aan beide kanten.

Pieken

Verkeer is grillig of seizoensgebonden

Black Friday, ticket-verkoop, jaarafsluiting in HR-software, een mediacampagne: u krijgt extreme pieken bovenop een normaal patroon en u kunt zich geen capaciteitsprobleem veroorloven op precies dat moment. Auto-scaling, graceful degradation en het scheiden van kritieke en niet-kritieke flows voorkomen dat de hele applicatie omvalt onder druk.

Compliance

Toezichthouders eisen aantoonbare continuïteit

DNB, AFM, NEN 7510, BIO of een sector-specifieke norm verlangt dat u de continuïteit van uw dienstverlening kunt aantonen, met geteste failover-procedures en een gedocumenteerd DR-plan. Een papieren plan zonder geteste implementatie is geen geldige onderbouwing meer. Wij koppelen het ontwerp aan periodieke DR-drills die wél bewijs leveren — vaak in combinatie met een ISO 27001-traject.

Hoe een HA-traject bij ons loopt.

Kennismaking en doel-bepaling

Een gesprek waarin we begrijpen welke flows in uw platform écht mission-critical zijn, welke wel even uit mogen, en welk uptime-doel daarbij past. Niet elke flow heeft 99,99% nodig; sommige hebben juist meer. We brengen ook in kaart wat uw huidige meet- en monitoring-laag al laat zien — dat is meestal het beste startpunt voor het ontwerp.

Architectuur-review en blueprint

Een korte ontdekfase waarin we de huidige architectuur tegen het uptime-doel houden: waar zitten single points of failure, waar zit state die we eigenlijk niet meer aan één node willen koppelen, hoe staat de database-replicatie ervoor, hoe ziet het netwerkpad eruit? Aan het einde ligt er een concrete blueprint, een sprintplanning en een prioritering van de aanpassingen die de grootste impact hebben.

Bouw in sprints

We werken in tweewekelijkse sprints en leveren elke sprint een stuk werkende, in productie getoetste verbetering op. Vaak beginnen we met de observability-laag — zonder meten weet u niet of een ingreep helpt — en werken daarna naar de database-laag, de application-laag en de deployment-pipeline. Onze engineers werken in pair met uw eigen platform-engineers waar die er zijn; kennisoverdracht zit ingebakken in elke sprint in plaats van pas aan het einde.

Drills, post-mortems en doorlopend beheer

Na go-live plannen we de eerste DR-drill: we simuleren een gerichte storing in een productie-vergelijkbare omgeving en kijken of failover, observability en runbooks doen wat ze beloofd hebben. Vervolgens lopen we mee op een chaos-engineering-cadans en op post-mortems van echte incidenten, zodat de architectuur en de runbooks blijven verbeteren in plaats van langzaam te eroderen. Voor disaster recovery werken we waar nodig aan een apart disaster-recovery-platform.

Veelgestelde vragen over high availability.

De vragen die platform-eigenaren, IT-managers en CTO's ons meestal stellen voor een traject begint.

Wat is een high-availability-systeem precies?

Een HA-systeem is een platform dat zo is ontworpen dat het ook blijft functioneren als één of meerdere onderliggende componenten uitvallen — een server, een database-replica, een netwerk-link of zelfs een hele cloud-availability-zone. In de praktijk betekent dat: redundantie op elke kritieke laag, automatische failover in plaats van handmatige interventie, en monitoring die fouten detecteert voordat uw klanten ze melden. HA wordt meestal uitgedrukt in een uptime-percentage zoals 99,9%, 99,99% of 99,999% — en achter elk extra negentje zit een flinke sprong in zowel architectuur-complexiteit als kosten.

Wat is het verschil tussen high availability en disaster recovery?

HA gaat over het voorkómen van downtime: redundantie, failover, load balancing en monitoring zorgen ervoor dat een storing in één component niet doorslaat naar uw eindgebruikers. Disaster recovery gaat over wat u doet als er ondanks alle redundantie tóch een groter incident is — een gecorrumpeerde database, een region-wide outage, een security-incident — en hoe u dan binnen een afgesproken termijn weer in de lucht bent met intacte data. De twee overlappen, maar ze zijn niet hetzelfde. Een goed HA-systeem heeft ook een DR-plan; een DR-plan zonder HA betekent dat u sneller terug bent na een grote crisis, niet dat u kleine storingen voorkomt.

Wat is het kostenverschil tussen 99,9% en 99,99% uptime?

Aanzienlijk, en niet lineair. 99,9% laat ruimte voor ongeveer 8,76 uur onbeschikbaarheid per jaar; 99,99% laat nog ongeveer 52 minuten toe, en 99,999% nog krap 5 minuten. Elk extra negentje betekent dat zaken die op het vorige niveau handmatig of eenmalig opgelost mochten worden, nu volautomatisch en redundant moeten zijn — meer replicas, meer regio's, strakkere deployment-disciplines, een ingericht on-call-team en chaos-engineering. We vertellen in het eerste gesprek welk niveau realistisch en zinvol is voor uw business. Niet elke applicatie verdient 99,99%; veel intern gebruikte tools zijn met 99,5% prima geholpen.

Hebben we multi-region nodig of is multi-AZ voldoende?

Voor de meeste Nederlandse applicaties is een multi-AZ-opzet binnen één regio voldoende en aanzienlijk goedkoper dan multi-region. AZ's binnen één regio vallen praktisch nooit tegelijk uit, en de latentie tussen AZ's is laag genoeg om synchrone database-replicatie te ondersteunen. Multi-region zetten we vooral in als de business een hele cloud-regio als reëel risico moet uitsluiten — typisch bij financiële diensten, telecom of internationaal opererende platforms — of wanneer er regulatoire eisen zijn aan data-residency in meerdere landen. We adviseren liever multi-AZ met een geteste cross-region DR-procedure dan een halfslachtige active-active opzet die in de praktijk nooit door drills heen komt.

Kunnen jullie onze bestaande applicatie HA-fähig maken zonder herbouw?

In veel gevallen wel. We beginnen met een SPOF-audit: waar zit state, waar zitten singleton-processen, hoe is de database opgezet, wat gebeurt er bij netwerk-uitval? Voor veel applicaties is het haalbaar om stapsgewijs naar HA toe te werken — database-replicatie en automatic failover, sessies uit de application halen, een load-balancer ervoor, een goede observability-laag, en daarna pas de moeilijkere refactors. Soms is fundamentele herbouw onvermijdelijk omdat de architectuur HA in de weg zit; dat zeggen we eerlijk in plaats van te beloven dat we het er met een paar plug-ins bij timmeren.

Hoe regelen jullie database-HA?

Afhankelijk van de database en de eisen. Voor PostgreSQL werken we vaak met Patroni of Stolon voor leader-follower replicatie met automatic failover en point-in-time recovery. Voor MySQL of MariaDB met Galera-cluster of een managed RDS-variant. Waar latency en write-scaling kritiek zijn kijken we naar multi-master oplossingen als CockroachDB of YugabyteDB. We kiezen geen technologie op trend — we kiezen op fit met uw workload, uw team en uw operationele realiteit, en we leveren een geteste procedure voor backup-restore en failover-drills.

Werken jullie samen met onze eigen DevOps- of platform-engineers?

Vrijwel altijd. HA-werk is bij uitstek werk dat na go-live door uw eigen team gedragen moet worden — anders erodeert het ontwerp binnen een jaar. We werken in pair met uw engineers, dragen kennis over in elke sprint en leveren documentatie en runbooks waar nieuwe collega's daadwerkelijk iets aan hebben. Als u nog geen platform-team heeft kunnen we tijdelijk de DevOps-rol invullen vanuit onze DevOps-as-a-service, totdat u zelf bemensd bent.

Wat bepaalt de kosten van een HA-traject?

Vooral drie dingen: het gekozen uptime-doel, hoe ver uw huidige situatie daarvan afstaat, en de mate waarin uw eigen team meebouwt. Een 99,9% multi-AZ-traject op een redelijk schone applicatie is iets fundamenteel anders dan een 99,99% multi-region opzet voor een legacy-monoliet met flink wat ingesleten state. Daarnaast tellen de keuzes voor managed services versus zelf beheerde infrastructuur zwaar mee, en speelt mee of u monitoring en on-call bij ons onderbrengt of intern oppakt. We schetsen de bandbreedte in het eerste gesprek en werken altijd met vaste sprintprijzen zodat u niet voor verrassingen komt te staan.

Bouwen jullie ook HA voor enterprise-platforms?

Ja. Voor grotere organisaties leveren we HA-werk als onderdeel van bredere enterprise-software-trajecten: aansluiting op een corporate identity-provider, change-advisory-boards rondom releases, SLA-niveaus per systeemonderdeel en aansluiting op een bestaande SOC of MSP. Het verschil met een MKB-traject zit vooral in de governance, niet in de techniek — de architectuur-principes zijn dezelfde.

Praat met ons over uw high-availability-platform.

Een kennismaking van een half uur, vrijblijvend. We luisteren naar welke flows mission-critical zijn, naar uw huidige architectuur en naar het uptime-doel dat past bij uw business — en geven richting waar u meteen iets aan hebt, ook als we uiteindelijk niet samenwerken.

Plan een kennismaking Of bekijk ons werk