"We zijn Tier III, dus hebben we 99,98% uptime." Deze zin horen we vaak. Tier-ratings zeggen iets over componentredundantie, niet over wanneer er een incident zal optreden. Na vijf jaar bedrijfsvoering zullen uw werkelijke cijfers iets heel anders vertellen dan uw PR-materiaal.
Vijf zaken die uptime meer beïnvloeden dan Tier
1. De afstand tussen dieselgenerator en hoofdzekeringselement
Bij stroomuitval start de generator binnen 8–30 seconden. De UPS overbrugt het gat. Als er tussen UPS en generator een lange kabelweg ligt met 12 verbindingen, kan één van die verbindingen falen bij thermische schok tijdens het schakelen. Dit gebeurt niet bij rustige werking, maar precies op het moment van schakelen — wanneer u hem nodig hebt.
Een Tier-rating beoordeelt de kwaliteit van verbindingen niet. Een test bij inbedrijfstelling wel — maar alleen als u die uitvoert. Veel exploitanten slaan die over, omdat "de componenten Tier-gecertificeerd zijn".
2. Filters in cooling units worden vervangen volgens kalender, niet volgens drukverschil
Een verstopt filter verhoogt het energieverbruik met 8–15%, vermindert de effectieve capaciteit met 20–30% en in extreme gevallen schakelt het de cooling unit uit. Sommige datacenters vervangen filters per kwartaal volgens kalender. Verbruik en capaciteit fluctueren door het jaar afhankelijk van wanneer de laatste vervanging plaatsvond.
SOTA-praktijk: elke cooling unit heeft een differentiaaldrukmeter over het filter die alarm geeft bij overschrijding van een drempel. Het filter wordt vervangen wanneer het verstopt is — niet eerder (verspilling), niet later (risico).
3. Kabel-mapping in de installatiefase wordt nooit voltooid
In een groot datacenter wordt een kabel van switch A naar rack B aangelegd via een kabeltracé dat in het project is aangegeven. Maar de realiteit: tijdens de installatie worden vier van de vijf kabels volgens het project gelegd, de vijfde wordt "ergens doorheen geleid", omdat het tracé vol was.
Drie jaar later, bij een reconfiguratie, weet niemand waar die vijfde kabel ligt. Waarschijnlijk wordt hij beschadigd bij het doorboren van een muur. Bij het herstel van de apparatuur leidt dit tot 4–8 uur downtime.
Oplossing: tracé-etiketten elke 5 m op elke kabel. Kost weinig. Bespaart jaren ellende.
4. Firmware-updates worden uitgesteld totdat er iets faalt
Een switch in een datacenter heeft firmware uit 2019. Hij werkt. Niemand heeft hem aangeraakt, want "wat werkt, laat je met rust". Vier jaar later komt er een CVE met een actief uitgebuite exploit uit. De firmware moet urgent worden bijgewerkt — tijdens kantooruren, op een live systeem.
Geplande update 's nachts met rollbackplan: 30 minuten downtime, 0 problemen. Urgente update overdag onder druk: 4–6 uur downtime, risico op dataverlies bij slechte rollbackprocedure.
De SLA vermeldt niet hoeveel firmware-update-windows de kalender bevat. Dat zou wel moeten.
5. Personeel, niet infrastructuur
Om 4 uur 's nachts in het weekend komt er in het datacenter geen team van 20 engineers. Er komt een dispatcher + één technicus op de shift. Hun beslissingen vormen de SLA.
Het belangrijkste bij de keuze van een datacenter: welk runbook hebben de shift-technici? Welke escalatiekanalen? Hoe snel komt een tweede technicus bij een complex incident? Een Tier-rating zegt hierover niets.
Wat u werkelijk moet meten
- **MTTR (Mean Time To Recovery)**: gemiddelde hersteltijd na een incident. Betere metric dan "uptime %", omdat één incident van 6 uur vs. duizend incidenten van 5 minuten dezelfde uptime opleveren, maar een totaal andere impact op het bedrijf hebben.
- **Incidents per kwartaal** over de laatste 4 kwartalen. Als het datacenter dit cijfer niet heeft, geeft het u geen waarheidsgetrouw beeld.
- **Last unplanned outage > 1 h**: wanneer was de laatste ongeplande storing langer dan een uur? Een verse datum vs. "3 jaar geleden" zegt veel.
- **Vendor diversity**: hoeveel verschillende leveranciers heeft de UPS, generator, cooling, switch? Single-vendor = sterkere integratie, zwakkere resilience bij vendor-wide problemen.
Conclusie: SLA is een afgesproken fictie. Operationele kwaliteit is werkelijkheid.
Tier-rating + SLA-papier + ISO-certificaat = invoerfilter. De werkelijke kwaliteit van de operatie verifieert u via kwartaalaudits, gesprekken met de nachttechnicus en incident reports van de afgelopen 24 maanden.
Een klant die een datacenter alleen op Tier-rating selecteert, krijgt wat het papier garandeert. Een klant die dieper graaft, krijgt wat hij werkelijk nodig heeft.
---
*Deze inzichten komen uit operationele ervaring, post-mortem-analyses na incidenten bij klanten en audits die we voor derden hebben uitgevoerd. Als u een datacenter selecteert of zelf een ontwerpt, lopen we dezelfde criteria door voor uw concrete use-case.*