„Sme Tier III, tak máme 99,98 % uptime." Toto vetu počujeme často. Tier ratingy hovoria o redundantnosti komponentov, nie o tom, kedy dôjde k incidentu. Po piatich rokoch prevádzky budú vaše skutočné čísla povedať niečo úplne iné než váš PR materiál.
Päť vecí, ktoré ovplyvňujú uptime viac ako Tier
1. Vzdialenosť medzi diesel generátorom a hlavným istiacim prvkom
Pri výpadku elektriny generátor naskočí za 8–30 sekúnd. UPS pokryje gap. Ak je medzi UPS a generátorom dlhý vedenie s 12 spojkami, jeden zo spojov môže zlyhať pri tepelnom šoku počas prepnutia. Toto sa nestáva pri pokojnej prevádzke, ale presne v okamihu prepínania — kedy ho potrebujete.
Tier rating neoznámkuje kvalitu spojov. Test pri uvedení do prevádzky áno — ale len ak ho budete robiť. Mnoho prevádzok ho preskočí, pretože „komponenty sú Tier-certifikované".
2. Filtre v cooling units sa vymenia podľa kalendára, nie podľa diferenčného tlaku
Zaprášený filter zvýši energetickú spotrebu o 8–15 %, zníži efektívnu kapacitu o 20–30 % a v extrémnom prípade vypne cooling unit. Niektoré dátové centrá vymieňajú filtre kvartálne podľa kalendára. Spotreba a kapacita kolíše počas roka podľa toho, kedy bola posledná výmena.
SOTA prax: každý cooling unit má diferenčný tlakomer cez filter, ktorý posiela alarm pri prekročení prahu. Filter sa mení vtedy, kedy je zaprášený — nie skôr (plytvanie), nie neskôr (riziko).
3. Mapping káblov vo fáze inštalácie sa nikdy nedokončí
V rozsiahlom dátovom centre sa kábel od switchu A k racku B nainštaluje cez kabelovú trasu, ktorá je v projekte vyznačená. Ale realita: pri inštalácii sa štyri káble z piatich uložia podľa projektu, piaty sa „prevedie kade sa dá", lebo trasa bola plná.
O tri roky neskôr pri rekonfigurácii nikto nevie, kde piaty kábel leží. Pravdepodobne sa pretrhne pri pretĺkaní steny. Pri obnove zariadenia z toho vyplynie 4–8 hodín downtime.
Riešenie: trasovacie štítky každých 5 m na každom kábli. Nestojí veľa. Šetrí roky bolesti.
4. Firmware updates sa odkladajú, kým niečo nezlyhá
Switch v dátovom centre má firmware z roku 2019. Funguje. Nikto sa ho nedotkol, lebo „čo funguje, neopravujem". O 4 roky neskôr v ňom vyjde CVE s exploit-om, ktorý zachytávajú útočníci. Firmware sa musí aktualizovať urgentne — počas pracovnej doby, na živom systéme.
Plánovaná aktualizácia v noci s rollback plánom: 30 minút downtime, 0 problémov. Urgentná v dennej dobe pri tlaku: 4–6 hodín downtime, riziko stratených dát pri zlej rollback procedúre.
SLA neuvádza, koľko firmware-update windows kalendár obsahuje. Mali by uvádzať.
5. Personál, nie infraštruktúra
V dátovom centre o 4. ráno počas víkendu nepríde tím s 20 inžiniermi. Príde dispečer + jeden technik na zmene. Ich rozhodnutia tvoria SLA.
Najdôležitejšie pri výbere dátového centra: aký runbook majú zmenoví technici? Aké eskalačné kanály? Ako rýchlo prichádza druhý technik pri komplexnom incidente? Tier rating na toto nepovie nič.
Čo merať skutočne
- **MTTR (Mean Time To Recovery)**: priemerný čas obnovy po incidente. Lepšia metrika než „uptime %", pretože jeden 6-hodinový incident vs. tisíc 5-minútových má rovnaké uptime, ale úplne iný vplyv na biznis.
- **Incidents per quarter** za posledné 4 kvartály. Ak dátové centrum nemá tento údaj, neuvádza vám pravdivý obraz.
- **Last unplanned outage > 1 h**: kedy bol poslední neplánovaný výpadok dlhší ako hodinu? Čerstvý dátum vs. „pred 3 rokmi" hovorí veľa.
- **Vendor diversity**: koľko rôznych dodávateľov má UPS, generátor, cooling, switch? Single-vendor = silnejšia integrácia, slabšia resilience pri vendor-wide problémoch.
Záver: SLA je dohodnutá fikcia. Operatívna kvalita je realita.
Tier rating + SLA papier + ISO certifikát = vstupný filter. Skutočná kvalita prevádzky sa overí cez kvartálne audity, cez rozhovory s nočným technikom, cez incident reports z posledných 24 mesiacov.
Klient, ktorý vyberá dátové centrum len podľa Tier ratingu, dostáva to, čo papier garantuje. Klient, ktorý ide hlbšie, dostáva to, čo skutočne potrebuje.
---
*Tieto pohľady sú z prevádzkového skúseností, z post-mortem analýz po klientskych incidentoch a z auditov, ktoré sme robili pre tretie strany. Ak vyberáte dátové centrum alebo navrhujete vlastné, prejdeme rovnaké kritériá pre váš konkrétny use-case.*