„Jesteśmy Tier III, więc mamy 99,98 % uptime." To zdanie słyszymy często. Tier ratingi mówią o redundancji komponentów, nie o tym, kiedy dojdzie do incydentu. Po pięciu latach eksploatacji Państwa rzeczywiste liczby powiedzą coś zupełnie innego niż Państwa materiał PR.
Pięć rzeczy, które wpływają na uptime bardziej niż Tier
1. Odległość między generatorem diesla a głównym elementem zabezpieczającym
Przy zaniku zasilania generator startuje za 8–30 sekund. UPS pokrywa lukę. Jeśli między UPS a generatorem jest długi kabel z 12 spawami, jeden ze spawów może zawieść przy szoku termicznym podczas przełączania. To nie zdarza się przy spokojnej pracy, ale dokładnie w momencie przełączania — kiedy go Państwo potrzebują.
Tier rating nie ocenia jakości spawów. Test przy uruchomieniu owszem — ale tylko jeśli będziecie go Państwo robić. Wiele obiektów go pomija, bo „komponenty są Tier-certyfikowane".
2. Filtry w cooling units wymienia się według kalendarza, nie według różnicy ciśnień
Zapylony filtr zwiększa zużycie energii o 8–15 %, redukuje efektywną pojemność o 20–30 %, a w skrajnym przypadku wyłącza cooling unit. Niektóre centra danych wymieniają filtry kwartalnie według kalendarza. Zużycie i pojemność oscylują w ciągu roku w zależności od tego, kiedy była ostatnia wymiana.
Praktyka SOTA: każda cooling unit ma manometr różnicowy na filtrze, który wysyła alarm przy przekroczeniu progu. Filtr wymienia się wtedy, kiedy jest zapylony — nie wcześniej (marnotrawstwo), nie później (ryzyko).
3. Mapowanie kabli na etapie instalacji nigdy się nie kończy
W rozległym centrum danych kabel od switcha A do racka B jest instalowany trasą kablową, która jest oznaczona w projekcie. Ale rzeczywistość: przy instalacji cztery kable z pięciu układa się zgodnie z projektem, piąty „przeprowadza się gdzie się da", bo trasa była zapełniona.
Trzy lata później przy rekonfiguracji nikt nie wie, gdzie leży piąty kabel. Prawdopodobnie urwie się przy kuciu ściany. Przy modernizacji wynika z tego 4–8 godzin downtime.
Rozwiązanie: etykiety trasowe co 5 m na każdym kablu. Nie kosztuje wiele. Oszczędza lata bólu.
4. Aktualizacje firmware odsuwa się, dopóki coś nie padnie
Switch w centrum danych ma firmware z 2019 roku. Działa. Nikt go nie ruszył, bo „co działa, tego nie naprawiam". 4 lata później wychodzi w nim CVE z exploit-em, który łapią napastnicy. Firmware musi być zaktualizowany pilnie — w godzinach roboczych, na żywym systemie.
Zaplanowana aktualizacja w nocy z planem rollback: 30 minut downtime, 0 problemów. Pilna w dzień pod presją: 4–6 godzin downtime, ryzyko utraty danych przy złej procedurze rollback.
SLA nie wskazuje, ile firmware-update windows obejmuje kalendarz. Powinny wskazywać.
5. Personel, nie infrastruktura
W centrum danych o 4. rano podczas weekendu nie przyjdzie zespół 20 inżynierów. Przyjdzie dyspozytor + jeden technik na zmianie. Ich decyzje tworzą SLA.
Najważniejsze przy wyborze centrum danych: jaki runbook mają technicy zmianowi? Jakie kanały eskalacji? Jak szybko przybywa drugi technik przy złożonym incydencie? Tier rating na to nie odpowie nic.
Co naprawdę mierzyć
- **MTTR (Mean Time To Recovery)**: średni czas odzyskiwania po incydencie. Lepsza metryka niż „uptime %", ponieważ jeden 6-godzinny incydent vs. tysiąc 5-minutowych ma to samo uptime, ale zupełnie inny wpływ na biznes.
- **Incidents per quarter** za ostatnie 4 kwartały. Jeśli centrum danych nie ma tej danej, nie podaje Państwu prawdziwego obrazu.
- **Last unplanned outage > 1 h**: kiedy był ostatni nieplanowany wypadek dłuższy niż godzina? Świeża data vs. „przed 3 laty" mówi wiele.
- **Vendor diversity**: ilu różnych dostawców ma UPS, generator, cooling, switch? Single-vendor = silniejsza integracja, słabsza odporność przy problemach vendor-wide.
Podsumowanie: SLA to umówiona fikcja. Jakość operacyjna to rzeczywistość.
Tier rating + papier SLA + certyfikat ISO = filtr wstępny. Realną jakość eksploatacji weryfikuje się przez kwartalne audyty, przez rozmowy z nocnym technikiem, przez incident reports z ostatnich 24 miesięcy.
Klient, który wybiera centrum danych tylko według Tier ratingu, dostaje to, co papier gwarantuje. Klient, który idzie głębiej, dostaje to, czego naprawdę potrzebuje.
---
*Te spostrzeżenia pochodzą z doświadczeń operacyjnych, z analiz post-mortem po incydentach klientów i z audytów, które robiliśmy dla stron trzecich. Jeśli wybierają Państwo centrum danych lub projektują własne, przejdziemy te same kryteria pod Państwa konkretny use-case.*