„Wir sind Tier III, also haben wir 99,98 % Uptime." Diesen Satz hören wir oft. Tier-Ratings sprechen über Redundanz von Komponenten, nicht darüber, wann ein Vorfall eintritt. Nach fünf Jahren Betrieb werden Ihre tatsächlichen Zahlen etwas ganz anderes sagen als Ihr PR-Material.
Fünf Dinge, die die Uptime stärker beeinflussen als das Tier
1. Der Abstand zwischen Dieselgenerator und Hauptschutzorgan
Bei Stromausfall startet der Generator in 8–30 Sekunden. Die USV überbrückt die Lücke. Wenn zwischen USV und Generator eine lange Leitung mit 12 Verbindungen liegt, kann eine der Verbindungen beim thermischen Schock während des Umschaltens versagen. Das passiert nicht im Ruhebetrieb, sondern genau im Moment des Umschaltens — wenn Sie es brauchen.
Das Tier-Rating bewertet die Qualität der Verbindungen nicht. Ein Test bei Inbetriebnahme schon — aber nur, wenn Sie ihn durchführen. Viele Betriebe überspringen ihn, weil „die Komponenten Tier-zertifiziert sind".
2. Filter in Cooling-Units werden nach Kalender getauscht, nicht nach Differenzdruck
Ein verschmutzter Filter erhöht den Energieverbrauch um 8–15 %, senkt die effektive Kapazität um 20–30 % und schaltet die Cooling-Unit im Extremfall ab. Manche Rechenzentren tauschen Filter quartalsweise nach Kalender. Verbrauch und Kapazität schwanken übers Jahr je nachdem, wann der letzte Wechsel war.
SOTA-Praxis: Jede Cooling-Unit hat einen Differenzdruckmesser über den Filter, der bei Überschreiten eines Schwellwerts Alarm gibt. Der Filter wird gewechselt, wenn er verschmutzt ist — nicht früher (Verschwendung), nicht später (Risiko).
3. Das Kabel-Mapping in der Installationsphase wird nie fertiggestellt
In einem großen Rechenzentrum wird ein Kabel von Switch A zu Rack B über die Kabeltrasse verlegt, die im Projekt eingezeichnet ist. Aber die Realität: Bei der Installation werden vier von fünf Kabeln nach Projekt verlegt, das fünfte wird „verlegt, wo es geht", weil die Trasse voll war.
Drei Jahre später bei einer Rekonfiguration weiß niemand, wo das fünfte Kabel liegt. Wahrscheinlich wird es beim Durchbruch durch die Wand zerstört. Bei der Wiederherstellung der Anlage entstehen 4–8 Stunden Downtime.
Lösung: Trassenetiketten alle 5 m an jedem Kabel. Kostet wenig. Spart jahrelange Schmerzen.
4. Firmware-Updates werden verschoben, bis etwas ausfällt
Ein Switch im Rechenzentrum hat Firmware aus dem Jahr 2019. Funktioniert. Niemand hat ihn angefasst, weil „was funktioniert, repariere ich nicht". Vier Jahre später erscheint ein CVE mit einem Exploit, den Angreifer ausnutzen. Die Firmware muss dringend aktualisiert werden — während der Arbeitszeit, am laufenden System.
Geplantes Update nachts mit Rollback-Plan: 30 Minuten Downtime, 0 Probleme. Dringendes Update tagsüber unter Druck: 4–6 Stunden Downtime, Datenverlustrisiko bei fehlerhafter Rollback-Prozedur.
Die SLA gibt nicht an, wie viele Firmware-Update-Windows der Kalender enthält. Sie sollte es.
5. Personal, nicht Infrastruktur
Im Rechenzentrum erscheint um 4 Uhr morgens am Wochenende kein Team mit 20 Ingenieuren. Es erscheinen der Dispatcher und ein Techniker im Schichtdienst. Ihre Entscheidungen formen die SLA.
Das Wichtigste bei der Auswahl eines Rechenzentrums: Welches Runbook haben die Schichttechniker? Welche Eskalationskanäle? Wie schnell kommt ein zweiter Techniker bei komplexen Vorfällen? Das Tier-Rating sagt dazu nichts.
Was wirklich messen
- **MTTR (Mean Time To Recovery)**: durchschnittliche Wiederherstellungszeit nach einem Vorfall. Bessere Kennzahl als „Uptime %", weil ein 6-Stunden-Vorfall vs. tausend 5-Minuten-Vorfälle die gleiche Uptime, aber völlig andere Auswirkungen auf das Geschäft haben.
- **Incidents pro Quartal** über die letzten 4 Quartale. Wenn das Rechenzentrum diese Kennzahl nicht hat, gibt es Ihnen kein wahrheitsgemäßes Bild.
- **Last unplanned outage > 1 h**: Wann war der letzte ungeplante Ausfall länger als eine Stunde? Frisches Datum vs. „vor 3 Jahren" sagt viel aus.
- **Vendor Diversity**: Wie viele verschiedene Lieferanten gibt es für USV, Generator, Cooling, Switch? Single-Vendor = stärkere Integration, schwächere Resilience bei vendor-weiten Problemen.
Fazit: SLA ist eine vereinbarte Fiktion. Operative Qualität ist die Realität.
Tier-Rating + SLA-Papier + ISO-Zertifikat = Eingangsfilter. Die tatsächliche Betriebsqualität wird über Quartals-Audits, Gespräche mit dem Nachttechniker und Incident-Reports der letzten 24 Monate überprüft.
Ein Kunde, der ein Rechenzentrum nur nach Tier-Rating auswählt, bekommt das, was das Papier garantiert. Ein Kunde, der tiefer geht, bekommt das, was er wirklich braucht.
---
*Diese Einblicke stammen aus betrieblicher Erfahrung, aus Post-Mortem-Analysen nach Kunden-Incidents und aus Audits, die wir für Dritte durchgeführt haben. Wenn Sie ein Rechenzentrum auswählen oder ein eigenes planen, gehen wir die gleichen Kriterien für Ihren konkreten Use-Case durch.*