"Somos Tier III, así que tenemos un 99,98% de uptime". Esta frase la oímos a menudo. Los Tier ratings hablan de la redundancia de componentes, no de cuándo va a ocurrir un incidente. Tras cinco años de operación, sus cifras reales dirán algo completamente distinto que su material de PR.
Cinco cosas que afectan al uptime más que el Tier
1. La distancia entre el grupo diésel y el elemento de protección principal
En un corte de electricidad el generador arranca en 8-30 segundos. La UPS cubre el gap. Si entre la UPS y el generador hay un cableado largo con 12 conexiones, una de las uniones puede fallar bajo shock térmico durante la conmutación. Esto no ocurre en operación tranquila, sino justo en el momento del switchover — cuando lo necesita.
El Tier rating no califica la calidad de las uniones. La prueba de puesta en marcha sí — pero solo si la realiza. Muchas operativas la saltan, porque "los componentes están Tier-certificados".
2. Los filtros de las cooling units se cambian por calendario, no por presión diferencial
Un filtro con polvo aumenta el consumo energético entre un 8-15%, reduce la capacidad efectiva entre un 20-30% y en casos extremos apaga la cooling unit. Algunos centros de datos cambian filtros trimestralmente por calendario. El consumo y la capacidad oscilan durante el año según cuándo fue el último cambio.
Práctica SOTA: cada cooling unit tiene un manómetro diferencial sobre el filtro, que envía alarma al superar un umbral. El filtro se cambia cuando está sucio — no antes (despilfarro), no después (riesgo).
3. El mapping de cables durante la instalación nunca se termina
En un centro de datos extenso, el cable desde el switch A al rack B se instala por la ruta de cables marcada en el proyecto. Pero la realidad: durante la instalación cuatro cables de cinco se colocan según el proyecto, el quinto se "lleva por donde se puede", porque la ruta estaba llena.
Tres años después, durante una reconfiguración, nadie sabe por dónde va el quinto cable. Es probable que se corte al picar la pared. Al restaurar el equipo, esto se traduce en 4-8 horas de downtime.
Solución: etiquetas de trazado cada 5 m en cada cable. No cuesta mucho. Ahorra años de dolor.
4. Los firmware updates se posponen hasta que algo falla
Un switch en el centro de datos tiene firmware de 2019. Funciona. Nadie lo ha tocado, porque "lo que funciona, no se arregla". 4 años después le aparece un CVE con un exploit que capturan atacantes. El firmware tiene que actualizarse urgentemente — en horario laboral, sobre sistema vivo.
Una actualización planificada de noche con plan de rollback: 30 minutos de downtime, 0 problemas. Una urgente en horario diurno bajo presión: 4-6 horas de downtime, riesgo de pérdida de datos por mala rollback procedure.
El SLA no indica cuántas firmware-update windows contiene el calendario. Deberían indicarlo.
5. El personal, no la infraestructura
En el centro de datos a las 4 de la madrugada un fin de semana no llega un equipo con 20 ingenieros. Llega un dispatcher + un técnico de turno. Sus decisiones componen el SLA.
Lo más importante al elegir centro de datos: ¿qué runbook tienen los técnicos de turno? ¿Qué canales de escalado? ¿Con qué rapidez llega el segundo técnico en un incidente complejo? El Tier rating no dice nada al respecto.
Qué medir de verdad
- **MTTR (Mean Time To Recovery)**: tiempo medio de recuperación tras incidente. Mejor métrica que "uptime %", porque un incidente de 6 horas vs. mil de 5 minutos tienen el mismo uptime, pero impacto completamente distinto en el negocio.
- **Incidents per quarter** de los últimos 4 trimestres. Si el centro de datos no tiene este dato, no le está dando una imagen veraz.
- **Last unplanned outage > 1 h**: ¿cuándo fue el último corte no planificado de más de una hora? Una fecha reciente vs. "hace 3 años" dice mucho.
- **Vendor diversity**: ¿cuántos proveedores distintos tiene UPS, generador, cooling, switches? Single-vendor = integración más fuerte, peor resiliencia ante problemas vendor-wide.
Conclusión: el SLA es una ficción acordada. La calidad operativa es la realidad.
Tier rating + papel SLA + certificado ISO = filtro de entrada. La calidad real de la operativa se verifica vía auditorías trimestrales, vía conversaciones con el técnico nocturno, vía incident reports de los últimos 24 meses.
Un cliente que elige centro de datos solo por Tier rating obtiene lo que el papel garantiza. Un cliente que va más profundo obtiene lo que realmente necesita.
---
*Estos puntos de vista provienen de experiencia operativa, de análisis post-mortem tras incidentes de clientes y de auditorías que hemos realizado para terceros. Si está eligiendo centro de datos o diseñando uno propio, repasaremos los mismos criterios para su caso de uso concreto.*