NVIDIA H100 SXM5 disipa 700 W en pleno training FP16/BF16. El B200 SXM va con 1 000 W. El GB200 en rack NVL36 completo, 132 kW. Estas cifras están más allá de lo que el air cooling físicamente soporta — no económicamente, no eficientemente, sino **físicamente**. Este artículo trata de cómo se decide cuando tiene delante un clúster H100 de 8 nodos o planifica el primer despliegue B200, y por qué la two-phase immersion ha muerto en los últimos 18 meses.
Por qué el air cooling se para sobre 30 kW/rack
El air cooling funciona así: el disipador entrega calor a través de heatpipes de cobre → aletas del heatsink → aire impulsado por ventilador → la unidad CRAC enfría el aire → repita. Para la ecuación física de transferencia de calor:
`Q = ṁ × cp × ΔT`
Donde `Q` es el calor a extraer (W), `ṁ` es el caudal de aire (kg/s), `cp` es la capacidad térmica específica del aire (1 005 J/kg·K) y `ΔT` es la diferencia entre la temperatura de salida y entrada del aire.
Para un rack de 30 kW con ΔT = 15 K necesita: `ṁ = 30 000 / (1 005 × 15) = 1,99 kg/s` = ~1 650 m³/h de aire
Eso significa ventiladores en el rack + CRAC que consumen juntos **3,5–4,5 kW solo en ventilación**. En un rack de 60 kW necesitaría el doble de aire — 3 300 m³/h, lo que ya implica ruido 90+ dB y limitación física del chasis (no caben más fans). Y la propia ventilación consumiría 8–11 kW. **El PUE de aire puro con rack de 60 kW realmente cae a 1,8–2,2** — inasumible económicamente.
El boundary layer entre chip → heatsink junction es otra limitación: en el H100 la junction temperature debe permanecer bajo 87 °C, el aire ambiente al CRAC máx. 27 °C, por lo que ΔT sobre todo el recorrido es 60 °C. Para un chip de 700 W sobre 7 cm² de die area el flujo térmico es 100 W/cm². El aire a velocidad razonable (3–6 m/s) no transmite esto eficazmente — a partir de 50 W/cm² el refrigeración líquida empieza a ser necesaria.
**Umbral práctico:** por encima de 30 kW/rack el air cooling pierde sentido económico, por encima de 50 kW/rack pierde sentido físico.
Direct-to-Chip (DTC) — cómo funciona realmente
DTC = placa fría directamente sobre CPU y GPU, líquido (típicamente propylenglicol-agua 25:75 o PG 30:70) circula por microchannels de la cold plate. El líquido recoge el calor, va al **CDU** (Coolant Distribution Unit), que lo entrega al loop secundario — típicamente facility water, que va a chiller o dry cooler.
Topología en un clúster real H100 de 8 nodos
- **8× DGX H100** o **8× HPE Cray EX H100** — cada nodo disipa 10,2 kW (8× H100 SXM5 + 2× Sapphire Rapids CPU + DPU + NIC + PSU losses)
- **TDP del rack:** ~85 kW (8 nodos + 2 switches InfiniBand + storage chassis)
- **Cobertura DTC:** GPU SXM5 + CPU. NIC + DPU permanecen air-cooled (12–15 % de calor residual)
- **CDU por rack:** Asetek RackCDU D2C o CoolIT CHx650, capacidad 100–150 kW por unidad CDU
- **Loop secundario:** facility water 32–40 °C input → 45–55 °C output (W4 ASHRAE liquid cooling envelope)
- **Rejection térmica:** dry cooler en clima UE (ningún chiller necesario con agua a 32 °C+) — free cooling todo el año con diseño correcto
Top vendors DTC en 2026
**Asetek** - RackCDU D2C generation 4 — el ecosistema DTC más extendido - Cold plates para H100, B200, GB200, Intel Xeon, AMD EPYC - Capacidad de CDU 80/120/200 kW - **Precio retrofit:** 5 800–7 200 EUR / rack para coldplates + manifold + quick disconnect - **Precio CDU:** 18–28 k EUR por unit de 120 kW
**CoolIT Systems** - AHx series (estilo Asetek) + CHx series (server-level integrado) - Para OEM (HPE Cray, Lenovo Neptune, Dell PowerEdge XE9680L) - Mayor integración OEM, menos kits retrofit - **Precio:** típicamente parte de la cotización OEM del servidor, +3–4 k EUR / servidor frente a variante air
**Submer DTC (antes CoolIT Direct-to-Chip)** - Originalmente immersion vendor, ahora también productos DTC - Variantes outdoor de CDU con rejection air-cooled (sin facility water necesario) - **Precio:** 6 500–8 000 EUR / rack
**Motivair** - Especialización en retrofits HPC de alta densidad - ColdPort technology (para HPE Cray EX) - **Precio:** mayoritariamente project-based, 30–80 k EUR per clúster
Benchmark real — clúster DGX H100 de 8 nodos
En un proyecto que auditamos (greenfield AI lab cerca de Múnich, plenamente desplegado en Q4 2025):
| Parámetro | DGX H100 air-cooled | DTC Asetek retrofit | |-----------|---------------------|----------------------| | TDP por nodo | 10,2 kW | 10,2 kW | | Cooling power por nodo | 1,4 kW (fans + CRAC share) | 0,28 kW (residual fans + CDU pump share) | | **PUE de todo el clúster** | **1,45** | **1,08** | | Consumo anual (8 nodos) | 715 MWh | 535 MWh | | A 0,18 EUR/kWh | **128 700 EUR / año** | **96 300 EUR / año** | | Delta CAPEX | baseline | +52 000 EUR (8 racks DTC + CDU) | | **Payback** | — | **~19 meses** |
Con B200 y B300 este beneficio aumenta más (TDP mayor → mayor porción de calor extraída por líquido vs. aire).
Immersion — realidad single-phase
Single-phase immersion = el servidor entero (sin fans) sumergido en líquido dieléctrico (Submer SmartCoolant, ShellLubri DCT 16, Castrol DC iX). El líquido circula por el tank, entra a 35–45 °C, sale a 45–55 °C.
Capacidad y PUE
- **Submer SmartPodX:** 100 kW por tank, footprint ~2 m²
- **Asperitas AIC24:** 50 kW por tank
- **GRC ICEraQ Quad:** 168 kW por quad-tank
- **PUE:** 1,03–1,06 (lo mejor de la industria)
Limitaciones reales
1. **Server formfactor.** No todo servidor entra en immersion. El baseboard NVIDIA HGX H100 8-GPU funciona, pero hay que retirar fans y reaplicar el thermal interface con un gap pad immersion-specific (ShellLubri SC2). Algunos OEM (Supermicro, Inspur) ofrecen variantes immersion-ready; HPE Cray EX no.
2. **Mantenimiento.** Sacar un servidor del tank implica: apagarlo, esperar 10–15 minutos de drip-off del líquido, alzarlo con polipasto (típicamente 30–50 kg + 8–12 kg de líquido dentro), trasladarlo a banco de servicio. La operación dura 45–90 minutos en lugar de 5 minutos del hot swap air-cooled.
3. **Cabling.** Los cables ópticos con jacket PVC se degradan en algunos líquidos. Se exige LSZH (Low Smoke Zero Halogen) o jacket PTFE. Recargo de coste sobre cableado 1,5–2× frente al estándar.
4. **CAPEX:** 25–40 k EUR / rack (tank + líquido + CDU loop secundario). Para clúster de 8 racks la diferencia es 200–320 k EUR frente a DTC.
Cuándo gana single-phase immersion
- **Densidad extrema.** GB200 NVL72 en greenfield — 132 kW en un único rack NVL, DTC requeriría sizing custom de CDU, immersion lo absorbe nativamente.
- **Despliegue edge con restricción de espacio.** 200 kW IT load en contenedor de 20 ft — el air cooling no cabe, DTC cabe pero con footprint apretado, immersion es lo más compacto.
- **Greenfield con horizonte de 5+ años.** El delta CAPEX se amortiza vía OPEX (PUE 1,05 frente a 1,08).
Para retrofit brownfield de DC con infraestructura air, single-phase immersion es **casi siempre mala opción** — cambio de formfactor + interrupción de servicio + rebuild de cableado + retraining de mantenimiento.
Two-phase immersion — por qué murió
Two-phase = el líquido al contactar con el chip caliente **pasa a gas**, condensa en un serpentín de refrigeración sobre el tank, las gotas caen de vuelta. El principio físico más eficaz de transferencia de calor — pasivo, sin movimiento mecánico en el loop primario.
En 2020–2023 two-phase se consideraba SOTA: PUE 1,02, capacidad 200–300 kW por tank, sin movimiento mecánico en el loop primario. **3M Novec 7100, 7500, 649** eran los líquidos flagship — perfluorados, buenas propiedades térmicas, ambientalmente «seguros».
Realidad 2024–2026: - **Diciembre 2022:** 3M anunció el fin de fabricación de todos los PFAS (per- and polyfluoroalkyl substances) para finales de 2025. - **2023:** propuesta UE REACH para restricción PFAS (más de 10 000 sustancias, incluyendo Novec). La restricción final entraría en vigor 2026–2028. - **2024:** el precio de Novec 7100 subió de 65 EUR/kg a 180–220 EUR/kg, disponibilidad limitada a clientes existentes. - **2025–2026:** ningún vendor grande (Submer, Asperitas, GRC) vende sistema two-phase nuevo. Las instalaciones existentes se mantienen, pero las roadmaps son mayoritariamente single-phase.
Los líquidos sustitutos (LiquidCool LCS-CF series, Engineered Fluids ElectroCool) están en fase piloto. Para un greenfield productivo en 2026 **two-phase no es una elección realista** — vendor support, riesgo regulatorio, disponibilidad a largo plazo del líquido.
CDU sizing — regla que todos ajustan
El CDU (Coolant Distribution Unit) es el corazón del despliegue DTC. Intercambiador de calor entre el loop primario (servidor) y el secundario (facility water). Las bombas están en el loop primario.
Regla de oro
- **CDU per-rack:** 1× CDU por rack con racks de 50–100 kW. Single point of failure por rack, pero arquitectura simple. Asetek RackCDU D2C 50.
- **CDU per-row:** 1× CDU sirve a 4–6 racks, 200–500 kW totales. Mejor scaling económico, pero el fallo impacta toda la row. Asetek CoolIT CHx650.
- **CDU central:** 1× CDU para todo el DC (1+ MW). El mejor scaling económico, pero requiere plumbing sofisticado con miles de quick disconnects.
Redundancia N+1
Para un clúster de AI training que corre 24/7 y donde perder un checkpoint cuesta 8–24 horas de training, la redundancia CDU es **obligatoria**. N+1 significa: con load de 100 kW tiene 2× 100 kW CDU en active-passive, o 3× 50 kW CDU en active-active load sharing.
Delta de precio: +35–60 % de CAPEX en infraestructura de refrigeración. Retorno: el primer fallo de bomba CDU (cycle típico ~5–7 años con mantenimiento básico).
Leak risk y seguros
La preocupación más frecuente del cliente: «¿y si el líquido se derrama sobre los servidores?».
Realidad tras 5 años de despliegues DTC (datos de dos aseguradoras que compartieron claims data agregada para EU AI infrastructure): - **Leak frequency:** 0,3–0,8 incidentes por 1 000 rack-años - **Damage per incident:** típicamente < 5 % del equipo (el quick disconnect previene catastrophic spill) - **Mean repair time:** 2–6 horas (drain, replace coupling, refill, test)
Comparativa: el DC air-cooled tiene sus propios failure modes (CRAC failure, condensate leak de evaporator coils, parada de ventilación). El downtime agregado a 5 años es comparable o inferior con DTC bien diseñado.
**Seguro:** Allianz, Munich Re, AXA tienen policies DTC-specific desde 2023. Delta de prima vs air-cooled ~3–8 % en la UE en 2026 — bajó claramente desde el original 15–20 % de 2020. Exigido: leak detection sensors (Aquasense, EcoFlux), automatic shut-off valves por rack, drip trays bajo el CDU, plan de respuesta de emergencia documentado.
Marco de decisión en 15 minutos
1. **¿Qué GPU y qué densidad?** - H100 SXM5 single rack (8 GPU, ~85 kW) → DTC obligatorio - B200 8-GPU baseboard (~120 kW por rack) → DTC o immersion - GB200 NVL36/NVL72 (132–192 kW por rack) → DTC con CDU de alta capacidad o single-phase immersion 2. **¿Retrofit brownfield o greenfield?** - Brownfield → DTC (los servidores existentes se pueden retrofit o reemplazar por variantes DTC), sin tank rebuild - Greenfield con horizonte de 5+ años → valorar immersion si densidad > 100 kW/rack 3. **¿Qué mantenimiento aguanta el equipo?** El mantenimiento DTC es similar al air-cooled (hot swap se mantiene). Immersion exige 6–12 meses de upskilling técnico. 4. **¿Qué entrada de facility water tiene?** Si tiene fuente < 35 °C (dry cooler en clima UE, o pequeño chiller) → DTC ideal. Si no la tiene → debe contar con CAPEX de chiller plant. 5. **¿Qué PUE target?** 1,08–1,12 → DTC. 1,03–1,06 → single-phase immersion (con mayor recargo CAPEX). 6. **¿Two-phase immersion?** Descartar. Vuelva dentro de 2 años si las alternativas non-PFAS alcanzan madurez productiva.
Consejo práctico en el proceso de licitación
Pida en la oferta para refrigeración de clúster AI:
- **Thermal envelope por nodo:** budget de GPU junction temp, budget de CPU junction temp, residual air cooling para NIC/DPU
- **Sizing CDU con reserva del 30 %** para future GPU upgrade (B300, R100)
- **Especificación del facility water:** input/output temperature, flow rate, water chemistry (pH, conductivity, biofouling protection)
- **Runbook de servicio:** quick disconnect procedure, leak response, CDU pump failover test
- **Insurance + garantía:** cuántos leak incidents cubre la garantía del vendor, qué prima de seguro recomienda
En la auditoría de un despliegue DGX H100 en 2025 encontramos a un proveedor de cliente que ofreció CDU de 80 kW para racks de 85 kW. Con full load (training de fine-tune Llama 3.3 405B) la CDU corría al 106 % de capacidad, la salida de agua iba de 50 °C a 62 °C, la GPU junction temperature subía a 84 °C — 3 °C por debajo del thermal throttle. Marginal. En el pico estival con facility water cálido (39 °C de entrada) habría throttle. **La reserva del 30 % en el sizing del CDU es innegociable.**
---
*Hacemos diseño de clúster AI + arquitectura de refrigeración para despliegues de 8 nodos y más, desde H100 a B200 hasta GB200. Si planifica un clúster por encima de 500 kW IT load, el primer design workshop (4 horas) recorre la decisión DTC vs immersion para su build-out concreto con comparación numérica de PUE y CAPEX.*