Refrigeración líquida para clúster H100/B200 — direct-to-chip vs immersion

NVIDIA H100 SXM5 disipa 700 W en pleno training FP16/BF16. El B200 SXM va con 1 000 W. El GB200 en rack NVL36 completo, 132 kW. Estas cifras están más allá de lo que el air cooling físicamente soporta — no económicamente, no eficientemente, sino físicamente. Este artículo trata de cómo se decide cuando tiene delante un clúster H100 de 8 nodos o planifica el primer despliegue B200, y por qué la two-phase immersion ha muerto en los últimos 18 meses.

Por qué el air cooling se para sobre 30 kW/rack

El air cooling funciona así: el disipador entrega calor a través de heatpipes de cobre → aletas del heatsink → aire impulsado por ventilador → la unidad CRAC enfría el aire → repita. Para la ecuación física de transferencia de calor:

Q = ṁ × cp × ΔT

Donde Q es el calor a extraer (W), ṁ es el caudal de aire (kg/s), cp es la capacidad térmica específica del aire (1 005 J/kg·K) y ΔT es la diferencia entre la temperatura de salida y entrada del aire.

Para un rack de 30 kW con ΔT = 15 K necesita: ṁ = 30 000 / (1 005 × 15) = 1,99 kg/s = ~1 650 m³/h de aire

Eso significa ventiladores en el rack + CRAC que consumen juntos 3,5–4,5 kW solo en ventilación. En un rack de 60 kW necesitaría el doble de aire — 3 300 m³/h, lo que ya implica ruido 90+ dB y limitación física del chasis (no caben más fans). Y la propia ventilación consumiría 8–11 kW. El PUE de aire puro con rack de 60 kW realmente cae a 1,8–2,2 — inasumible económicamente.

El boundary layer entre chip → heatsink junction es otra limitación: en el H100 la junction temperature debe permanecer bajo 87 °C, el aire ambiente al CRAC máx. 27 °C, por lo que ΔT sobre todo el recorrido es 60 °C. Para un chip de 700 W sobre 7 cm² de die area el flujo térmico es 100 W/cm². El aire a velocidad razonable (3–6 m/s) no transmite esto eficazmente — a partir de 50 W/cm² el refrigeración líquida empieza a ser necesaria.

Umbral práctico: por encima de 30 kW/rack el air cooling pierde sentido económico, por encima de 50 kW/rack pierde sentido físico.

Direct-to-Chip (DTC) — cómo funciona realmente

DTC = placa fría directamente sobre CPU y GPU, líquido (típicamente propylenglicol-agua 25:75 o PG 30:70) circula por microchannels de la cold plate. El líquido recoge el calor, va al CDU (Coolant Distribution Unit), que lo entrega al loop secundario — típicamente facility water, que va a chiller o dry cooler.

Topología en un clúster real H100 de 8 nodos

8× DGX H100 o 8× HPE Cray EX H100 — cada nodo disipa 10,2 kW (8× H100 SXM5 + 2× Sapphire Rapids CPU + DPU + NIC + PSU losses)
TDP del rack: ~85 kW (8 nodos + 2 switches InfiniBand + storage chassis)
Cobertura DTC: GPU SXM5 + CPU. NIC + DPU permanecen air-cooled (12–15 % de calor residual)
CDU por rack: Asetek RackCDU D2C o CoolIT CHx650, capacidad 100–150 kW por unidad CDU
Loop secundario: facility water 32–40 °C input → 45–55 °C output (W4 ASHRAE liquid cooling envelope)
Rejection térmica: dry cooler en clima UE (ningún chiller necesario con agua a 32 °C+) — free cooling todo el año con diseño correcto

Top vendors DTC en 2026

Asetek - RackCDU D2C generation 4 — el ecosistema DTC más extendido - Cold plates para H100, B200, GB200, Intel Xeon, AMD EPYC - Capacidad de CDU 80/120/200 kW - Precio retrofit: 5 800–7 200 EUR / rack para coldplates + manifold + quick disconnect - Precio CDU: 18–28 k EUR por unit de 120 kW

CoolIT Systems - AHx series (estilo Asetek) + CHx series (server-level integrado) - Para OEM (HPE Cray, Lenovo Neptune, Dell PowerEdge XE9680L) - Mayor integración OEM, menos kits retrofit - Precio: típicamente parte de la cotización OEM del servidor, +3–4 k EUR / servidor frente a variante air

Submer DTC (antes CoolIT Direct-to-Chip) - Originalmente immersion vendor, ahora también productos DTC - Variantes outdoor de CDU con rejection air-cooled (sin facility water necesario) - Precio: 6 500–8 000 EUR / rack

Motivair - Especialización en retrofits HPC de alta densidad - ColdPort technology (para HPE Cray EX) - Precio: mayoritariamente project-based, 30–80 k EUR per clúster

Benchmark real — clúster DGX H100 de 8 nodos

En un proyecto que auditamos (greenfield AI lab cerca de Múnich, plenamente desplegado en Q4 2025):

Parámetro	DGX H100 air-cooled	DTC Asetek retrofit
TDP por nodo	10,2 kW	10,2 kW
Cooling power por nodo	1,4 kW (fans + CRAC share)	0,28 kW (residual fans + CDU pump share)
PUE de todo el clúster	1,45	1,08
Consumo anual (8 nodos)	715 MWh	535 MWh
A 0,18 EUR/kWh	128 700 EUR / año	96 300 EUR / año
Delta CAPEX	baseline	+52 000 EUR (8 racks DTC + CDU)
Payback	—	~19 meses

Con B200 y B300 este beneficio aumenta más (TDP mayor → mayor porción de calor extraída por líquido vs. aire).

Immersion — realidad single-phase

Single-phase immersion = el servidor entero (sin fans) sumergido en líquido dieléctrico (Submer SmartCoolant, ShellLubri DCT 16, Castrol DC iX). El líquido circula por el tank, entra a 35–45 °C, sale a 45–55 °C.

Capacidad y PUE

Submer SmartPodX: 100 kW por tank, footprint ~2 m²
Asperitas AIC24: 50 kW por tank
GRC ICEraQ Quad: 168 kW por quad-tank
PUE: 1,03–1,06 (lo mejor de la industria)

Limitaciones reales

1.Server formfactor. No todo servidor entra en immersion. El baseboard NVIDIA HGX H100 8-GPU funciona, pero hay que retirar fans y reaplicar el thermal interface con un gap pad immersion-specific (ShellLubri SC2). Algunos OEM (Supermicro, Inspur) ofrecen variantes immersion-ready; HPE Cray EX no.

1.Mantenimiento. Sacar un servidor del tank implica: apagarlo, esperar 10–15 minutos de drip-off del líquido, alzarlo con polipasto (típicamente 30–50 kg + 8–12 kg de líquido dentro), trasladarlo a banco de servicio. La operación dura 45–90 minutos en lugar de 5 minutos del hot swap air-cooled.

1.Cabling. Los cables ópticos con jacket PVC se degradan en algunos líquidos. Se exige LSZH (Low Smoke Zero Halogen) o jacket PTFE. Recargo de coste sobre cableado 1,5–2× frente al estándar.

1.CAPEX: 25–40 k EUR / rack (tank + líquido + CDU loop secundario). Para clúster de 8 racks la diferencia es 200–320 k EUR frente a DTC.

Cuándo gana single-phase immersion

Densidad extrema. GB200 NVL72 en greenfield — 132 kW en un único rack NVL, DTC requeriría sizing custom de CDU, immersion lo absorbe nativamente.
Despliegue edge con restricción de espacio. 200 kW IT load en contenedor de 20 ft — el air cooling no cabe, DTC cabe pero con footprint apretado, immersion es lo más compacto.
Greenfield con horizonte de 5+ años. El delta CAPEX se amortiza vía OPEX (PUE 1,05 frente a 1,08).

Para retrofit brownfield de DC con infraestructura air, single-phase immersion es casi siempre mala opción — cambio de formfactor + interrupción de servicio + rebuild de cableado + retraining de mantenimiento.

Two-phase immersion — por qué murió

Two-phase = el líquido al contactar con el chip caliente pasa a gas, condensa en un serpentín de refrigeración sobre el tank, las gotas caen de vuelta. El principio físico más eficaz de transferencia de calor — pasivo, sin movimiento mecánico en el loop primario.

En 2020–2023 two-phase se consideraba SOTA: PUE 1,02, capacidad 200–300 kW por tank, sin movimiento mecánico en el loop primario. 3M Novec 7100, 7500, 649 eran los líquidos flagship — perfluorados, buenas propiedades térmicas, ambientalmente «seguros».

Realidad 2024–2026: - Diciembre 2022: 3M anunció el fin de fabricación de todos los PFAS (per- and polyfluoroalkyl substances) para finales de 2025. - 2023: propuesta UE REACH para restricción PFAS (más de 10 000 sustancias, incluyendo Novec). La restricción final entraría en vigor 2026–2028. - 2024: el precio de Novec 7100 subió de 65 EUR/kg a 180–220 EUR/kg, disponibilidad limitada a clientes existentes. - 2025–2026: ningún vendor grande (Submer, Asperitas, GRC) vende sistema two-phase nuevo. Las instalaciones existentes se mantienen, pero las roadmaps son mayoritariamente single-phase.

Los líquidos sustitutos (LiquidCool LCS-CF series, Engineered Fluids ElectroCool) están en fase piloto. Para un greenfield productivo en 2026 two-phase no es una elección realista — vendor support, riesgo regulatorio, disponibilidad a largo plazo del líquido.

CDU sizing — regla que todos ajustan

El CDU (Coolant Distribution Unit) es el corazón del despliegue DTC. Intercambiador de calor entre el loop primario (servidor) y el secundario (facility water). Las bombas están en el loop primario.

Regla de oro

CDU per-rack: 1× CDU por rack con racks de 50–100 kW. Single point of failure por rack, pero arquitectura simple. Asetek RackCDU D2C 50.
CDU per-row: 1× CDU sirve a 4–6 racks, 200–500 kW totales. Mejor scaling económico, pero el fallo impacta toda la row. Asetek CoolIT CHx650.
CDU central: 1× CDU para todo el DC (1+ MW). El mejor scaling económico, pero requiere plumbing sofisticado con miles de quick disconnects.

Redundancia N+1

Para un clúster de AI training que corre 24/7 y donde perder un checkpoint cuesta 8–24 horas de training, la redundancia CDU es obligatoria. N+1 significa: con load de 100 kW tiene 2× 100 kW CDU en active-passive, o 3× 50 kW CDU en active-active load sharing.

Delta de precio: +35–60 % de CAPEX en infraestructura de refrigeración. Retorno: el primer fallo de bomba CDU (cycle típico ~5–7 años con mantenimiento básico).

Leak risk y seguros

La preocupación más frecuente del cliente: «¿y si el líquido se derrama sobre los servidores?».

Realidad tras 5 años de despliegues DTC (datos de dos aseguradoras que compartieron claims data agregada para EU AI infrastructure): - Leak frequency: 0,3–0,8 incidentes por 1 000 rack-años - Damage per incident: típicamente < 5 % del equipo (el quick disconnect previene catastrophic spill) - Mean repair time: 2–6 horas (drain, replace coupling, refill, test)

Comparativa: el DC air-cooled tiene sus propios failure modes (CRAC failure, condensate leak de evaporator coils, parada de ventilación). El downtime agregado a 5 años es comparable o inferior con DTC bien diseñado.

Seguro: Allianz, Munich Re, AXA tienen policies DTC-specific desde 2023. Delta de prima vs air-cooled ~3–8 % en la UE en 2026 — bajó claramente desde el original 15–20 % de 2020. Exigido: leak detection sensors (Aquasense, EcoFlux), automatic shut-off valves por rack, drip trays bajo el CDU, plan de respuesta de emergencia documentado.

Marco de decisión en 15 minutos

1.
¿Qué GPU y qué densidad?
- H100 SXM5 single rack (8 GPU, ~85 kW) → DTC obligatorio
- B200 8-GPU baseboard (~120 kW por rack) → DTC o immersion
- GB200 NVL36/NVL72 (132–192 kW por rack) → DTC con CDU de alta capacidad o single-phase immersion
2.
¿Retrofit brownfield o greenfield?
- Brownfield → DTC (los servidores existentes se pueden retrofit o reemplazar por variantes DTC), sin tank rebuild
- Greenfield con horizonte de 5+ años → valorar immersion si densidad > 100 kW/rack
3.¿Qué mantenimiento aguanta el equipo? El mantenimiento DTC es similar al air-cooled (hot swap se mantiene). Immersion exige 6–12 meses de upskilling técnico.
4.¿Qué entrada de facility water tiene? Si tiene fuente < 35 °C (dry cooler en clima UE, o pequeño chiller) → DTC ideal. Si no la tiene → debe contar con CAPEX de chiller plant.
5.¿Qué PUE target? 1,08–1,12 → DTC. 1,03–1,06 → single-phase immersion (con mayor recargo CAPEX).
6.¿Two-phase immersion? Descartar. Vuelva dentro de 2 años si las alternativas non-PFAS alcanzan madurez productiva.

Consejo práctico en el proceso de licitación

Pida en la oferta para refrigeración de clúster AI:

Thermal envelope por nodo: budget de GPU junction temp, budget de CPU junction temp, residual air cooling para NIC/DPU
Sizing CDU con reserva del 30 % para future GPU upgrade (B300, R100)
Especificación del facility water: input/output temperature, flow rate, water chemistry (pH, conductivity, biofouling protection)
Runbook de servicio: quick disconnect procedure, leak response, CDU pump failover test
Insurance + garantía: cuántos leak incidents cubre la garantía del vendor, qué prima de seguro recomienda

En la auditoría de un despliegue DGX H100 en 2025 encontramos a un proveedor de cliente que ofreció CDU de 80 kW para racks de 85 kW. Con full load (training de fine-tune Llama 3.3 405B) la CDU corría al 106 % de capacidad, la salida de agua iba de 50 °C a 62 °C, la GPU junction temperature subía a 84 °C — 3 °C por debajo del thermal throttle. Marginal. En el pico estival con facility water cálido (39 °C de entrada) habría throttle. La reserva del 30 % en el sizing del CDU es innegociable.

---

*Hacemos diseño de clúster AI + arquitectura de refrigeración para despliegues de 8 nodos y más, desde H100 a B200 hasta GB200. Si planifica un clúster por encima de 500 kW IT load, el primer design workshop (4 horas) recorre la decisión DTC vs immersion para su build-out concreto con comparación numérica de PUE y CAPEX.*