Liquid cooling dla klastra H100/B200 — direct-to-chip vs immersion

NVIDIA H100 SXM5 pobiera 700 W przy full FP16/BF16 training. B200 SXM idzie 1 000 W. GB200 w pełnym NVL36 racku 132 kW. Te liczby są poza granicą tego, co air cooling fizycznie poradzi — nie ekonomicznie, nie efektywnie, ale fizycznie. Niniejszy artykuł jest o tym, jak wygląda decydowanie, gdy stoją Państwo przed 8-węzłowym klastrem H100 lub planują pierwsze wdrożenie B200, i dlaczego two-phase immersion w ostatnich 18 miesiącach umarło.

Dlaczego air cooling stopuje powyżej 30 kW/rack

Air cooling działa na zasadzie: chłodnica odda ciepło heatpipe'em miedzianym → heatsink fins → wentylator pcha powietrze → CRAC unit chłodzi powietrze → powtórz. Dla fizycznego równania przenosu ciepła:

Q = ṁ × cp × ΔT

Gdzie Q to ciepło odebrane (W), ṁ to przepływ powietrza (kg/s), cp to ciepło właściwe powietrza (1 005 J/kg·K), a ΔT to różnica między wyjściem a wejściem powietrza.

Dla racku 30 kW przy ΔT = 15 K potrzebują Państwo: ṁ = 30 000 / (1 005 × 15) = 1,99 kg/s = ~1 650 m³/h powietrza

To znaczy wentylatory w racku + CRAC, które razem zużyją 3,5–4,5 kW tylko na wentylację. Przy racku 60 kW potrzebowaliby Państwo dwukrotności powietrza — 3 300 m³/h, co już oznacza hałas 90+ dB i fizyczne ograniczenie chassis (nie ma gdzie więcej fanów dać). A sama wentylacja zużyłaby 8–11 kW. PUE dla czystego air przy racku 60 kW realnie spada do 1,8–2,2 — nieekonomiczne.

Boundary layer przez chip → heatsink junction to kolejna limitacja: przy H100 chip junction temperature musi pozostać poniżej 87 °C, ambient air do CRAC max 27 °C, więc ΔT przez całą drogę to 60 °C. Dla 700 W chipu przez 7 cm² die area thermal flux to 100 W/cm². Powietrze tego przy rozsądnej prędkości (3–6 m/s) nie potrafi przenosić efektywnie — od 50 W/cm² zaczyna być chłodzenie cieczowe konieczne.

Praktyczny próg: powyżej 30 kW/rack air cooling traci sens ekonomiczny, powyżej 50 kW/rack traci sens fizyczny.

Direct-to-Chip (DTC) — jak to naprawdę działa

DTC = chłodząca płytka bezpośrednio na CPU i GPU, ciecz (typowo glikol propylenowy-woda 25:75 lub PG 30:70) przepływa przez microchannels w cold plate. Ciecz zabiera ciepło, idzie do CDU (Coolant Distribution Unit), która oddaje je sekundarnemu loopowi — typowo facility water, który idzie do chillera lub dry coolera.

Topologia w realnym klastrze 8-node H100

8× DGX H100 lub 8× HPE Cray EX H100 — każdy węzeł pobiera 10,2 kW (8× H100 SXM5 + 2× Sapphire Rapids CPU + DPU + NIC + PSU losses)
Rack TDP: ~85 kW (8 węzłów + 2× InfiniBand switch + storage chassis)
DTC coverage: GPU SXM5 + CPU. NIC + DPU pozostają air-cooled (12–15 % rezydualnego ciepła)
CDU per rack: Asetek RackCDU D2C lub CoolIT CHx650, kapacita 100–150 kW na jednostkę CDU
Sekundarny loop: facility water 32–40 °C input → 45–55 °C output (W4 ASHRAE liquid cooling envelope)
Tepelný rejection: dry cooler w klimacie UE (żaden chiller nie potrzebny przy 32 °C+ wodzie) — free cooling cały rok przy prawidłowym designie

Top dostawcy DTC w 2026

Asetek - RackCDU D2C generation 4 — najszerszy ekosystem DTC - Cold plates dla H100, B200, GB200, Intel Xeon, AMD EPYC - Kapacita CDU 80/120/200 kW - Cena retrofit: 5 800–7 200 EUR / rack za coldplates + manifold + quick disconnect - Cena CDU: 18–28 k EUR per 120 kW unit

CoolIT Systems - AHx series (Asetek-style) + CHx series (server-level integrated) - Dla OEM (HPE Cray, Lenovo Neptune, Dell PowerEdge XE9680L) - Wyższa integracja OEM, mniej retrofit kits - Cena: typowo część OEM server quotation, +3–4 k EUR / serwer vs air variant

Submer DTC (wcześniej CoolIT Direct-to-Chip) - Pierwotnie immersion vendor, teraz również produkty DTC - Outdoor CDU warianty z air-cooled rejection (żaden facility water potrzebny) - Cena: 6 500–8 000 EUR / rack

Motivair - Specjalizacja w high-density HPC retrofits - ColdPort technology (dla HPE Cray EX) - Cena: przeważnie project-based, 30–80 k EUR per cluster

Realny benchmark — 8-node DGX H100 cluster

W projekcie, który audytowaliśmy (greenfield AI lab koło Monachium, w pełni wdrożony w Q4 2025):

Parametr	Air-cooled DGX H100	DTC Asetek retrofit
Server TDP per węzeł	10,2 kW	10,2 kW
Cooling power per węzeł	1,4 kW (fans + CRAC share)	0,28 kW (residual fans + CDU pump share)
PUE całego klastra	1,45	1,08
Roczne zużycie (8 węzłów)	715 MWh	535 MWh
Przy 0,18 EUR/kWh	128 700 EUR / rok	96 300 EUR / rok
CAPEX delta	baseline	+52 000 EUR (8 racks DTC + CDU)
Payback	—	~19 miesięcy

Przy B200 i B300 ta korzyść jeszcze rośnie (wyższy TDP → wyższy stosunek ciepła odprowadzanego liquid vs. air).

Immersion — rzeczywistość single-phase

Single-phase immersion = cały serwer (bez fanów) zanurzony w cieczy dielektrycznej (Submer SmartCoolant, ShellLubri DCT 16, Castrol DC iX). Ciecz przepływa przez tank, wchodzi przy 35–45 °C, wychodzi przy 45–55 °C.

Pojemność i PUE

Submer SmartPodX: 100 kW per tank, footprint ~2 m²
Asperitas AIC24: 50 kW per tank
GRC ICEraQ Quad: 168 kW per quad-tank
PUE: 1,03–1,06 (najlepsze w branży)

Realne limitacje

1.Server formfactor. Nie każdy serwer można dać do immersion. NVIDIA HGX H100 8-GPU baseboard działa, ale fans trzeba usunąć i thermal interface ponownie aplikować z immersion-specific gap pad (ShellLubri SC2). Niektórzy OEM (Supermicro, Inspur) oferują immersion-ready warianty; HPE Cray EX nie.

1.Konserwacja. Wyjąć serwer z tanku oznacza: wyłączyć go, czekać 10–15 minut na drip-off cieczy, podnieść serwer żurawiem (typowo 30–50 kg + 8–12 kg cieczy wewnątrz), przenieść na stół serwisowy. Operacja trwa 45–90 minut zamiast 5 minut przy air-cooled hot swap.

1.Cabling. Kable optyczne z PVC jacketem w niektórych cieczach degradują. Wymaga się LSZH (Low Smoke Zero Halogen) lub PTFE jacket. Dopłata kosztowa na cabling 1,5–2× w porównaniu ze standardem.

1.CAPEX: 25–40 k EUR / rack (tank + ciecz + CDU sekundarny loop). Dla 8-rack klastra różnica to 200–320 k EUR vs DTC.

Kiedy single-phase immersion wygrywa

Ekstremalne zagęszczenie. GB200 NVL72 w greenfield — 132 kW w jednym NVL racku, DTC wymagałby custom CDU sizingu, immersion absorbuje to natywnie.
Edge wdrożenie z ograniczeniem przestrzennym. 200 kW IT load w 20 ft kontenerze — air cooling nie zmieści, DTC zmieści, ale z tightly packed footprintem, immersion jest najkompaktniejsze.
Greenfield z horyzontem 5+ lat. Delta CAPEX amortyzuje się przez OPEX (PUE 1,05 vs 1,08).

Dla brownfield retrofit istniejącego DC z infrastrukturą air single-phase immersion to prawie zawsze zły wybór — zmiana formfaktora + przerwa serwisowa + cabling rebuild + retraining konserwacji.

Two-phase immersion — dlaczego umarło

Two-phase = ciecz przy kontakcie z gorącym chipem przechodzi w gaz, kondensuje na wężownicy chłodzącej nad tankiem, krople spadają z powrotem. Najefektywniejsza fizyczna zasada przenosu ciepła — pasywna, bez pomp.

W 2020–2023 two-phase considered SOTA: PUE 1,02, kapacita 200–300 kW per tank, żaden ruch mechaniczny w primary loopie. 3M Novec 7100, 7500, 649 były flagship cieczami — perfluorinated, dobre thermal properties, środowiskowo „bezpieczne".

Rzeczywistość 2024–2026: - Grudzień 2022: 3M ogłosił zakończenie produkcji wszystkich PFAS (per- and polyfluoroalkyl substances) do końca 2025. - 2023: EU REACH proposal dla PFAS restriction (ponad 10 000 chemikaliów, łącznie z Novec). Final restriction powinien być skuteczny 2026–2028. - 2024: Cena Novec 7100 wzrosła z 65 EUR/kg na 180–220 EUR/kg, dostępność ograniczona do istniejących klientów. - 2025–2026: Żaden duży vendor (Submer, Asperitas, GRC) nie sprzedaje nowego systemu two-phase. Istniejące instalacje utrzymują się, ale roadmapy są przeważnie single-phase.

Zastępujące ciecze (LiquidCool LCS-CF series, Engineered Fluids ElectroCool) są w fazach pilotażowych. Dla produkcyjnego greenfield klastra w 2026 two-phase nie jest realistycznym wyborem — vendor support, regulacyjne ryzyko, długoterminowa dostępność cieczy.

CDU sizing — zasada, którą stroją wszyscy

CDU (Coolant Distribution Unit) to serce wdrożenia DTC. Heat exchanger między primary (server) loopem a secondary (facility water) loopem. Pumpy w primary loopie.

Reguła kciuka

Per-rack CDU: 1× CDU per rack przy 50–100 kW racku. Single point of failure per rack, ale prosta architektura. Asetek RackCDU D2C 50.
Per-row CDU: 1× CDU obsługuje 4–6 racków, 200–500 kW razem. Lepsze skalowanie ekonomiczne, ale failure uderzy w cały row. Asetek CoolIT CHx650.
Central CDU: 1× CDU dla całego DC (1+ MW). Najlepsze skalowanie ekonomiczne, ale wymaga sophisticated plumbingu z tysiącami quick disconnect.

N+1 redundancja

Dla AI training klastra, który chodzi 24/7 i utracony checkpoint kosztuje 8–24 godzin training time, redundancja CDU jest obowiązkowa. N+1 oznacza: przy 100 kW loadzie mają Państwo 2× 100 kW CDU z active-passive konfiguracją lub 3× 50 kW CDU z active-active load sharing.

Cena delta: +35–60 % CAPEX na cooling infrastrukturę. Zwrot: pierwsza awaria pompy CDU (typowo cykl ~5–7 lat przy podstawowej konserwacji).

Leak risk a insurance

Najczęstsza obawa klientów: „co jeśli wycieknie ciecz na serwery?"

Rzeczywistość po 5 latach wdrożeń DTC (dane od dwóch ubezpieczycieli, którzy udostępnili aggregated claims data dla EU AI infrastructure): - Leak frequency: 0,3–0,8 incydentów per 1 000 rack-lat - Damage per incident: typowo < 5 % urządzenia (quick disconnect prevents catastrophic spill) - Mean repair time: 2–6 godzin (drain, replace coupling, refill, test)

Dla porównania: air-cooled DC ma własne failure modes (awaria CRAC, condensate leak z evaporator coils, stop wentylacji). Aggregated downtime przez 5 lat jest porównywalny lub niższy przy prawidłowo zaprojektowanym DTC.

Insurance: Allianz, Munich Re, AXA mają DTC-specific policies od 2023. Premium delta vs air-cooled ~3–8 % w UE w 2026 — wyraźnie spadł z pierwotnych 15–20 % w 2020. Wymagane: leak detection sensors (Aquasense, EcoFlux), automatic shut-off valves per rack, drip trays pod CDU, dokumentowany emergency response plan.

Ramy decyzyjne na 15 minut

1.
Jakie GPU i jakie zagęszczenie?
- H100 SXM5 single rack (8 GPU, ~85 kW) → DTC obowiązkowo
- B200 8-GPU baseboard (~120 kW per rack) → DTC lub immersion
- GB200 NVL36/NVL72 (132–192 kW per rack) → DTC z high-capacity CDU lub single-phase immersion
2.
Brownfield retrofit czy greenfield?
- Brownfield → DTC (istniejące serwery można retrofitować lub zastąpić DTC-variantem), żaden tank rebuild
- Greenfield z horyzontem 5+ lat → ocenić immersion, jeśli zagęszczenie > 100 kW/rack
3.Jaką konserwację poradzi zespół? Konserwacja DTC jest podobna do air-cooled (hot swap pozostaje). Immersion wymaga 6–12 miesięcy technicznego upskillingu.
4.Jaki jest facility water input? Jeśli mają Państwo źródło < 35 °C (dry cooler w klimacie UE lub mały chiller) → DTC idealny. Jeśli nie → muszą Państwo liczyć z chiller plant CAPEX.
5.Jakie PUE target? 1,08–1,12 → DTC. 1,03–1,06 → single-phase immersion (z wyższą CAPEX dopłatą).
6.Two-phase immersion? Wykluczyć. Wrócić za 2 lata, jeśli non-PFAS alternatywy dostaną się do produkcyjnej dojrzałości.

Praktyczna rada w procesie tenderowym

Żądajcie w ofercie dla AI cluster cooling:

Per-węzeł thermal envelope: GPU junction temp budget, CPU junction temp budget, rezydualne air cooling dla NIC/DPU
CDU sizing z 30 % rezerwą dla future GPU upgrade (B300, R100)
Specyfikacja facility water: input/output temperature, flow rate, water chemistry (pH, conductivity, biofouling protection)
Servisný runbook: quick disconnect procedure, leak response, CDU pump failover test
Insurance + warranty: ile leak incydentów pokrywa vendor warranty, jakie insurance premium dostawca rekomenduje

W audycie wdrożenia DGX H100 w 2025 znaleźliśmy dostawcę klienckiego, który zaoferował 80 kW CDU dla racków 85 kW. Przy full load (training Llama 3.3 405B fine-tune) CDU chodziła na 106 % kapacity, water output szedł z 50 °C na 62 °C, GPU junction temperature wzrosła do 84 °C — 3 °C poniżej thermal throttle. Marginalnie. Przy szczycie letnim z ciepłym facility water (39 °C input) by się to throttlowało. 30 % rezerwa w CDU sizingu jest non-negotiable.

---

*Wykonujemy AI cluster design + cooling architekturę dla 8-węzłowych i większych wdrożeń, od H100 przez B200 do GB200. Jeśli planują Państwo klaster powyżej 500 kW IT load, pierwszy design warsztat (4 godziny) przejdzie DTC vs immersion decyzję dla Państwa konkretnego build-outu z numerycznym PUE i CAPEX porównaniem.*