NVIDIA H100 SXM5 odoberá 700 W pri full FP16/BF16 training. B200 SXM nasleduje 1 000 W. GB200 v plnom NVL36 racku 132 kW. Tieto čísla sú za hranicou toho, čo air cooling fyzicky zvládne — nie ekonomicky, nie efektívne, ale **fyzicky**. Tento článok je o tom, ako vyzerá rozhodovanie keď stojíte pred 8-uzlovým H100 klastrom alebo plánujete prvý B200 nasadenie, a prečo two-phase immersion za posledných 18 mesiacov zomrelo.
Prečo air cooling stopuje nad 30 kW/rack
Air cooling pracuje na princípe: chladič odovzdá teplo medeným heatpipe-om → heatsink fins → ventilátorom hnaný vzduch → CRAC unit ochladí vzduch → zopakuj. Pre fyzikálnu rovnicu prenosu tepla:
`Q = ṁ × cp × ΔT`
Kde `Q` je odoberané teplo (W), `ṁ` je prietok vzduchu (kg/s), `cp` je špecifická tepelná kapacita vzduchu (1 005 J/kg·K) a `ΔT` je rozdiel medzi výstupom a vstupom vzduchu.
Pre 30 kW rack pri ΔT = 15 K potrebujete: `ṁ = 30 000 / (1 005 × 15) = 1,99 kg/s` = ~1 650 m³/h vzduchu
To znamená ventilátory v rack-e + CRAC, ktoré dohromady spotrebujú **3,5–4,5 kW iba na ventiláciu**. Pri 60 kW rack-e by ste potrebovali dvojnásobok vzduchu — 3 300 m³/h, čo už znamená hluk 90+ dB a fyzické obmedzenie chassis (nemáte kde viac fanov dať). A samotná ventilácia by spotrebovala 8–11 kW. **PUE pre čistý air pri 60 kW racku reálne klesá k 1,8–2,2** — nezvládnuteľné ekonomicky.
Boundary layer cez chip → heatsink junction je ďalšia limitácia: pri H100 chip junction temperature musí ostať pod 87 °C, ambient air do CRAC max 27 °C, takže ΔT cez celú cestu je 60 °C. Pre 700 W chip cez 7 cm² die area je tepelný flux 100 W/cm². Vzduch toto pri rozumnej rýchlosti (3–6 m/s) nevie prenášať efektívne — od 50 W/cm² začína byť kvapalné chladenie nutné.
**Praktický prah:** nad 30 kW/rack air cooling stratí ekonomický zmysel, nad 50 kW/rack stratí fyzický zmysel.
Direct-to-Chip (DTC) — ako to skutočne funguje
DTC = chladiča platnička priamo na CPU a GPU, kvapalina (typicky propylenglykol-voda 25:75 alebo PG 30:70) prúdi cez microchannels v cold plate. Kvapalina zoberie teplo, ide do **CDU** (Coolant Distribution Unit), ktorá ho odovzdá sekundárnemu loop-u — typicky facility water, ktorý ide do chilleru alebo dry cooler-a.
Topológia v reálnom 8-node H100 klastri
- **8× DGX H100** alebo **8× HPE Cray EX H100** — každý uzol odoberá 10,2 kW (8× H100 SXM5 + 2× Sapphire Rapids CPU + DPU + NIC + PSU losses)
- **Rack TDP:** ~85 kW (8 uzlov + 2× InfiniBand switch + storage chassis)
- **DTC coverage:** GPU SXM5 + CPU. NIC + DPU ostávajú air-cooled (12–15 % rezidualného tepla)
- **CDU per rack:** Asetek RackCDU D2C alebo CoolIT CHx650, kapacita 100–150 kW na CDU jednotku
- **Sekundárny loop:** facility water 32–40 °C input → 45–55 °C output (W4 ASHRAE liquid cooling envelope)
- **Tepelný rejection:** dry cooler v EÚ klíme (žiadny chiller potrebný pri 32 °C+ vode) — free cooling celý rok pri správnom designe
Top DTC vendori v 2026
**Asetek** - RackCDU D2C generation 4 — najrozšírenejší DTC ekosystém - Cold plates pre H100, B200, GB200, Intel Xeon, AMD EPYC - CDU kapacita 80/120/200 kW - **Cena retrofit:** 5 800–7 200 EUR / rack pre coldplates + manifold + quick disconnect - **Cena CDU:** 18–28 k EUR per 120 kW unit
**CoolIT Systems** - AHx series (Asetek-style) + CHx series (server-level integrated) - Pre OEM (HPE Cray, Lenovo Neptune, Dell PowerEdge XE9680L) - Vyššie OEM integrácia, menej retrofit kits - **Cena:** typicky súčasť OEM server kvótky, +3–4 k EUR / server vs air variant
**Submer DTC (predtým CoolIT Direct-to-Chip)** - Pôvodne immersion vendor, teraz aj DTC produkty - Outdoor CDU varianty s air-cooled rejection (žiadny facility water potrebný) - **Cena:** 6 500–8 000 EUR / rack
**Motivair** - Špecializácia na high-density HPC retrofits - ColdPort technology (pre HPE Cray EX) - **Cena:** prevažne project-based, 30–80 k EUR per cluster
Reálny benchmark — 8-node DGX H100 cluster
V projekte, ktorý sme audit-ovali (greenfield AI lab pri Mníchove, plne nasadený v Q4 2025):
| Parameter | Air-cooled DGX H100 | DTC Asetek retrofit | |-----------|---------------------|----------------------| | Server TDP per uzol | 10,2 kW | 10,2 kW | | Cooling power per uzol | 1,4 kW (fans + CRAC share) | 0,28 kW (residual fans + CDU pump share) | | **PUE celého clusterа** | **1,45** | **1,08** | | Ročná spotreba (8 uzlov) | 715 MWh | 535 MWh | | Pri 0,18 EUR/kWh | **128 700 EUR / rok** | **96 300 EUR / rok** | | CAPEX delta | baseline | +52 000 EUR (8 racks DTC + CDU) | | **Payback** | — | **~19 mesiacov** |
Pri B200 a B300 sa tento benefit ďalej zvyšuje (vyšší TDP → vyšší pomer tepla, ktorý sa rejektuje liquid-om vs. air).
Immersion — single-phase reality
Single-phase immersion = celý server (bez fanov) ponorený v dielektrickej kvapaline (Submer SmartCoolant, ShellLubri DCT 16, Castrol DC iX). Kvapalina prúdi cez tank, vstupuje pri 35–45 °C, vystupuje pri 45–55 °C.
Kapacita a PUE
- **Submer SmartPodX:** 100 kW per tank, footprint ~2 m²
- **Asperitas AIC24:** 50 kW per tank
- **GRC ICEraQ Quad:** 168 kW per quad-tank
- **PUE:** 1,03–1,06 (najlepšie v industry)
Reálne limitácie
1. **Server formfactor.** Nie každý server sa dá dať do immersion. NVIDIA HGX H100 8-GPU baseboard funguje, ale fans treba odstrániť a thermal interface znovu aplikovať s immersion-specific gap pad (ShellLubri SC2). Niektoré OEM (Supermicro, Inspur) ponúkajú immersion-ready varianty; HPE Cray EX nie.
2. **Údržba.** Vybrať server z tanku znamená: vypnúť ho, čakať 10–15 minút na drip-off kvapaliny, vyzdvihnúť server žeriavom (typicky 30–50 kg + 8–12 kg kvapaliny vnútri), preniesť na servisný stôl. Operácia trvá 45–90 minút namiesto 5 minút pri air-cooled hot swap-e.
3. **Cabling.** Optické káble s PVC jacket-om v niektorých kvapalinách degradujú. Vyžaduje sa LSZH (Low Smoke Zero Halogen) alebo PTFE jacket. Cost prirážka na cabling 1,5–2× oproti štandardu.
4. **CAPEX:** 25–40 k EUR / rack (tank + kvapalina + CDU sekundárny loop). Pre 8-rack cluster je rozdiel 200–320 k EUR vs DTC.
Kedy single-phase immersion vyhrá
- **Extrémna hustota.** GB200 NVL72 v greenfield-e — 132 kW v jednom NVL rack-u, DTC by potreboval custom CDU sizing, immersion to absorbuje natívne.
- **Edge nasadenie s priestorovým obmedzením.** 200 kW IT load v 20 ft kontajneri — air cooling nezmestí, DTC zmestí ale s tightly packed footprintom, immersion je najkompaktnejšie.
- **Greenfield s 5+ ročným horizontom.** CAPEX delta sa amortizuje cez OPEX (PUE 1,05 vs 1,08).
Pre brownfield retrofit existujúceho DC s air infraštruktúrou je single-phase immersion **takmer vždy zlá voľba** — formfactor change + servisné prerušenie + cabling rebuild + údržba retraining.
Two-phase immersion — prečo zomrelo
Two-phase = kvapalina pri kontakte s horúcim chipom **prejde do plynu**, kondenzuje na chladiacom hade nad tankom, kvapky padajú späť. Najefektívnejší fyzikálny princíp prenosu tepla — pasívny, žiadne pumpy.
V 2020–2023 bol two-phase considered SOTA: PUE 1,02, kapacita 200–300 kW per tank, žiadny mechanický pohyb v primárnom loop-e. **3M Novec 7100, 7500, 649** boli flagship kvapaliny — perfluorinated, dobré thermal properties, environmentálne „bezpečné".
Realita 2024–2026: - **December 2022:** 3M oznámil ukončenie výroby všetkých PFAS (per- and polyfluoroalkyl substances) do konca 2025. - **2023:** EU REACH proposal pre PFAS restriction (over 10 000 chemikálií, vrátane Novec). Final restriction by mal byť účinný 2026–2028. - **2024:** Cena Novec 7100 vzrástla zo 65 EUR/kg na 180–220 EUR/kg, dostupnosť obmedzená na existujúcich zákazníkov. - **2025–2026:** Žiadny veľký vendor (Submer, Asperitas, GRC) nepredáva nový two-phase systém. Existujúce inštalácie sa udržujú, ale roadmapy sú prevažne single-phase.
Nahradzujúce kvapaliny (LiquidCool LCS-CF series, Engineered Fluids ElectroCool) sú v pilotných fázach. Pre produkčný greenfield cluster v 2026 **two-phase nie je realistická voľba** — vendor support, regulačné riziko, dlhodobá dostupnosť kvapaliny.
CDU sizing — pravidlo, ktoré ladia všetci
CDU (Coolant Distribution Unit) je srdce DTC nasadenia. Heat exchanger medzi primárnym (server) loop-om a sekundárnym (facility water) loop-om. Pumpy v primárnom loop-e.
Pravidlo palca
- **Per-rack CDU:** 1× CDU per rack pri 50–100 kW racku. Single point of failure per rack, ale jednoduchá architektúra. Asetek RackCDU D2C 50.
- **Per-row CDU:** 1× CDU obsluhuje 4–6 rackov, 200–500 kW celkom. Lepší ekonomický scaling, ale failure dopadne na celý row. Asetek CoolIT CHx650.
- **Central CDU:** 1× CDU pre celé DC (1+ MW). Najlepší ekonomický scaling, ale vyžaduje sofistikovaný plumbing s tisíckami quick disconnect-ov.
N+1 redundancia
Pre AI training cluster, ktorý beží 24/7 a stratený checkpoint stojí 8–24 hodín training time-u, je CDU redundancia **povinná**. N+1 znamená: pri 100 kW load-e máte 2× 100 kW CDU s active-passive konfiguráciou, alebo 3× 50 kW CDU s active-active load sharing.
Cena delta: +35–60 % CAPEX na cooling infraštruktúru. Návratnosť: prvý CDU pump failure (typicky cycle ~5–7 rokov pri základnej údržbe).
Leak risk a insurance
Najčastejšia obava klientov: „čo ak unikne kvapalina na servery?"
Realita po 5 rokoch DTC nasadení (data z dvoch poistovateľov, ktorí zdieľali aggregated claims data pre EU AI infrastructure): - **Leak frequency:** 0,3–0,8 incidentov per 1 000 rack-rokov - **Damage per incident:** typicky < 5 % zariadenia (quick disconnect prevents catastrophic spill) - **Mean repair time:** 2–6 hodín (drain, replace coupling, refill, test)
Pre porovnanie: air-cooled DC má vlastné failure modes (CRAC failure, condensate leak z evaporator coils, ventilácia stop). Aggregated downtime za 5 rokov je porovnateľný alebo nižší pri správne dizajnovanom DTC.
**Insurance:** Allianz, Munich Re, AXA majú DTC-specific policies od 2023. Premium delta vs air-cooled ~3–8 % v EU v 2026 — výrazne klesol z pôvodných 15–20 % v 2020. Vyžadované: leak detection sensors (Aquasense, EcoFlux), automatic shut-off valves per rack, drip trays pod CDU, dokumentovaný emergency response plan.
Rozhodovací rámec na 15 minút
1. **Aký GPU a aká hustota?** - H100 SXM5 single rack (8 GPU, ~85 kW) → DTC povinné - B200 8-GPU baseboard (~120 kW per rack) → DTC alebo immersion - GB200 NVL36/NVL72 (132–192 kW per rack) → DTC s vysoko-kapacitnou CDU alebo single-phase immersion 2. **Brownfield retrofit alebo greenfield?** - Brownfield → DTC (existujúci servery sa môžu retrofitovať alebo nahradiť DTC-variant), žiadny tank rebuild - Greenfield s 5+ ročným horizontom → posúdiť immersion ak hustota > 100 kW/rack 3. **Akú údržbu zvládne tím?** DTC údržba je podobná air-cooled (hot swap zostáva). Immersion vyžaduje 6–12 mesiacov technického upskilling-u. 4. **Aké je facility water input?** Ak máte zdroj < 35 °C (dry cooler v EU klíme, alebo malý chiller) → DTC ideal. Ak nemáte → musíte počítať s chiller plant CAPEX. 5. **Akú PUE target?** 1,08–1,12 → DTC. 1,03–1,06 → single-phase immersion (s vyššou CAPEX prirážkou). 6. **Two-phase immersion?** Vyradiť. Vráťte sa za 2 roky, ak sa non-PFAS alternatívy dostanú na produkčnú zrelosť.
Praktická rada pri tendrovacom procese
Žiadajte v ponuke pre AI cluster cooling:
- **Per-uzol thermal envelope:** GPU junction temp budget, CPU junction temp budget, rezidualné air cooling pre NIC/DPU
- **CDU sizing s 30 % rezervou** pre future GPU upgrade (B300, R100)
- **Facility water specifikáciu:** input/output temperature, flow rate, water chemistry (pH, conductivity, biofouling protection)
- **Servisný runbook:** quick disconnect procedure, leak response, CDU pump failover test
- **Insurance + warranty:** koľko leak incidentov pokrýva vendor warranty, aké insurance premium dodávateľ odporúča
V audit-e DGX H100 nasadenia v 2025 sme našli klientskeho dodávateľa, ktorý ponúkol 80 kW CDU pre 85 kW rack-y. Pri full load (training Llama 3.3 405B fine-tune) CDU bežala na 106 % kapacite, water output išiel z 50 °C na 62 °C, GPU junction temperature stúpla na 84 °C — 3 °C pod thermal throttle. Marginálne. Pri letnej špičke s teplým facility water (39 °C input) by sa to throttlovalo. **30 % rezerva v CDU sizing-u je non-negotiable.**
---
*Robíme AI cluster design + cooling architektúru pre 8-uzlové a väčšie nasadenia, od H100 cez B200 ku GB200. Ak plánujete cluster nad 500 kW IT load, prvý design workshop (4 hodiny) prejde DTC vs immersion rozhodnutie pre váš konkrétny build-out s číselným PUE a CAPEX porovnaním.*