NVIDIA H100 SXM5 zieht 700 W bei Full FP16/BF16 Training. B200 SXM folgt mit 1 000 W. GB200 im Full NVL36 Rack 132 kW. Diese Zahlen liegen jenseits dessen, was Air Cooling physikalisch bewältigt — nicht ökonomisch, nicht effizient, sondern **physikalisch**. Dieser Artikel handelt davon, wie die Entscheidung aussieht, wenn Sie vor einem 8-Knoten-H100-Cluster stehen oder das erste B200-Deployment planen, und warum Two-Phase-Immersion in den letzten 18 Monaten gestorben ist.
Warum Air Cooling über 30 kW/Rack endet
Air Cooling funktioniert nach dem Prinzip: Kühler gibt Wärme über Kupfer-Heatpipe ab → Heatsink Fins → Ventilator-getriebene Luft → CRAC Unit kühlt die Luft → wiederholen. Für die physikalische Wärmeübertragungsgleichung:
`Q = ṁ × cp × ΔT`
Wobei `Q` die abgenommene Wärme (W), `ṁ` der Luftstrom (kg/s), `cp` die spezifische Wärmekapazität der Luft (1 005 J/kg·K) und `ΔT` die Differenz zwischen Aus- und Eingangsluft ist.
Für ein 30-kW-Rack bei ΔT = 15 K brauchen Sie: `ṁ = 30 000 / (1 005 × 15) = 1,99 kg/s` = ~1 650 m³/h Luft
Das bedeutet Ventilatoren im Rack + CRAC, die zusammen **3,5–4,5 kW nur für Ventilation** verbrauchen. Bei einem 60-kW-Rack bräuchten Sie die doppelte Luftmenge — 3 300 m³/h, was bereits Lärm von 90+ dB und physische Chassis-Beschränkungen bedeutet (Sie haben keinen Platz für mehr Fans). Und die Ventilation selbst würde 8–11 kW verbrauchen. **PUE für reines Air bei 60-kW-Rack sinkt real auf 1,8–2,2** — ökonomisch nicht zu bewältigen.
Boundary Layer durch Chip → Heatsink Junction ist eine weitere Limitierung: Bei H100 muss die Chip Junction Temperature unter 87 °C bleiben, Ambient Air bis CRAC max. 27 °C, sodass ΔT über den gesamten Weg 60 °C beträgt. Für einen 700-W-Chip über 7 cm² Die Area beträgt der Wärmefluss 100 W/cm². Luft kann das bei vernünftiger Geschwindigkeit (3–6 m/s) nicht effizient übertragen — ab 50 W/cm² wird Liquid Cooling notwendig.
**Praktische Schwelle:** über 30 kW/Rack verliert Air Cooling den ökonomischen Sinn, über 50 kW/Rack den physikalischen Sinn.
Direct-to-Chip (DTC) — wie es wirklich funktioniert
DTC = Kühlerplatte direkt auf CPU und GPU, Flüssigkeit (typischerweise Propylenglykol-Wasser 25:75 oder PG 30:70) fließt durch Mikrokanäle in der Cold Plate. Die Flüssigkeit nimmt Wärme auf, geht in die **CDU** (Coolant Distribution Unit), die sie an den sekundären Loop abgibt — typischerweise Facility Water, das in den Chiller oder Dry Cooler geht.
Topologie in einem realen 8-Node-H100-Cluster
- **8× DGX H100** oder **8× HPE Cray EX H100** — jeder Knoten zieht 10,2 kW (8× H100 SXM5 + 2× Sapphire Rapids CPU + DPU + NIC + PSU Losses)
- **Rack-TDP:** ~85 kW (8 Knoten + 2× InfiniBand Switch + Storage Chassis)
- **DTC-Coverage:** GPU SXM5 + CPU. NIC + DPU bleiben Air-Cooled (12–15 % der Residualwärme)
- **CDU pro Rack:** Asetek RackCDU D2C oder CoolIT CHx650, Kapazität 100–150 kW pro CDU
- **Sekundärer Loop:** Facility Water 32–40 °C Input → 45–55 °C Output (W4 ASHRAE Liquid Cooling Envelope)
- **Wärmerejektion:** Dry Cooler in EU-Klima (kein Chiller nötig bei 32 °C+ Wasser) — Free Cooling ganzjährig bei korrektem Design
Top-DTC-Vendoren 2026
**Asetek** - RackCDU D2C Generation 4 — am weitesten verbreitetes DTC-Ökosystem - Cold Plates für H100, B200, GB200, Intel Xeon, AMD EPYC - CDU-Kapazität 80/120/200 kW - **Retrofit-Preis:** 5 800–7 200 EUR / Rack für Cold Plates + Manifold + Quick Disconnect - **CDU-Preis:** 18–28 k EUR pro 120-kW-Unit
**CoolIT Systems** - AHx Series (Asetek-style) + CHx Series (Server-Level Integrated) - Für OEM (HPE Cray, Lenovo Neptune, Dell PowerEdge XE9680L) - Höhere OEM-Integration, weniger Retrofit-Kits - **Preis:** typischerweise Teil der OEM-Server-Quote, +3–4 k EUR / Server vs. Air-Variante
**Submer DTC (früher CoolIT Direct-to-Chip)** - Ursprünglich Immersion-Vendor, jetzt auch DTC-Produkte - Outdoor-CDU-Varianten mit Air-Cooled Rejection (kein Facility Water nötig) - **Preis:** 6 500–8 000 EUR / Rack
**Motivair** - Spezialisierung auf High-Density HPC-Retrofits - ColdPort Technology (für HPE Cray EX) - **Preis:** überwiegend project-based, 30–80 k EUR pro Cluster
Realer Benchmark — 8-Node DGX H100 Cluster
In einem Projekt, das wir auditierten (Greenfield AI Lab bei München, vollständig deployed in Q4 2025):
| Parameter | Air-Cooled DGX H100 | DTC Asetek Retrofit | |-----------|---------------------|----------------------| | Server-TDP pro Knoten | 10,2 kW | 10,2 kW | | Cooling Power pro Knoten | 1,4 kW (Fans + CRAC Share) | 0,28 kW (Residual Fans + CDU Pump Share) | | **PUE des ganzen Clusters** | **1,45** | **1,08** | | Jahresverbrauch (8 Knoten) | 715 MWh | 535 MWh | | Bei 0,18 EUR/kWh | **128 700 EUR / Jahr** | **96 300 EUR / Jahr** | | CAPEX-Delta | Baseline | +52 000 EUR (8 Racks DTC + CDU) | | **Payback** | — | **~19 Monate** |
Bei B200 und B300 erhöht sich dieser Vorteil weiter (höheres TDP → höheres Verhältnis der Wärme, die durch Liquid statt Air rejected wird).
Immersion — Single-Phase Realität
Single-Phase Immersion = der ganze Server (ohne Fans) ist in dielektrische Flüssigkeit eingetaucht (Submer SmartCoolant, ShellLubri DCT 16, Castrol DC iX). Die Flüssigkeit fließt durch den Tank, tritt bei 35–45 °C ein, tritt bei 45–55 °C aus.
Kapazität und PUE
- **Submer SmartPodX:** 100 kW pro Tank, Footprint ~2 m²
- **Asperitas AIC24:** 50 kW pro Tank
- **GRC ICEraQ Quad:** 168 kW pro Quad-Tank
- **PUE:** 1,03–1,06 (beste in der Industrie)
Reale Limitierungen
1. **Server-Formfaktor.** Nicht jeder Server kann in Immersion. NVIDIA HGX H100 8-GPU Baseboard funktioniert, aber die Fans müssen entfernt werden und das Thermal Interface mit Immersion-spezifischem Gap Pad (ShellLubri SC2) neu aufgetragen werden. Einige OEMs (Supermicro, Inspur) bieten Immersion-Ready-Varianten an; HPE Cray EX nicht.
2. **Wartung.** Einen Server aus dem Tank zu nehmen bedeutet: ausschalten, 10–15 Minuten Drip-Off warten, mit Kran (typischerweise 30–50 kg + 8–12 kg Flüssigkeit innen) anheben, zum Service-Tisch tragen. Die Operation dauert 45–90 Minuten statt 5 Minuten beim Air-Cooled Hot Swap.
3. **Cabling.** Optische Kabel mit PVC-Jacket degradieren in einigen Flüssigkeiten. Es ist LSZH (Low Smoke Zero Halogen) oder PTFE-Jacket erforderlich. Cabling-Cost-Aufschlag 1,5–2× gegenüber Standard.
4. **CAPEX:** 25–40 k EUR / Rack (Tank + Flüssigkeit + CDU Secondary Loop). Für einen 8-Rack-Cluster ist der Unterschied 200–320 k EUR vs. DTC.
Wann Single-Phase-Immersion gewinnt
- **Extreme Dichte.** GB200 NVL72 in Greenfield — 132 kW in einem NVL-Rack, DTC bräuchte Custom CDU Sizing, Immersion absorbiert das nativ.
- **Edge-Deployment mit Platzbeschränkung.** 200 kW IT-Load in 20-ft-Container — Air Cooling passt nicht, DTC passt aber mit Tightly Packed Footprint, Immersion ist am kompaktesten.
- **Greenfield mit 5+ Jahre Horizont.** CAPEX-Delta amortisiert sich über OPEX (PUE 1,05 vs. 1,08).
Für Brownfield-Retrofit eines bestehenden DC mit Air-Infrastruktur ist Single-Phase Immersion **fast immer eine schlechte Wahl** — Formfaktor-Änderung + Service-Unterbrechung + Cabling-Rebuild + Wartungs-Retraining.
Two-Phase Immersion — warum es gestorben ist
Two-Phase = die Flüssigkeit geht beim Kontakt mit dem heißen Chip **in Gas über**, kondensiert am Kühlschlangen-Heatsink über dem Tank, Tropfen fallen zurück. Effizientestes physikalisches Wärmeübertragungsprinzip — passiv, keine Pumpen.
In 2020–2023 wurde Two-Phase als SOTA betrachtet: PUE 1,02, Kapazität 200–300 kW pro Tank, keine mechanische Bewegung im Primary Loop. **3M Novec 7100, 7500, 649** waren Flagship-Flüssigkeiten — perfluoriert, gute Thermal Properties, „umweltsicher".
Realität 2024–2026: - **Dezember 2022:** 3M kündigte die Beendigung der Produktion aller PFAS (Per- and Polyfluoroalkyl Substances) bis Ende 2025 an. - **2023:** EU-REACH-Vorschlag für PFAS-Restriction (über 10 000 Chemikalien, inklusive Novec). Finale Restriction soll 2026–2028 wirksam werden. - **2024:** Der Preis von Novec 7100 stieg von 65 EUR/kg auf 180–220 EUR/kg, Verfügbarkeit auf bestehende Kunden beschränkt. - **2025–2026:** Kein großer Vendor (Submer, Asperitas, GRC) verkauft neue Two-Phase-Systeme. Bestehende Installationen werden gewartet, aber Roadmaps sind überwiegend Single-Phase.
Ersatzflüssigkeiten (LiquidCool LCS-CF Series, Engineered Fluids ElectroCool) sind in Pilotphasen. Für ein Produktions-Greenfield-Cluster in 2026 ist **Two-Phase keine realistische Wahl** — Vendor Support, regulatorisches Risiko, langfristige Verfügbarkeit der Flüssigkeit.
CDU Sizing — Regel, die alle stimmen
Die CDU (Coolant Distribution Unit) ist das Herz des DTC-Deployments. Wärmetauscher zwischen Primary (Server) Loop und Secondary (Facility Water) Loop. Pumpen im Primary Loop.
Faustregel
- **Per-Rack CDU:** 1× CDU pro Rack bei 50–100 kW Rack. Single Point of Failure pro Rack, aber einfache Architektur. Asetek RackCDU D2C 50.
- **Per-Row CDU:** 1× CDU bedient 4–6 Racks, 200–500 kW gesamt. Besseres ökonomisches Scaling, aber Failure betrifft die ganze Reihe. Asetek CoolIT CHx650.
- **Central CDU:** 1× CDU für das gesamte DC (1+ MW). Bestes ökonomisches Scaling, aber erfordert sophistiziertes Plumbing mit Tausenden Quick Disconnects.
N+1-Redundanz
Für AI-Training-Cluster, die 24/7 laufen und verlorene Checkpoints 8–24 Stunden Trainings-Time kosten, ist CDU-Redundanz **verpflichtend**. N+1 bedeutet: bei 100 kW Load haben Sie 2× 100 kW CDU mit Active-Passive-Konfiguration oder 3× 50 kW CDU mit Active-Active Load Sharing.
Preis-Delta: +35–60 % CAPEX auf Cooling-Infrastruktur. Amortisation: erstes CDU Pump Failure (typischerweise Cycle ~5–7 Jahre bei Basis-Wartung).
Leak Risk und Insurance
Häufigste Kundensorge: „was passiert, wenn Flüssigkeit auf Server entweicht?"
Realität nach 5 Jahren DTC-Deployments (Daten von zwei Versicherungen, die aggregated Claims Data für EU AI Infrastructure geteilt haben): - **Leak Frequency:** 0,3–0,8 Incidents pro 1 000 Rack-Jahre - **Damage per Incident:** typischerweise < 5 % des Equipments (Quick Disconnect verhindert Catastrophic Spill) - **Mean Repair Time:** 2–6 Stunden (Drain, Replace Coupling, Refill, Test)
Zum Vergleich: Air-Cooled DC hat eigene Failure Modes (CRAC Failure, Condensate Leak aus Evaporator Coils, Ventilations-Stop). Aggregated Downtime über 5 Jahre ist vergleichbar oder niedriger bei korrekt designtem DTC.
**Insurance:** Allianz, Munich Re, AXA haben DTC-spezifische Policies seit 2023. Premium-Delta vs. Air-Cooled ~3–8 % in EU 2026 — deutlich gesunken von ursprünglich 15–20 % in 2020. Erforderlich: Leak Detection Sensors (Aquasense, EcoFlux), Automatic Shut-Off Valves pro Rack, Drip Trays unter CDU, dokumentierter Emergency Response Plan.
15-Minuten-Entscheidungsrahmen
1. **Welche GPU und welche Dichte?** - H100 SXM5 Single Rack (8 GPU, ~85 kW) → DTC verpflichtend - B200 8-GPU Baseboard (~120 kW pro Rack) → DTC oder Immersion - GB200 NVL36/NVL72 (132–192 kW pro Rack) → DTC mit High-Capacity-CDU oder Single-Phase-Immersion 2. **Brownfield Retrofit oder Greenfield?** - Brownfield → DTC (bestehende Server können retrofittet oder durch DTC-Variante ersetzt werden), kein Tank Rebuild - Greenfield mit 5+ Jahre Horizont → Immersion in Betracht ziehen bei Dichte > 100 kW/Rack 3. **Welche Wartung schafft das Team?** DTC-Wartung ist ähnlich wie Air-Cooled (Hot Swap bleibt). Immersion erfordert 6–12 Monate technisches Upskilling. 4. **Welcher Facility Water Input?** Wenn Sie eine Quelle < 35 °C haben (Dry Cooler in EU-Klima oder kleinen Chiller) → DTC ideal. Falls nicht — müssen Sie mit Chiller Plant CAPEX rechnen. 5. **Welches PUE-Ziel?** 1,08–1,12 → DTC. 1,03–1,06 → Single-Phase Immersion (mit höherem CAPEX-Aufschlag). 6. **Two-Phase Immersion?** Ausschließen. Kommen Sie in 2 Jahren wieder, wenn Non-PFAS-Alternativen Produktionsreife erreichen.
Praktischer Rat im Ausschreibungsprozess
Fordern Sie in der Ausschreibung für AI-Cluster-Cooling:
- **Per-Node-Thermal-Envelope:** GPU Junction Temp Budget, CPU Junction Temp Budget, Residual Air Cooling für NIC/DPU
- **CDU Sizing mit 30 % Reserve** für Future GPU Upgrade (B300, R100)
- **Facility Water Specification:** Input/Output Temperature, Flow Rate, Water Chemistry (pH, Conductivity, Biofouling Protection)
- **Service Runbook:** Quick Disconnect Procedure, Leak Response, CDU Pump Failover Test
- **Insurance + Warranty:** wie viele Leak Incidents deckt Vendor Warranty, welches Insurance Premium der Lieferant empfiehlt
Im Audit eines DGX-H100-Deployments in 2025 fanden wir einen Kundenlieferanten, der eine 80-kW-CDU für 85-kW-Racks angeboten hatte. Bei Full Load (Training Llama 3.3 405B Fine-Tune) lief die CDU bei 106 % Kapazität, Water Output stieg von 50 °C auf 62 °C, GPU Junction Temperature stieg auf 84 °C — 3 °C unter Thermal Throttle. Marginal. Bei Sommer-Peak mit warmem Facility Water (39 °C Input) würde es throttlen. **30 % Reserve in CDU Sizing ist nicht verhandelbar.**
---
*Wir machen AI-Cluster-Design + Cooling-Architektur für 8-Knoten- und größere Deployments, von H100 über B200 zu GB200. Wenn Sie einen Cluster über 500 kW IT-Load planen, durchläuft der erste Design-Workshop (4 Stunden) die DTC- vs. Immersion-Entscheidung für Ihren konkreten Build-Out mit numerischem PUE und CAPEX-Vergleich.*