Eine lokale LLM-Workstation ist ein anderer Rechner als ein Gaming-PC. Andere Lastprofile, andere Kühlung, andere Entscheidungen bei RAM/CPU/PSU. Kunden, die sich einen „PC für KI" über den Gaming-Katalog zusammenstellen, bekommen häufig eine Maschine, die nicht das leistet, was sie sollte.
Fehler 1 — Zu wenig RAM, dafür aber schnell
Für eine LLM-Workstation brauchen Sie RAM als Puffer für den KV-Cache, Model-Weights-Overflow und Embedding-Pipelines. 32 GB ist zu wenig. 64 GB ist oft das Minimum. 128 GB ist ein vernünftiger Einstieg, wenn Sie zusätzlich Fine-Tuning und Inference parallel laufen lassen wollen.
Frequenz? Sekundär. Der Unterschied zwischen DDR5-4800 und DDR5-6400 macht 2–4 % in realen LLM-Workloads aus. Der Unterschied zwischen 64 GB und 128 GB ist der Unterschied zwischen „funktioniert" und „funktioniert nicht" beim Laden eines 70B-Modells mit 32k-Kontext.
Regel: Kapazität schlägt Frequenz. Immer.
Fehler 2 — PSU „auf Kante" dimensioniert
Eine GPU für KI-Inference (RTX 4090, A6000, A100, H100) hat eine TDP von 350–700 W. Der gesamte PC zieht unter voller LLM-Last 600–1.200 W. Der Kunde kauft ein 850-W-Netzteil, weil „der Rechner 800 W ausgegeben hat".
Ein Netzteil hat die höchste Effizienz bei 50 % Auslastung. Bei 95 % Auslastung ist die Effizienz niedriger, die PSU-Temperatur höher und die Lebensdauer kürzer. Ein Netzteil unter 95 % Dauerlast wird Sie 24/7 mit Lüftern nerven und nach zwei Jahren mit einem Defekt zurückkommen.
Regel: Dimensionieren Sie das Netzteil auf 130 % des erwarteten Peak-Verbrauchs. 850 W laut Rechner → 1.200-W-Netzteil. Kleiner Preisunterschied, deutlicher Unterschied in der Lebensdauer.
Fehler 3 — Luftkühlung bei einer GPU, die im 24/7-Betrieb läuft
Eine RTX 4090 im Gaming-Use-Case läuft 2 Stunden am Tag, 95 % der Zeit ist sie im Leerlauf. Luftkühlung reicht.
Eine RTX 4090 als lokaler LLM-Inference-Endpoint läuft 24/7, oft mit 60–90 % GPU-Auslastung. Luftkühlung bedeutet bei diesem Profil: - Höhere Betriebstemperaturen (>80 °C dauerhaft) - Lärmpegel von 50–60 dB (= störend im Open-Office) - Throttling bei Raumtemperaturen > 28 °C
Liquid Cooling (AIO 360 mm als Minimum, ideal Custom-Loop) senkt bei 24/7-LLM-Workloads die Temperaturen auf 60–70 °C, den Lärm auf 35–40 dB und eliminiert Throttling.
Regel: Wenn die GPU auf > 8 h täglich ausgelegt ist, Liquid Cooling. Immer.
Fehler 4 — NVMe als Boot-Disk, Daten aber auf HDD
Model-Weights für ein 70B-Modell = 40–140 GB. Laden von HDD dauert 5–10 Minuten. Laden von NVMe (Gen 4) dauert 30 Sekunden.
Bei der Entwicklung, wenn Sie den Server mehrmals täglich neu starten, sind 9 Minuten × 5 = 45 Minuten täglich verlorene Zeit. Monatlich ~15 Stunden. Eine NVMe mit 2 TB kostet 2026 etwa 130 €. Amortisation in 2 Arbeitstagen.
Regel: Model-Weights MÜSSEN auf NVMe Gen 4 oder besser liegen. Die HDD ist nur für das Offline-Backup-Modellarchiv.
Fehler 5 — Single GPU, Single Point of Failure
Für ernsthafte LLM-Workloads dimensioniert man nicht mit einer einzigen GPU. Gründe: - Bei GPU-Ausfall = der ganze Server fällt aus. Ersatz dauert Tage zum Bestellen. - Bei Firmware-/Treiber-Updates = der ganze Server fällt während des Testens aus. - Modelle > 13B lassen sich auf einer einzigen Consumer-GPU nicht mit akzeptabler Geschwindigkeit hosten.
Ein Dual-GPU-Setup (2× RTX 4090 oder 2× A6000 über NVLink) ermöglicht: - Tensor Parallelism für größere Modelle - Hot-Failover bei Ausfall einer Karte - Continuous A/B-Testing verschiedener Modelle
Kosten: ~2× GPU + besseres Mainboard mit 2× PCIe 4.0 x16. Differenz ~3.000–5.000 €. Für einen Betrieb, der von Verfügbarkeit abhängt, amortisiert sich das in Wochen.
Fazit
Eine LLM-Workstation ist kein „Gaming-PC mit besserer GPU". Sie ist ein dedizierter Workload-Server, der eine dedizierte Spec verdient — RAM-Kapazität vor Frequenz, Netzteil mit Reserve, Liquid Cooling, NVMe für Daten, Dual GPU für Resilience.
Wenn Sie einen eigenen Stack aufbauen, gehören diese 5 Punkte in den ersten Entwurf. Fügen Sie sie später hinzu, kostet es das Doppelte.
---
*Wir halten diese Disziplin bei jedem AI-Hardware-Build ein, den wir liefern. Eine Hardware-Spec-Liste für einen konkreten Use-Case gehen wir in 30 Minuten in einem Call durch — meist genügt ein Satz zum Ziel (lokale Inference, Fine-Tune oder beides), und wir entscheiden zwischen 3 Referenzkonfigurationen.*