Een lokaal LLM-workstation is een ander type computer dan een gaming-pc. Andere belastingsprofielen, andere koeling, andere afwegingen over RAM/CPU/PSU. Klanten die een "AI-pc" bouwen via een gamingcatalogus eindigen vaak met een machine die niet levert wat hij zou moeten.
Fout 1 — Te weinig RAM, maar wel snel
Voor een LLM-workstation hebt u RAM nodig als buffer voor KV-cache, overflow van modelgewichten en embedding pipelines. 32 GB is weinig. 64 GB is vaak het minimum. 128 GB is een redelijke start als u ook fine-tuning en inference parallel plant.
Frequentie? Bijkomstig. Het verschil tussen DDR5-4800 en DDR5-6400 is 2–4% in reële LLM-workloads. Het verschil tussen 64 GB en 128 GB is het verschil tussen "werkt" en "werkt niet" bij het laden van een 70B-model met een contextvenster van 32k.
Regel: capaciteit > frequentie. Altijd.
Fout 2 — PSU "precies" gedimensioneerd
Een GPU voor AI-inference (RTX 4090, A6000, A100, H100) heeft een TDP van 350–700 W. De hele pc trekt bij volledige LLM-belasting 600–1200 W. De klant koopt een PSU van 850 W, omdat "de calculator 800 W aangaf".
Een PSU heeft de hoogste efficiëntie bij 50% belasting. Bij 95% belasting is de efficiëntie lager, de PSU-temperatuur hoger en de levensduur korter. Een PSU op 95% belasting zal u 24/7 lastigvallen met ventilatoren en u na twee jaar opbellen met een defect.
Regel: dimensioneer uw PSU op 130% van de verwachte piek. 850 W uit de calculator → 1200 W PSU. Klein verschil in prijs, fors verschil in levensduur.
Fout 3 — Luchtkoeling bij een GPU die 24/7 draait
Een RTX 4090 in gaming-gebruik draait 2 uur per dag, 95% van de tijd is idle. Luchtkoeling volstaat.
Een RTX 4090 als lokale LLM-inference-endpoint draait 24/7, vaak met 60–90% GPU-belasting. Luchtkoeling betekent bij dit profiel: - Hogere bedrijfstemperaturen (>80 °C continu) - Geluidsniveau van 50–60 dB (= storend in een open kantoor) - Throttling bij omgevingstemperaturen > 28 °C
Vloeistofkoeling (AIO 360 mm minimum, ideaal een custom loop) bij 24/7 LLM-workloads verlaagt de temperatuur naar 60–70 °C, het geluid naar 35–40 dB en elimineert throttling.
Regel: als de GPU langer dan 8 u/dag wordt belast, vloeistofkoeling. Altijd.
Fout 4 — NVMe als boot disk, maar data op HDD
Modelgewichten voor een 70B-model = 40–140 GB. Laden vanaf HDD duurt 5–10 minuten. Laden vanaf NVMe (Gen 4) duurt 30 seconden.
Bij ontwikkeling, waarbij u de server meerdere keren per dag herstart, betekent 9 min × 5 = 45 minuten verloren tijd per dag. Maandelijks ~15 uur. Een NVMe van 2 TB kost in 2026 rond € 130. Terugverdientijd: 2 dagen werk.
Regel: modelgewichten MOETEN op NVMe Gen 4 of beter staan. HDD is alleen voor offline back-up van het modelarchief.
Fout 5 — Single GPU, single point of failure
Voor een serieuze LLM-workload wordt niet met één GPU gedimensioneerd. Redenen: - Bij GPU-uitval valt de hele server uit. Een vervanging bestellen duurt dagen. - Bij een firmware-/driver-update valt de hele server uit tijdens het testen. - Modellen > 13B zijn met acceptabele snelheid niet te hosten op één consumer-GPU.
Een dual GPU-setup (2× RTX 4090 of 2× A6000 via NVLink) maakt mogelijk: - Tensor parallelism voor grotere modellen - Hot-failover bij uitval van één kaart - Continue A/B-testing van verschillende modellen
Kosten: ~2× GPU + een beter moederbord met 2× PCIe 4.0 x16. Differentiële kosten ~€ 3.000–5.000. Voor een omgeving die afhankelijk is van beschikbaarheid, amortiseert dit zich binnen weken.
Conclusie
Een LLM-workstation is geen "gaming-pc met een betere GPU". Het is een dedicated workload-server die een dedicated specificatie verdient — RAM-capaciteit boven frequentie, PSU met reserve, vloeistofkoeling, NVMe voor data, dual GPU voor resilience.
Als u uw eigen stack bouwt, laat deze vijf zaken meteen in het eerste ontwerp staan. Als u ze later toevoegt, kost het dubbel zoveel.
---
*We hanteren deze discipline bij elke AI-hardwarebuild die we leveren. Een hardware-spec-lijst voor een concreet use-case nemen we in 30 minuten met u door tijdens een gesprek — meestal volstaat één zin over het doel (lokale inference, fine-tune, of beide) om tussen 3 referentieconfiguraties te beslissen.*