Custom pc voor lokale LLM's — 5 fouten bij de keuze van componenten

Een lokaal LLM-workstation is een ander type computer dan een gaming-pc. Andere belastingsprofielen, andere koeling, andere afwegingen over RAM/CPU/PSU. Klanten die een "AI-pc" bouwen via een gamingcatalogus eindigen vaak met een machine die niet levert wat hij zou moeten.

Fout 1 — Te weinig RAM, maar wel snel

Voor een LLM-workstation hebt u RAM nodig als buffer voor KV-cache, overflow van modelgewichten en embedding pipelines. 32 GB is weinig. 64 GB is vaak het minimum. 128 GB is een redelijke start als u ook fine-tuning en inference parallel plant.

Frequentie? Bijkomstig. Het verschil tussen DDR5-4800 en DDR5-6400 is 2–4% in reële LLM-workloads. Het verschil tussen 64 GB en 128 GB is het verschil tussen "werkt" en "werkt niet" bij het laden van een 70B-model met een contextvenster van 32k.

Regel: capaciteit > frequentie. Altijd.

Fout 2 — PSU "precies" gedimensioneerd

Een GPU voor AI-inference (RTX 4090, A6000, A100, H100) heeft een TDP van 350–700 W. De hele pc trekt bij volledige LLM-belasting 600–1200 W. De klant koopt een PSU van 850 W, omdat "de calculator 800 W aangaf".

Een PSU heeft de hoogste efficiëntie bij 50% belasting. Bij 95% belasting is de efficiëntie lager, de PSU-temperatuur hoger en de levensduur korter. Een PSU op 95% belasting zal u 24/7 lastigvallen met ventilatoren en u na twee jaar opbellen met een defect.

Regel: dimensioneer uw PSU op 130% van de verwachte piek. 850 W uit de calculator → 1200 W PSU. Klein verschil in prijs, fors verschil in levensduur.

Fout 3 — Luchtkoeling bij een GPU die 24/7 draait

Een RTX 4090 in gaming-gebruik draait 2 uur per dag, 95% van de tijd is idle. Luchtkoeling volstaat.

Een RTX 4090 als lokale LLM-inference-endpoint draait 24/7, vaak met 60–90% GPU-belasting. Luchtkoeling betekent bij dit profiel: - Hogere bedrijfstemperaturen (>80 °C continu) - Geluidsniveau van 50–60 dB (= storend in een open kantoor) - Throttling bij omgevingstemperaturen > 28 °C

Vloeistofkoeling (AIO 360 mm minimum, ideaal een custom loop) bij 24/7 LLM-workloads verlaagt de temperatuur naar 60–70 °C, het geluid naar 35–40 dB en elimineert throttling.

Regel: als de GPU langer dan 8 u/dag wordt belast, vloeistofkoeling. Altijd.

Fout 4 — NVMe als boot disk, maar data op HDD

Modelgewichten voor een 70B-model = 40–140 GB. Laden vanaf HDD duurt 5–10 minuten. Laden vanaf NVMe (Gen 4) duurt 30 seconden.

Bij ontwikkeling, waarbij u de server meerdere keren per dag herstart, betekent 9 min × 5 = 45 minuten verloren tijd per dag. Maandelijks ~15 uur. Een NVMe van 2 TB kost in 2026 rond € 130. Terugverdientijd: 2 dagen werk.

Regel: modelgewichten MOETEN op NVMe Gen 4 of beter staan. HDD is alleen voor offline back-up van het modelarchief.

Fout 5 — Single GPU, single point of failure

Voor een serieuze LLM-workload wordt niet met één GPU gedimensioneerd. Redenen: - Bij GPU-uitval valt de hele server uit. Een vervanging bestellen duurt dagen. - Bij een firmware-/driver-update valt de hele server uit tijdens het testen. - Modellen > 13B zijn met acceptabele snelheid niet te hosten op één consumer-GPU.

Een dual GPU-setup (2× RTX 4090 of 2× A6000 via NVLink) maakt mogelijk: - Tensor parallelism voor grotere modellen - Hot-failover bij uitval van één kaart - Continue A/B-testing van verschillende modellen

Kosten: ~2× GPU + een beter moederbord met 2× PCIe 4.0 x16. Differentiële kosten ~€ 3.000–5.000. Voor een omgeving die afhankelijk is van beschikbaarheid, amortiseert dit zich binnen weken.

Conclusie

Een LLM-workstation is geen "gaming-pc met een betere GPU". Het is een dedicated workload-server die een dedicated specificatie verdient — RAM-capaciteit boven frequentie, PSU met reserve, vloeistofkoeling, NVMe voor data, dual GPU voor resilience.

Als u uw eigen stack bouwt, laat deze vijf zaken meteen in het eerste ontwerp staan. Als u ze later toevoegt, kost het dubbel zoveel.

---

*We hanteren deze discipline bij elke AI-hardwarebuild die we leveren. Een hardware-spec-lijst voor een concreet use-case nemen we in 30 minuten met u door tijdens een gesprek — meestal volstaat één zin over het doel (lokale inference, fine-tune, of beide) om tussen 3 referentieconfiguraties te beslissen.*

Fout 1 — Te weinig RAM, maar wel snel

Regel: capaciteit > frequentie. Altijd.

Fout 2 — PSU "precies" gedimensioneerd

Regel: dimensioneer uw PSU op 130% van de verwachte piek. 850 W uit de calculator → 1200 W PSU. Klein verschil in prijs, fors verschil in levensduur.

Fout 3 — Luchtkoeling bij een GPU die 24/7 draait

Een RTX 4090 in gaming-gebruik draait 2 uur per dag, 95% van de tijd is idle. Luchtkoeling volstaat.

Vloeistofkoeling (AIO 360 mm minimum, ideaal een custom loop) bij 24/7 LLM-workloads verlaagt de temperatuur naar 60–70 °C, het geluid naar 35–40 dB en elimineert throttling.

Regel: als de GPU langer dan 8 u/dag wordt belast, vloeistofkoeling. Altijd.

Fout 4 — NVMe als boot disk, maar data op HDD

Modelgewichten voor een 70B-model = 40–140 GB. Laden vanaf HDD duurt 5–10 minuten. Laden vanaf NVMe (Gen 4) duurt 30 seconden.

Regel: modelgewichten MOETEN op NVMe Gen 4 of beter staan. HDD is alleen voor offline back-up van het modelarchief.

Fout 5 — Single GPU, single point of failure

Kosten: ~2× GPU + een beter moederbord met 2× PCIe 4.0 x16. Differentiële kosten ~€ 3.000–5.000. Voor een omgeving die afhankelijk is van beschikbaarheid, amortiseert dit zich binnen weken.

Conclusie

Als u uw eigen stack bouwt, laat deze vijf zaken meteen in het eerste ontwerp staan. Als u ze later toevoegt, kost het dubbel zoveel.

---

Zes pijlers,één levering.

Industrie en engineering

Elektrische installaties en automatisering

Automatisering & Besturing

Datacenters en serverruimtes

AI, software en cloud

Smart home en IoT

Custom pc voor lokale LLM's — 5 fouten bij de keuze van componenten

Fout 1 — Te weinig RAM, maar wel snel

Fout 2 — PSU "precies" gedimensioneerd

Fout 3 — Luchtkoeling bij een GPU die 24/7 draait

Fout 4 — NVMe als boot disk, maar data op HDD

Fout 5 — Single GPU, single point of failure

Conclusie

Custom pc voor lokale LLM's — 5 fouten bij de keuze van componenten

Fout 1 — Te weinig RAM, maar wel snel

Fout 2 — PSU "precies" gedimensioneerd

Fout 3 — Luchtkoeling bij een GPU die 24/7 draait

Fout 4 — NVMe als boot disk, maar data op HDD

Fout 5 — Single GPU, single point of failure

Conclusie