Lokálny LLM workstation je iný počítač ako herný PC. Iné záťažové profily, iné chladenie, iné rozhodovanie o RAM/CPU/PSU. Klienti, ktorí si stavajú „PC pre AI" cez gaming katalóg, často získajú stroj, ktorý nepodáva to, čo by mal.
Chyba 1 — Príliš malá RAM, ale rýchla
Pre LLM workstation potrebujete RAM ako pufovanie pre KV-cache, model weights overflow, embedding pipelines. 32 GB je málo. 64 GB je často minimum. 128 GB je rozumný štart, ak plánujete robiť aj fine-tuning a inference paralelne.
Frekvencia? Sekundárne. Rozdiel medzi DDR5-4800 a DDR5-6400 je 2–4 % v reálnych LLM workloadoch. Rozdiel medzi 64 GB a 128 GB je rozdiel medzi „funguje" a „nefunguje" pri load-ovaní 70B modelu s kontextom 32k.
Pravidlo: kapacita > frekvencia. Vždy.
Chyba 2 — PSU dimenzovaný „presne"
GPU pre AI inference (RTX 4090, A6000, A100, H100) má TDP 350–700 W. Cele PC pri plnej LLM záťaži ťahá 600–1200 W. Klient kupuje 850 W PSU, lebo „v kalkulačke vyšlo 800 W".
PSU má najvyššiu efektivitu pri 50 % záťaži. Pri 95 % záťaži je efektivita nižšia, teplota PSU vyššia, životnosť kratšia. PSU pri 95 % záťaži vás bude 24/7 obťažovať ventilátormi a po dvoch rokoch vás obvolá s defektom.
Pravidlo: PSU dimenzujte na 130 % predpokladaného peak draw. 850 W kalkulačka → 1200 W PSU. Drobnejší rozdiel v cene, výrazný rozdiel v životnosti.
Chyba 3 — Air cooling pri GPU, ktorá ostáva v 24/7 prevádzke
RTX 4090 v gaming use-case beží 2 hodiny denne, 95 % času je idle. Air cooling stačí.
RTX 4090 ako lokálny LLM inference endpoint beží 24/7, často s 60–90 % využitím GPU. Air cooling pri tomto profile znamená: - Vyššie operačné teploty (>80 °C continuous) - Hlučnosť 50–60 dB (= rušivé v open-office) - Throttling pri ambient > 28 °C
Liquid cooling (AIO 360 mm minimum, ideálne custom loop) pri 24/7 LLM workloadoch zníži teploty na 60–70 °C, hluk na 35–40 dB a eliminuje throttling.
Pravidlo: ak je GPU plánovaný na > 8 h denne, liquid cooling. Vždy.
Chyba 4 — NVMe ako boot disk, ale data na HDD
Model weights pre 70B model = 40–140 GB. Načítanie z HDD trvá 5–10 minút. Načítanie z NVMe (Gen 4) trvá 30 sekúnd.
Pri vývoji, keď reštartujete server častokrát denne, 9 minút × 5 = 45 minút denne strateného času. Mesačne ~15 hodín. NVMe 2 TB stojí v 2026 okolo 130 €. Návratnosť za 2 dni práce.
Pravidlo: model weights MUSIA byť na NVMe Gen 4 alebo lepšie. HDD je len pre offline-backup model archive.
Chyba 5 — Single GPU, single point of failure
Pre serious LLM workload sa nedimenzuje s jedným GPU. Reasons: - Pri zlyhaní GPU = celý server padá. Náhradnú trvá dni objednať. - Pri update firmware/driver = celý server padá počas testovania. - Modely > 13B sa nedajú s prijateľnou rýchlosťou hostovať na single consumer GPU.
Dual GPU setup (2× RTX 4090 alebo 2× A6000 cez NVLink) umožňuje: - Tensor parallelism pre väčšie modely - Hot-failover pri zlyhaní jednej karty - Continuous A/B testing rôznych modelov
Cena: ~2× GPU + lepšia mainboard s 2× PCIe 4.0 x16. Diferenciálne ~3000–5000 €. Pre prevádzku, ktorá závisí od dostupnosti, sa amortizuje za týždne.
Záver
LLM workstation nie je „herné PC s lepším GPU". Je to dedikovaný workload-server, ktorý si zaslúži dedikovaný spec — RAM kapacita pred frekvenciou, PSU s rezervou, liquid cooling, NVMe pre data, dual GPU pre resilience.
Ak budovi vlastný stack, nech sa tieto 5 vecí dostane do prvého návrhu. Ak ich pridávate neskôr, stojí to dvojnásobok.
---
*Sledujeme túto disciplínu pri každom AI hardvérovom builde, ktorý dodávame. Hardware-spec list pre konkrétny use-case prejdeme za 30 min na hovore — väčšinou stačí jeden lyrický o cieli (lokálne inference, fine-tune, alebo oba) a rozhodneme medzi 3 referenčnými konfiguráciami.*