Custom PC pre lokálne LLM — 5 chýb pri voľbe komponentov

Lokálny LLM workstation je iný počítač ako herný PC. Iné záťažové profily, iné chladenie, iné rozhodovanie o RAM/CPU/PSU. Klienti, ktorí si stavajú „PC pre AI" cez gaming katalóg, často získajú stroj, ktorý nepodáva to, čo by mal.

Chyba 1 — Príliš malá RAM, ale rýchla

Pre LLM workstation potrebujete RAM ako pufovanie pre KV-cache, model weights overflow, embedding pipelines. 32 GB je málo. 64 GB je často minimum. 128 GB je rozumný štart, ak plánujete robiť aj fine-tuning a inference paralelne.

Frekvencia? Sekundárne. Rozdiel medzi DDR5-4800 a DDR5-6400 je 2–4 % v reálnych LLM workloadoch. Rozdiel medzi 64 GB a 128 GB je rozdiel medzi „funguje" a „nefunguje" pri load-ovaní 70B modelu s kontextom 32k.

Pravidlo: kapacita > frekvencia. Vždy.

Chyba 2 — PSU dimenzovaný „presne"

GPU pre AI inference (RTX 4090, A6000, A100, H100) má TDP 350–700 W. Cele PC pri plnej LLM záťaži ťahá 600–1200 W. Klient kupuje 850 W PSU, lebo „v kalkulačke vyšlo 800 W".

PSU má najvyššiu efektivitu pri 50 % záťaži. Pri 95 % záťaži je efektivita nižšia, teplota PSU vyššia, životnosť kratšia. PSU pri 95 % záťaži vás bude 24/7 obťažovať ventilátormi a po dvoch rokoch vás obvolá s defektom.

Pravidlo: PSU dimenzujte na 130 % predpokladaného peak draw. 850 W kalkulačka → 1200 W PSU. Drobnejší rozdiel v cene, výrazný rozdiel v životnosti.

Chyba 3 — Air cooling pri GPU, ktorá ostáva v 24/7 prevádzke

RTX 4090 v gaming use-case beží 2 hodiny denne, 95 % času je idle. Air cooling stačí.

RTX 4090 ako lokálny LLM inference endpoint beží 24/7, často s 60–90 % využitím GPU. Air cooling pri tomto profile znamená: - Vyššie operačné teploty (>80 °C continuous) - Hlučnosť 50–60 dB (= rušivé v open-office) - Throttling pri ambient > 28 °C

Liquid cooling (AIO 360 mm minimum, ideálne custom loop) pri 24/7 LLM workloadoch zníži teploty na 60–70 °C, hluk na 35–40 dB a eliminuje throttling.

Pravidlo: ak je GPU plánovaný na > 8 h denne, liquid cooling. Vždy.

Chyba 4 — NVMe ako boot disk, ale data na HDD

Model weights pre 70B model = 40–140 GB. Načítanie z HDD trvá 5–10 minút. Načítanie z NVMe (Gen 4) trvá 30 sekúnd.

Pri vývoji, keď reštartujete server častokrát denne, 9 minút × 5 = 45 minút denne strateného času. Mesačne ~15 hodín. NVMe 2 TB stojí v 2026 okolo 130 €. Návratnosť za 2 dni práce.

Pravidlo: model weights MUSIA byť na NVMe Gen 4 alebo lepšie. HDD je len pre offline-backup model archive.

Chyba 5 — Single GPU, single point of failure

Pre serious LLM workload sa nedimenzuje s jedným GPU. Reasons: - Pri zlyhaní GPU = celý server padá. Náhradnú trvá dni objednať. - Pri update firmware/driver = celý server padá počas testovania. - Modely > 13B sa nedajú s prijateľnou rýchlosťou hostovať na single consumer GPU.

Dual GPU setup (2× RTX 4090 alebo 2× A6000 cez NVLink) umožňuje: - Tensor parallelism pre väčšie modely - Hot-failover pri zlyhaní jednej karty - Continuous A/B testing rôznych modelov

Cena: ~2× GPU + lepšia mainboard s 2× PCIe 4.0 x16. Diferenciálne ~3000–5000 €. Pre prevádzku, ktorá závisí od dostupnosti, sa amortizuje za týždne.

Záver

LLM workstation nie je „herné PC s lepším GPU". Je to dedikovaný workload-server, ktorý si zaslúži dedikovaný spec — RAM kapacita pred frekvenciou, PSU s rezervou, liquid cooling, NVMe pre data, dual GPU pre resilience.

Ak budovi vlastný stack, nech sa tieto 5 vecí dostane do prvého návrhu. Ak ich pridávate neskôr, stojí to dvojnásobok.

---

*Sledujeme túto disciplínu pri každom AI hardvérovom builde, ktorý dodávame. Hardware-spec list pre konkrétny use-case prejdeme za 30 min na hovore — väčšinou stačí jeden lyrický o cieli (lokálne inference, fine-tune, alebo oba) a rozhodneme medzi 3 referenčnými konfiguráciami.*

Chyba 1 — Príliš malá RAM, ale rýchla

Pravidlo: kapacita > frekvencia. Vždy.

Chyba 2 — PSU dimenzovaný „presne"

GPU pre AI inference (RTX 4090, A6000, A100, H100) má TDP 350–700 W. Cele PC pri plnej LLM záťaži ťahá 600–1200 W. Klient kupuje 850 W PSU, lebo „v kalkulačke vyšlo 800 W".

Pravidlo: PSU dimenzujte na 130 % predpokladaného peak draw. 850 W kalkulačka → 1200 W PSU. Drobnejší rozdiel v cene, výrazný rozdiel v životnosti.

Chyba 3 — Air cooling pri GPU, ktorá ostáva v 24/7 prevádzke

RTX 4090 v gaming use-case beží 2 hodiny denne, 95 % času je idle. Air cooling stačí.

Liquid cooling (AIO 360 mm minimum, ideálne custom loop) pri 24/7 LLM workloadoch zníži teploty na 60–70 °C, hluk na 35–40 dB a eliminuje throttling.

Pravidlo: ak je GPU plánovaný na > 8 h denne, liquid cooling. Vždy.

Chyba 4 — NVMe ako boot disk, ale data na HDD

Model weights pre 70B model = 40–140 GB. Načítanie z HDD trvá 5–10 minút. Načítanie z NVMe (Gen 4) trvá 30 sekúnd.

Pri vývoji, keď reštartujete server častokrát denne, 9 minút × 5 = 45 minút denne strateného času. Mesačne ~15 hodín. NVMe 2 TB stojí v 2026 okolo 130 €. Návratnosť za 2 dni práce.

Pravidlo: model weights MUSIA byť na NVMe Gen 4 alebo lepšie. HDD je len pre offline-backup model archive.

Chyba 5 — Single GPU, single point of failure

Dual GPU setup (2× RTX 4090 alebo 2× A6000 cez NVLink) umožňuje: - Tensor parallelism pre väčšie modely - Hot-failover pri zlyhaní jednej karty - Continuous A/B testing rôznych modelov

Cena: ~2× GPU + lepšia mainboard s 2× PCIe 4.0 x16. Diferenciálne ~3000–5000 €. Pre prevádzku, ktorá závisí od dostupnosti, sa amortizuje za týždne.

Záver

Ak budovi vlastný stack, nech sa tieto 5 vecí dostane do prvého návrhu. Ak ich pridávate neskôr, stojí to dvojnásobok.

---

Šesť pilierov,jedna dodávka.

Priemysel & strojárstvo

Elektroinštalácie & energetika

Automatizácia & riadenie

Datacentrá & IT infraštruktúra

AI, software & cloud

Inteligentné budovy & domácnosti

Custom PC pre lokálne LLM — 5 chýb pri voľbe komponentov

Chyba 1 — Príliš malá RAM, ale rýchla

Chyba 2 — PSU dimenzovaný „presne"

Chyba 3 — Air cooling pri GPU, ktorá ostáva v 24/7 prevádzke

Chyba 4 — NVMe ako boot disk, ale data na HDD

Chyba 5 — Single GPU, single point of failure

Záver

Custom PC pre lokálne LLM — 5 chýb pri voľbe komponentov

Chyba 1 — Príliš malá RAM, ale rýchla

Chyba 2 — PSU dimenzovaný „presne"

Chyba 3 — Air cooling pri GPU, ktorá ostáva v 24/7 prevádzke

Chyba 4 — NVMe ako boot disk, ale data na HDD

Chyba 5 — Single GPU, single point of failure

Záver