Custom PC dla lokalnych LLM — 5 błędów przy doborze komponentów

Lokalna stacja robocza pod LLM to inny komputer niż gamingowy PC. Inne profile obciążenia, inne chłodzenie, inne decyzje o RAM/CPU/PSU. Klienci, którzy budują „PC dla AI" według katalogu gamingowego, często dostają maszynę, która nie dostarcza tego, co powinna.

Błąd 1 — Za mało RAM, ale szybkiego

Dla stacji LLM potrzebują Państwo RAM jako bufor dla KV-cache, overflow wag modelu, pipeline embeddingów. 32 GB to mało. 64 GB to często minimum. 128 GB to rozsądny start, jeśli planują Państwo robić jednocześnie fine-tuning i inferencję.

Częstotliwość? Drugorzędna. Różnica między DDR5-4800 a DDR5-6400 to 2–4 % w realnych obciążeniach LLM. Różnica między 64 GB a 128 GB to różnica między „działa" a „nie działa" przy ładowaniu modelu 70B z kontekstem 32k.

Zasada: pojemność > częstotliwość. Zawsze.

Błąd 2 — PSU dobrane „dokładnie"

GPU do inferencji AI (RTX 4090, A6000, A100, H100) ma TDP 350–700 W. Cały PC przy pełnym obciążeniu LLM ciągnie 600–1200 W. Klient kupuje PSU 850 W, bo „w kalkulatorze wyszło 800 W".

PSU ma najwyższą sprawność przy 50 % obciążeniu. Przy 95 % obciążeniu sprawność jest niższa, temperatura PSU wyższa, żywotność krótsza. PSU na 95 % obciążenia będzie Państwa 24/7 męczyć wentylatorami, a po dwóch latach zadzwoni z defektem.

Zasada: PSU dobierajcie na 130 % przewidywanego peak draw. 850 W z kalkulatora → PSU 1200 W. Niewielka różnica w cenie, znacząca różnica w żywotności.

Błąd 3 — Air cooling przy GPU pracującym 24/7

RTX 4090 w gaming use-case działa 2 godziny dziennie, 95 % czasu jest bezczynny. Air cooling wystarcza.

RTX 4090 jako lokalny endpoint inferencji LLM działa 24/7, często z 60–90 % wykorzystaniem GPU. Air cooling przy tym profilu oznacza: - Wyższe temperatury operacyjne (>80 °C continuous) - Hałas 50–60 dB (= uciążliwe w open-office) - Throttling przy ambient > 28 °C

Liquid cooling (AIO 360 mm minimum, idealnie custom loop) przy obciążeniach LLM 24/7 obniży temperatury do 60–70 °C, hałas do 35–40 dB i wyeliminuje throttling.

Zasada: jeśli GPU planowane jest na > 8 h dziennie, liquid cooling. Zawsze.

Błąd 4 — NVMe jako dysk systemowy, ale dane na HDD

Wagi modelu 70B = 40–140 GB. Wczytanie z HDD trwa 5–10 minut. Wczytanie z NVMe (Gen 4) trwa 30 sekund.

Przy developmencie, gdy restartują Państwo serwer wielokrotnie dziennie, 9 minut × 5 = 45 minut dziennie straconego czasu. Miesięcznie ~15 godzin. NVMe 2 TB kosztuje w 2026 około 130 €. Zwrot za 2 dni pracy.

Zasada: wagi modelu MUSZĄ być na NVMe Gen 4 lub lepiej. HDD tylko do offline-backup archiwum modeli.

Błąd 5 — Single GPU, single point of failure

Dla poważnego obciążenia LLM nie dobiera się jednego GPU. Powody: - Przy awarii GPU = cały serwer leży. Zamiennik trwa dni zamówić. - Przy update firmware/drivera = cały serwer leży podczas testów. - Modele > 13B nie da się z akceptowalną prędkością hostować na pojedynczym konsumenckim GPU.

Dual GPU setup (2× RTX 4090 lub 2× A6000 przez NVLink) umożliwia: - Tensor parallelism dla większych modeli - Hot-failover przy awarii jednej karty - Continuous A/B testing różnych modeli

Cena: ~2× GPU + lepsza płyta główna z 2× PCIe 4.0 x16. Różnica ~3000–5000 €. Dla operacji, która zależy od dostępności, amortyzuje się w tygodniach.

Podsumowanie

Stacja LLM to nie „gamingowy PC z lepszym GPU". To dedykowany serwer obciążeniowy, który zasługuje na dedykowane spec — pojemność RAM przed częstotliwością, PSU z rezerwą, liquid cooling, NVMe dla danych, dual GPU dla resilience.

Jeśli budują Państwo własny stack, niech te 5 rzeczy znajdzie się w pierwszym projekcie. Jeśli dodają je Państwo później, kosztuje to dwa razy więcej.

---

*Trzymamy się tej dyscypliny przy każdym buildzie sprzętu AI, który dostarczamy. Hardware-spec list dla konkretnego use-case przejdziemy w 30 min na rozmowie — zwykle wystarczy jedno zdanie o celu (lokalna inferencja, fine-tune, lub oba) i wybieramy między 3 referencyjnymi konfiguracjami.*

Błąd 1 — Za mało RAM, ale szybkiego

Zasada: pojemność > częstotliwość. Zawsze.

Błąd 2 — PSU dobrane „dokładnie"

GPU do inferencji AI (RTX 4090, A6000, A100, H100) ma TDP 350–700 W. Cały PC przy pełnym obciążeniu LLM ciągnie 600–1200 W. Klient kupuje PSU 850 W, bo „w kalkulatorze wyszło 800 W".

Zasada: PSU dobierajcie na 130 % przewidywanego peak draw. 850 W z kalkulatora → PSU 1200 W. Niewielka różnica w cenie, znacząca różnica w żywotności.

Błąd 3 — Air cooling przy GPU pracującym 24/7

RTX 4090 w gaming use-case działa 2 godziny dziennie, 95 % czasu jest bezczynny. Air cooling wystarcza.

Liquid cooling (AIO 360 mm minimum, idealnie custom loop) przy obciążeniach LLM 24/7 obniży temperatury do 60–70 °C, hałas do 35–40 dB i wyeliminuje throttling.

Zasada: jeśli GPU planowane jest na > 8 h dziennie, liquid cooling. Zawsze.

Błąd 4 — NVMe jako dysk systemowy, ale dane na HDD

Wagi modelu 70B = 40–140 GB. Wczytanie z HDD trwa 5–10 minut. Wczytanie z NVMe (Gen 4) trwa 30 sekund.

Zasada: wagi modelu MUSZĄ być na NVMe Gen 4 lub lepiej. HDD tylko do offline-backup archiwum modeli.

Błąd 5 — Single GPU, single point of failure

Dual GPU setup (2× RTX 4090 lub 2× A6000 przez NVLink) umożliwia: - Tensor parallelism dla większych modeli - Hot-failover przy awarii jednej karty - Continuous A/B testing różnych modeli

Cena: ~2× GPU + lepsza płyta główna z 2× PCIe 4.0 x16. Różnica ~3000–5000 €. Dla operacji, która zależy od dostępności, amortyzuje się w tygodniach.

Podsumowanie

Jeśli budują Państwo własny stack, niech te 5 rzeczy znajdzie się w pierwszym projekcie. Jeśli dodają je Państwo później, kosztuje to dwa razy więcej.

---

Sześć filarów,jedna dostawa.

Przemysł i inżynieria

Instalacje elektryczne i automatyka

Automatyka & Sterowanie

Centra danych i serwerownie

AI, software i cloud

Smart home i IoT

Custom PC dla lokalnych LLM — 5 błędów przy doborze komponentów

Błąd 1 — Za mało RAM, ale szybkiego

Błąd 2 — PSU dobrane „dokładnie"

Błąd 3 — Air cooling przy GPU pracującym 24/7

Błąd 4 — NVMe jako dysk systemowy, ale dane na HDD

Błąd 5 — Single GPU, single point of failure

Podsumowanie

Custom PC dla lokalnych LLM — 5 błędów przy doborze komponentów

Błąd 1 — Za mało RAM, ale szybkiego

Błąd 2 — PSU dobrane „dokładnie"

Błąd 3 — Air cooling przy GPU pracującym 24/7

Błąd 4 — NVMe jako dysk systemowy, ale dane na HDD

Błąd 5 — Single GPU, single point of failure

Podsumowanie