Lokalna stacja robocza pod LLM to inny komputer niż gamingowy PC. Inne profile obciążenia, inne chłodzenie, inne decyzje o RAM/CPU/PSU. Klienci, którzy budują „PC dla AI" według katalogu gamingowego, często dostają maszynę, która nie dostarcza tego, co powinna.
Błąd 1 — Za mało RAM, ale szybkiego
Dla stacji LLM potrzebują Państwo RAM jako bufor dla KV-cache, overflow wag modelu, pipeline embeddingów. 32 GB to mało. 64 GB to często minimum. 128 GB to rozsądny start, jeśli planują Państwo robić jednocześnie fine-tuning i inferencję.
Częstotliwość? Drugorzędna. Różnica między DDR5-4800 a DDR5-6400 to 2–4 % w realnych obciążeniach LLM. Różnica między 64 GB a 128 GB to różnica między „działa" a „nie działa" przy ładowaniu modelu 70B z kontekstem 32k.
Zasada: pojemność > częstotliwość. Zawsze.
Błąd 2 — PSU dobrane „dokładnie"
GPU do inferencji AI (RTX 4090, A6000, A100, H100) ma TDP 350–700 W. Cały PC przy pełnym obciążeniu LLM ciągnie 600–1200 W. Klient kupuje PSU 850 W, bo „w kalkulatorze wyszło 800 W".
PSU ma najwyższą sprawność przy 50 % obciążeniu. Przy 95 % obciążeniu sprawność jest niższa, temperatura PSU wyższa, żywotność krótsza. PSU na 95 % obciążenia będzie Państwa 24/7 męczyć wentylatorami, a po dwóch latach zadzwoni z defektem.
Zasada: PSU dobierajcie na 130 % przewidywanego peak draw. 850 W z kalkulatora → PSU 1200 W. Niewielka różnica w cenie, znacząca różnica w żywotności.
Błąd 3 — Air cooling przy GPU pracującym 24/7
RTX 4090 w gaming use-case działa 2 godziny dziennie, 95 % czasu jest bezczynny. Air cooling wystarcza.
RTX 4090 jako lokalny endpoint inferencji LLM działa 24/7, często z 60–90 % wykorzystaniem GPU. Air cooling przy tym profilu oznacza: - Wyższe temperatury operacyjne (>80 °C continuous) - Hałas 50–60 dB (= uciążliwe w open-office) - Throttling przy ambient > 28 °C
Liquid cooling (AIO 360 mm minimum, idealnie custom loop) przy obciążeniach LLM 24/7 obniży temperatury do 60–70 °C, hałas do 35–40 dB i wyeliminuje throttling.
Zasada: jeśli GPU planowane jest na > 8 h dziennie, liquid cooling. Zawsze.
Błąd 4 — NVMe jako dysk systemowy, ale dane na HDD
Wagi modelu 70B = 40–140 GB. Wczytanie z HDD trwa 5–10 minut. Wczytanie z NVMe (Gen 4) trwa 30 sekund.
Przy developmencie, gdy restartują Państwo serwer wielokrotnie dziennie, 9 minut × 5 = 45 minut dziennie straconego czasu. Miesięcznie ~15 godzin. NVMe 2 TB kosztuje w 2026 około 130 €. Zwrot za 2 dni pracy.
Zasada: wagi modelu MUSZĄ być na NVMe Gen 4 lub lepiej. HDD tylko do offline-backup archiwum modeli.
Błąd 5 — Single GPU, single point of failure
Dla poważnego obciążenia LLM nie dobiera się jednego GPU. Powody: - Przy awarii GPU = cały serwer leży. Zamiennik trwa dni zamówić. - Przy update firmware/drivera = cały serwer leży podczas testów. - Modele > 13B nie da się z akceptowalną prędkością hostować na pojedynczym konsumenckim GPU.
Dual GPU setup (2× RTX 4090 lub 2× A6000 przez NVLink) umożliwia: - Tensor parallelism dla większych modeli - Hot-failover przy awarii jednej karty - Continuous A/B testing różnych modeli
Cena: ~2× GPU + lepsza płyta główna z 2× PCIe 4.0 x16. Różnica ~3000–5000 €. Dla operacji, która zależy od dostępności, amortyzuje się w tygodniach.
Podsumowanie
Stacja LLM to nie „gamingowy PC z lepszym GPU". To dedykowany serwer obciążeniowy, który zasługuje na dedykowane spec — pojemność RAM przed częstotliwością, PSU z rezerwą, liquid cooling, NVMe dla danych, dual GPU dla resilience.
Jeśli budują Państwo własny stack, niech te 5 rzeczy znajdzie się w pierwszym projekcie. Jeśli dodają je Państwo później, kosztuje to dwa razy więcej.
---
*Trzymamy się tej dyscypliny przy każdym buildzie sprzętu AI, który dostarczamy. Hardware-spec list dla konkretnego use-case przejdziemy w 30 min na rozmowie — zwykle wystarczy jedno zdanie o celu (lokalna inferencja, fine-tune, lub oba) i wybieramy między 3 referencyjnymi konfiguracjami.*