Lokálne LLM vs cloud — kedy ktorá voľba a prečo

Klient sa pýta: „Ktorý model je najlepší pre náš use-case?" Toto nie je užitočná otázka. Najlepší model na vašu úlohu sa volá podľa toho, čo ešte uniesie pre vás okrem prísneho výkonu — kde beží, kto pristupuje k logu, koľko stojí prevádzka.

Tri otázky pred ktorýmkoľvek modelom

1. Smie vaše prompty (a teda vaše dáta) opustiť vlastnú infraštruktúru?

Toto je technologicko-právna otázka. Tri možnosti:

Áno, hocikam. Tu pomáha Anthropic Claude, OpenAI GPT, Google Gemini, Mistral. Najnižšia operatívna réžia, najvyšší výkon vo všetkých benchmarkoch.
Áno, ale len v EÚ. Tu pomáha lokalizovaný cloud (Azure OpenAI EU region, Anthropic Sovereign EU, OVH AI Endpoints). Mierne vyššia latencia, mierne nižšia rýchlosť feature releasov, vyšší cenovník.
Nie. Lokálne nasadenie. vLLM / SGLang / llama.cpp na vlastnom hardvéri. Jednorázová investícia do GPU, prevádzka v elektrickej energii.

Tretia voľba vyzerá najmenej pohodlne. V regulovaných odvetviach (právo, zdravotníctvo, financie) býva to jediná, ktorá vám zaplatí compliance audit.

2. Aká je očakávaná denná spotreba (tokeny + požiadavky)?

Cloud sa stane drahým, keď požiadavky bežia kontinuálne. Cena pre cloud LLM je $5–25 za milión tokenov; ak váš systém zpracováva 200 miliónov tokenov denne (rozhodne nie nemožné), to je $1 000–5 000 denne. Mesačne $30k–150k.

Lokálne nasadenie (Llama 3.1 70B AWQ na 2× RTX A6000): jednorázový hardvér ~$15k, mesačná spotreba ~$200, údržba ~$500 mesačne. Návratnosť sa počíta v týždňoch, nie v rokoch.

Naopak — ak je váš use-case sporadický (50 dotazov denne, peak 500 cez týždeň), cloud sa nikdy nevráti. Lokálny server bude bežať na 1 % využití a zbytočne sa amortizovať.

3. Aký je maximálny prípustný latencia odpovede?

< 1 s na prvé tokeny? Lokálne s warm cache alebo cloud blízko endpointu (cloud sa nikdy nepriblíži k vlastnému GPU s prompt-cache hitom).
1–3 s? Buď.
> 3 s? Cloud bez zmeny.

Kedy lokálne (jednoznačne)

Dáta majú compliance reguláciu (MiCA, GDPR clanok 9, HIPAA, ISO 27001 s explicit data residency).
Denná spotreba > 50 mil. tokenov / deň, stabilná predpokladaná záťaž.
Existujúce dáta sa NESMÚ posielať poskytovateľovi modelu, aj keď ten tvrdí, že ich nepoužije na tréning. Politický riziko vs. operatívna pohodlnosť — záleží na bunke v zmluve, nie na PR oznámení.
Domain-specific fine-tune potrebujete nakoniec rozdistribuovať — pri lokálnom modeli to znamená skopírovať súbor, pri cloud-hosted custom modeli to znamená vendor-lock.

Kedy cloud (jednoznačne)

Sporadické používanie, denné objemy < 10 mil. tokenov, žiadna regulácia.
Potrebujete najnovšie schopnosti (Claude Opus 4.5, GPT-5, Gemini Ultra 2 sa nedajú lokálne zreplikovať — a kým sa otvorené modely dotiahnu, máte 6–12 mesiacov pozadu).
Tím nemá kapacitu na MLOps / vyhradeného AI engineer-a; cloud predáva pre niečo aj toto.

Kedy hybridne

Najčastejší reálny scenár. Lokálny model pre 80 % požiadaviek (rutinné, citlivé na compliance). Cloud pre 20 % (komplexné, kde lokálny model nestačí, a kde dáta sú menej citlivé). Smerovač pred oboma rozhoduje per-request, kam pošle.

Toto vyžaduje: - Smerovač s rule-based + LLM-as-router pre rozhodovanie kam smerovať - Audit log per-request kam šiel, aj prečo - Failover (ak cloud zlyhá, lokálny model preberá — ale ak je požiadavka kvalitatívne nad lokálny, smerovať na inú cloud route)

Náklad ktorý nikto neuvádza v decku

Cena LLM prevádzky nie je len cena tokenov. Je to: - Cena prompt-engineering rounds. Niekto musí ladiť prompts na model — a model sa občas mení (cloud upgrade), prompts treba ladiť znova. - Cena fine-tune keď vlastné prompts nestačia. Lokálne $200–2000 za training run; cloud-hosted ~$10k+ za vendor-specific fine-tune. - Cena eval set + regresné testy. Pri každom upgrade modelu sa môžu zmeniť odpovede na 5–15 % otázok. Niekto musí mať eval set s 200+ otázkami, ktorý odhalí drift. - Cena incident response keď vendor zníži kapacitu (znížený rate limit, zvýšená latencia) bez ohlásenia. Lokálny model túto kategóriu rizík eliminuje úplne.

Reálny benchmark: po 18 mesiacoch prevádzky AI systému s 5 inžiniermi je TCO lokálneho hybridného nasadenia o ~40 % nižšie ako čistého cloud-only nasadenia rovnakého výkonu.

Aký je náš default

Pre malých klientov (< 5 mil. tokenov/deň, nizka regulácia) — cloud cez OpenAI / Anthropic API priamo. Lacné, rýchle, žiadny MLOps.

Pre stredných (5–100 mil. tokenov/deň, jednoduchá compliance) — hybrid. vLLM lokálne pre základ, cloud fallback pre okrajové prípady.

Pre veľkých (> 100 mil. tokenov/deň, regulovaný sektor) — plné lokálne. SGLang alebo vLLM + 2–4× GPU server, fine-tune cez Unsloth, monitoring cez Trackio.

Toto nie je univerzálny vzorec. Je to štartovací bod. Reálna voľba prejde cez dáta, regulácie a tým, ktorý už máte.

---

*Píšeme to ako technický partner, nie ako predajca konkrétneho stacku. Ak vás zaujíma konkrétny use-case, prejdeme čísla na 30-minútovom hovore.*

Tri otázky pred ktorýmkoľvek modelom

1. Smie vaše prompty (a teda vaše dáta) opustiť vlastnú infraštruktúru?

Toto je technologicko-právna otázka. Tri možnosti:

Áno, hocikam. Tu pomáha Anthropic Claude, OpenAI GPT, Google Gemini, Mistral. Najnižšia operatívna réžia, najvyšší výkon vo všetkých benchmarkoch.
Áno, ale len v EÚ. Tu pomáha lokalizovaný cloud (Azure OpenAI EU region, Anthropic Sovereign EU, OVH AI Endpoints). Mierne vyššia latencia, mierne nižšia rýchlosť feature releasov, vyšší cenovník.
Nie. Lokálne nasadenie. vLLM / SGLang / llama.cpp na vlastnom hardvéri. Jednorázová investícia do GPU, prevádzka v elektrickej energii.

Tretia voľba vyzerá najmenej pohodlne. V regulovaných odvetviach (právo, zdravotníctvo, financie) býva to jediná, ktorá vám zaplatí compliance audit.

2. Aká je očakávaná denná spotreba (tokeny + požiadavky)?

Lokálne nasadenie (Llama 3.1 70B AWQ na 2× RTX A6000): jednorázový hardvér ~$15k, mesačná spotreba ~$200, údržba ~$500 mesačne. Návratnosť sa počíta v týždňoch, nie v rokoch.

Naopak — ak je váš use-case sporadický (50 dotazov denne, peak 500 cez týždeň), cloud sa nikdy nevráti. Lokálny server bude bežať na 1 % využití a zbytočne sa amortizovať.

3. Aký je maximálny prípustný latencia odpovede?

< 1 s na prvé tokeny? Lokálne s warm cache alebo cloud blízko endpointu (cloud sa nikdy nepriblíži k vlastnému GPU s prompt-cache hitom).
1–3 s? Buď.
> 3 s? Cloud bez zmeny.

Kedy lokálne (jednoznačne)

Dáta majú compliance reguláciu (MiCA, GDPR clanok 9, HIPAA, ISO 27001 s explicit data residency).
Denná spotreba > 50 mil. tokenov / deň, stabilná predpokladaná záťaž.
Existujúce dáta sa NESMÚ posielať poskytovateľovi modelu, aj keď ten tvrdí, že ich nepoužije na tréning. Politický riziko vs. operatívna pohodlnosť — záleží na bunke v zmluve, nie na PR oznámení.
Domain-specific fine-tune potrebujete nakoniec rozdistribuovať — pri lokálnom modeli to znamená skopírovať súbor, pri cloud-hosted custom modeli to znamená vendor-lock.

Kedy cloud (jednoznačne)

Sporadické používanie, denné objemy < 10 mil. tokenov, žiadna regulácia.
Potrebujete najnovšie schopnosti (Claude Opus 4.5, GPT-5, Gemini Ultra 2 sa nedajú lokálne zreplikovať — a kým sa otvorené modely dotiahnu, máte 6–12 mesiacov pozadu).
Tím nemá kapacitu na MLOps / vyhradeného AI engineer-a; cloud predáva pre niečo aj toto.

Kedy hybridne

Náklad ktorý nikto neuvádza v decku

Reálny benchmark: po 18 mesiacoch prevádzky AI systému s 5 inžiniermi je TCO lokálneho hybridného nasadenia o ~40 % nižšie ako čistého cloud-only nasadenia rovnakého výkonu.

Aký je náš default

Pre malých klientov (< 5 mil. tokenov/deň, nizka regulácia) — cloud cez OpenAI / Anthropic API priamo. Lacné, rýchle, žiadny MLOps.

Pre stredných (5–100 mil. tokenov/deň, jednoduchá compliance) — hybrid. vLLM lokálne pre základ, cloud fallback pre okrajové prípady.

Pre veľkých (> 100 mil. tokenov/deň, regulovaný sektor) — plné lokálne. SGLang alebo vLLM + 2–4× GPU server, fine-tune cez Unsloth, monitoring cez Trackio.

Toto nie je univerzálny vzorec. Je to štartovací bod. Reálna voľba prejde cez dáta, regulácie a tým, ktorý už máte.

---

*Píšeme to ako technický partner, nie ako predajca konkrétneho stacku. Ak vás zaujíma konkrétny use-case, prejdeme čísla na 30-minútovom hovore.*

Šesť pilierov,jedna dodávka.

Priemysel & strojárstvo

Elektroinštalácie & energetika

Automatizácia & riadenie

Datacentrá & IT infraštruktúra

AI, software & cloud

Inteligentné budovy & domácnosti

Lokálne LLM vs cloud — kedy ktorá voľba a prečo

Tri otázky pred ktorýmkoľvek modelom

1. Smie vaše prompty (a teda vaše dáta) opustiť vlastnú infraštruktúru?

2. Aká je očakávaná denná spotreba (tokeny + požiadavky)?

3. Aký je maximálny prípustný latencia odpovede?

Kedy lokálne (jednoznačne)

Kedy cloud (jednoznačne)

Kedy hybridne

Náklad ktorý nikto neuvádza v decku

Aký je náš default

Lokálne LLM vs cloud — kedy ktorá voľba a prečo

Tri otázky pred ktorýmkoľvek modelom

1. Smie vaše prompty (a teda vaše dáta) opustiť vlastnú infraštruktúru?

2. Aká je očakávaná denná spotreba (tokeny + požiadavky)?

3. Aký je maximálny prípustný latencia odpovede?

Kedy lokálne (jednoznačne)

Kedy cloud (jednoznačne)

Kedy hybridne

Náklad ktorý nikto neuvádza v decku

Aký je náš default