Klient sa pýta: „Ktorý model je najlepší pre náš use-case?" Toto nie je užitočná otázka. Najlepší model na vašu úlohu sa volá podľa toho, čo ešte uniesie pre vás okrem prísneho výkonu — kde beží, kto pristupuje k logu, koľko stojí prevádzka.
Tri otázky pred ktorýmkoľvek modelom
1. Smie vaše prompty (a teda vaše dáta) opustiť vlastnú infraštruktúru?
Toto je technologicko-právna otázka. Tri možnosti:
- **Áno, hocikam.** Tu pomáha Anthropic Claude, OpenAI GPT, Google Gemini, Mistral. Najnižšia operatívna réžia, najvyšší výkon vo všetkých benchmarkoch.
- **Áno, ale len v EÚ.** Tu pomáha lokalizovaný cloud (Azure OpenAI EU region, Anthropic Sovereign EU, OVH AI Endpoints). Mierne vyššia latencia, mierne nižšia rýchlosť feature releasov, vyšší cenovník.
- **Nie.** Lokálne nasadenie. vLLM / SGLang / llama.cpp na vlastnom hardvéri. Jednorázová investícia do GPU, prevádzka v elektrickej energii.
Tretia voľba vyzerá najmenej pohodlne. V regulovaných odvetviach (právo, zdravotníctvo, financie) býva to jediná, ktorá vám zaplatí compliance audit.
2. Aká je očakávaná denná spotreba (tokeny + požiadavky)?
Cloud sa stane drahým, keď požiadavky bežia kontinuálne. Cena pre cloud LLM je $5–25 za milión tokenov; ak váš systém zpracováva 200 miliónov tokenov denne (rozhodne nie nemožné), to je $1 000–5 000 denne. Mesačne $30k–150k.
Lokálne nasadenie (Llama 3.1 70B AWQ na 2× RTX A6000): jednorázový hardvér ~$15k, mesačná spotreba ~$200, údržba ~$500 mesačne. Návratnosť sa počíta v týždňoch, nie v rokoch.
Naopak — ak je váš use-case sporadický (50 dotazov denne, peak 500 cez týždeň), cloud sa nikdy nevráti. Lokálny server bude bežať na 1 % využití a zbytočne sa amortizovať.
3. Aký je maximálny prípustný latencia odpovede?
- < 1 s na prvé tokeny? **Lokálne s warm cache** alebo cloud blízko endpointu (cloud sa nikdy nepriblíži k vlastnému GPU s prompt-cache hitom).
- 1–3 s? Buď.
- > 3 s? Cloud bez zmeny.
Kedy lokálne (jednoznačne)
- Dáta majú compliance reguláciu (MiCA, GDPR clanok 9, HIPAA, ISO 27001 s explicit data residency).
- Denná spotreba > 50 mil. tokenov / deň, stabilná predpokladaná záťaž.
- Existujúce dáta sa NESMÚ posielať poskytovateľovi modelu, aj keď ten tvrdí, že ich nepoužije na tréning. Politický riziko vs. operatívna pohodlnosť — záleží na bunke v zmluve, nie na PR oznámení.
- Domain-specific fine-tune potrebujete nakoniec rozdistribuovať — pri lokálnom modeli to znamená skopírovať súbor, pri cloud-hosted custom modeli to znamená vendor-lock.
Kedy cloud (jednoznačne)
- Sporadické používanie, denné objemy < 10 mil. tokenov, žiadna regulácia.
- Potrebujete najnovšie schopnosti (Claude Opus 4.5, GPT-5, Gemini Ultra 2 sa nedajú lokálne zreplikovať — a kým sa otvorené modely dotiahnu, máte 6–12 mesiacov pozadu).
- Tím nemá kapacitu na MLOps / vyhradeného AI engineer-a; cloud predáva pre niečo aj toto.
Kedy hybridne
Najčastejší reálny scenár. Lokálny model pre 80 % požiadaviek (rutinné, citlivé na compliance). Cloud pre 20 % (komplexné, kde lokálny model nestačí, a kde dáta sú menej citlivé). Smerovač pred oboma rozhoduje per-request, kam pošle.
Toto vyžaduje: - Smerovač s rule-based + LLM-as-router pre rozhodovanie kam smerovať - Audit log per-request kam šiel, aj prečo - Failover (ak cloud zlyhá, lokálny model preberá — ale ak je požiadavka kvalitatívne nad lokálny, smerovať na inú cloud route)
Náklad ktorý nikto neuvádza v decku
Cena LLM prevádzky nie je len cena tokenov. Je to: - Cena `prompt-engineering` rounds. Niekto musí ladiť prompts na model — a model sa občas mení (cloud upgrade), prompts treba ladiť znova. - Cena `fine-tune` keď vlastné prompts nestačia. Lokálne $200–2000 za training run; cloud-hosted ~$10k+ za vendor-specific fine-tune. - Cena `eval set + regresné testy`. Pri každom upgrade modelu sa môžu zmeniť odpovede na 5–15 % otázok. Niekto musí mať eval set s 200+ otázkami, ktorý odhalí drift. - Cena `incident response` keď vendor zníži kapacitu (znížený rate limit, zvýšená latencia) bez ohlásenia. Lokálny model túto kategóriu rizík eliminuje úplne.
Reálny benchmark: po 18 mesiacoch prevádzky AI systému s 5 inžiniermi je TCO lokálneho hybridného nasadenia o ~40 % nižšie ako čistého cloud-only nasadenia rovnakého výkonu.
Aký je náš default
Pre malých klientov (< 5 mil. tokenov/deň, nizka regulácia) — cloud cez OpenAI / Anthropic API priamo. Lacné, rýchle, žiadny MLOps.
Pre stredných (5–100 mil. tokenov/deň, jednoduchá compliance) — hybrid. vLLM lokálne pre základ, cloud fallback pre okrajové prípady.
Pre veľkých (> 100 mil. tokenov/deň, regulovaný sektor) — plné lokálne. SGLang alebo vLLM + 2–4× GPU server, fine-tune cez Unsloth, monitoring cez Trackio.
Toto nie je univerzálny vzorec. Je to štartovací bod. Reálna voľba prejde cez dáta, regulácie a tým, ktorý už máte.
---
*Píšeme to ako technický partner, nie ako predajca konkrétneho stacku. Ak vás zaujíma konkrétny use-case, prejdeme čísla na 30-minútovom hovore.*