Trh s jazykovými modelmi sa za posledný rok zmenil tak razantne, že starý prístup — vybrať si jeden frontier model a nechať ho robiť všetko — prestáva fungovať. Dnes máte k dispozícii open-weight modely s miliónovou kontextovou dĺžkou, cloud API s cenami blízkymi nule, lokálne nasadenie na jednom serveri aj desaťmiliardové MoE architektúry, ktoré sú menšie, ako vyzerajú. Zároveň platí, že výber modelu bez rámca je lotéria — nie kvôli kvalite modelov, ale kvôli tomu, že väčšina rozhodnutí sa robí bez jasného zadania.
Tento článok dáva konkrétny rozhodovací rámec. Štyri dimenzie — úloha, infraštruktúra, cena a súkromie — a pre každú sériu filtrov, ktoré skracujú kandidátsku listinu na dvoch alebo troch uchádzačov. Konkrétne čísla sú z overených zdrojov; kde sú čísla nejasné, povieme to priamo.
Krok 1 — Definujte, čo model robí (a čo naopak nerobí)
Pred výberom modelu je potrebné vedieť, aký typ úlohy rieši. Jazykové modely nie sú rovnako silné vo všetkých smeroch, a model, ktorý víťazí na aritmetike, môže prehrávať pri dlhých dokumentoch.
Tri základné kategórie úloh:
- Extrakcia a klasifikácia: Vyťahovanie údajov zo skenov, štítkovanie ticketov, sumarizácia. Stačia menšie modely. Latencia a throughput sú kritickejšie ako hrubá inteligencia.
- Generácia a reasoning: Písanie správ, analýza zmlúv, kódovanie, plánovanie. Tu záleží na benchmark kvalite — preferujte frontier alebo silné open-weight modely rodiny Llama, Qwen alebo Mistral.
- Dlhý kontext: Analýza rozsiahlej dokumentácie, firemného archívu, sumarizácia zápisníc. Tu sa líšia modely dramaticky — nie všetky zvládajú retrieval uprostred megabytov rovnako dobre, aj keď kontextové okno nominálne existuje.
Akonáhle poznáte typ úlohy, viete, na čo sa pozerať pri benchmarkoch: MMLU, HumanEval a GSM8K pre všeobecný reasoning a kód; IFEval pre sledovanie inštrukcií; RULER alebo needle-in-a-haystack testy pre dlhý kontext. Čítajte však benchmarky opatrne — merajú špecifické podmienky, nie produkčnú realitu. Viac o tom v článku Ako čítať LLM benchmarky.
Krok 2 — Open-weight vs cloud API: toto je skutočná os rozhodnutia
Nie „ktorý model", ale „kde beží". Toto rozhodnutie určuje 80 % ostatných parametrov.
Cloud API (Anthropic, OpenAI, Google, Mistral, DeepSeek)
Výhody: - Nulová réžia na infraštruktúru — platíte za tokeny, nie za GPU - Najvyšší výkon vo všetkých kategóriách (frontier modely vedú benchmarky) - Kontextové okná bez obmedzenia vlastného VRAM - SLA a dostupnosť rieši provider
Limity: - Vaše dáta a prompty opúšťajú vašu infraštruktúru - Ceny sú pohyblivé; pri veľkých objemoch môžu byť mesačné náklady päťciferné - Regulované odvetvia (zdravotníctvo, právo, financie) majú prísne obmedzenia na data egress
Orientačné ceny v roku 2026: frontier modely (Claude Opus, GPT-5.x) sa pohybujú rádovo v $3–25 za milión vstupných tokenov v závislosti od tier-u. DeepSeek a podobné modely čínskych rodín cez API bývajú rádovo 10–30-krát lacnejšie ako US frontier. Ceny sa za posledný rok výrazne znížili, takže staré kalkulácie neplatia.
On-prem / lokálne nasadenie (open-weight modely)
Výhody: - Dáta nevychádzajú zo siete — jediná cesta pre GDPR-citlivé alebo tajné prevádzky - Predvídateľné náklady (hardware + energia) po počiatočnej investícii - Plná kontrola nad modelom, prompt logmi, verziami
Limity:
- Jednorázová GPU investícia a IT réžia
- Horší výkon ako frontier cloud modely (rozdiel sa zužuje, ale existuje)
- Potrebujete serving vrstvu — vLLM, SGLang alebo Ollama (pre produkčný serving vylúčte Ollama, viac nižšie)
Ak sa pýtate na toto rozhodnutie systematicky, pozrite si podrobnejšiu analýzu v Lokálne LLM vs cloud. Pre regulované odvetvia platia ďalšie podmienky — on-prem eliminácia data egress nestačí na compliance bez audit logov a riadených prístupov, čo rieši On-prem LLM pre regulované odvetvia.
Krok 3 — Veľkosť modelu: nie vždy väčší je lepší
Open-weight trh v roku 2026 je plný MoE (Mixture of Experts) architektúr. Čo to znamená v praxi: model s názvom „400B parametrov" môže pri jednom inference požiadavku aktivovať len ~17 miliárd. Parameter count a aktívne parametre sú dve rôzne čísla.
Praktické dôsledky pre výber:
- MoE modely (napr. Llama 4 Maverick, Qwen 3.x MoE varianty, Mixtral, DeepSeek V3): Menší compute pri inferencii, ale na disk a VRAM musíte nahrať celý model. Veľké MoE modely majú stovky miliárd parametrov, z ktorých je pri každom tokene aktívnych len zlomok — VRAM však potrebujú na celý model. Naivný pohľad na „aktivované parametre" preto podhodnocuje HW nároky.
- Dense modely (Gemma 3, Phi-4, staršie Llama 3.x): Priamočiarejší deployment; parameter count ≈ compute. Phi-4 alebo menšie Gemma 3 modely sú excelentné pre edge deploymenty a embedded prípady.
Orientačná potreba VRAM (bez KV cache) pre bežné veľkosti:
- 7–9B model: Q4_K_M formát ≈ 5–7 GB VRAM; FP16 ≈ 16–19 GB
- 13B model: Q4_K_M ≈ 8 GB; FP16 ≈ 26 GB
- 70B model: Q4_K_M ≈ 35–40 GB; FP16 ≈ 140–168 GB
Kvantizácia (GGUF Q4_K_M, AWQ 4-bit) nie je automaticky zle — na väčšine benchmarkov sa pohybuje do 5–8 % od FP16 kvality. Výrazná degradácia nastáva až pri Q2 a nižšie. Viac o technikách a ich rozdieloch v Kvantizácia LLM (GGUF, AWQ, GPTQ).
Pre väčšinu B2B use-casov: dobre doladený 13B model prekoná generický 70B model na úzkej doméne. Pred rozhodnutím o veľkosti sa oplatí zvážiť, či je dostatok dát na fine-tuning — o tom pojednáva RAG vs fine-tuning.
Krok 4 — Latencia a throughput: kto je váš užívateľ?
Dva extrémne odlišné profily s odlišnými požiadavkami:
Interaktívny (user-facing) chat alebo copilot: Latencia je kritická. Prvý token by mal prísť do 1–2 sekúnd. Tu je relevantné TTFT (Time to First Token). Menší model, ktorý odpovedá rýchlo, je lepší ako veľký, ktorý čaká.
Dávkové spracovanie (batch): Throughput je kritický. Záleží na tokenoch za sekundu cez celú dávku. Tu sa oplatí väčší model za cenu vyššej latencie na request, lebo spracovávate desiatky tisíc dokumentov naraz.
Pre serving infraštruktúru: vLLM je produkčná voľba pre väčšinu NVIDIA deploymentov — PagedAttention znižuje fragmentáciu KV cache dramaticky (z typicky 60–80 % plytvania na pod 4 %) a continuous batching zdvihne throughput 2–3-násobne oproti statickému batchovaniu. SGLang je silnejší pri prefix-heavy workloadoch (RAG, agenti, multi-turn) — benchmarky ukazujú ~29 % vyšší throughput na H100 a ~23 % rýchlejší TTFT oproti vLLM.
Ollama je vhodný pre jedného developera na desktopu, nie pre produkčné multi-user deploymenty. Pri viacerých paralelných užívateľoch je priepustnosť výrazne nižšia ako pri vLLM.
Krok 5 — Cena: kde sa skutočne platí
Trh s cloud LLM API je dnes z hľadiska cien výrazne priaznivejší ako pred rokom. Ale stále existujú pasce.
Kontextové okno ≠ lacnejšie riešenie. 1M tokenový kontext neznamená, že posielate do neho vždy milión tokenov — platíte za každý token, ktorý pošlete. KV cache rastie lineárne s dĺžkou sekvencie. Napríklad 70B model pri 128K kontexte potrebuje ~40 GB KV cache samotne; pre štyri paralelné požiadavky pri 128K to je ~160 GB navyše nad samotný model. Kontextové okno je kapacita, nie konštanta.
Prompt caching je dôležitý nástroj na znižovanie nákladov pri opakujúcich sa systémových promptoch. Orientačne: pri dobrom workloade ušetríte 50–70 % nákladov na vstupné tokeny. Ale cache write tokeny sú na niektorých platformách 1,25–2-krát drahšie ako bežné — úspora nastáva až pri opakovanom čítaní rovnakého prefixu. Workloady s unikátnymi dlhými promptami nemajú z cacheovania benefit. Viac v Prompt caching a cost.
Routing (volanie lacného modelu pre jednoduché otázky, drahého len pre zložité) môže pri dobre nakalibrovanom nastavení zachovať 95 % kvality pri zlomku nákladov. Výskum z Berkeley ukázal, že pri správnom routeri ide 75–90 % volaní na menší model. Toto je ľahko implementovateľné, ale vyžaduje baseline evals — bez merania neviete, kde je hranica.
Krok 6 — Licencie a podmienky použitia
Toto sa zanedbáva, kým to nie je problém.
Open-weight modely nie sú automaticky voľné na akékoľvek použitie:
- Llama 4 (Meta): Meta custom licencia. Obmedzenie pri deploymentoch s viac ako 700 miliónmi mesačných aktívnych užívateľov. Pre väčšinu B2B firemných deploymentov nie je obmedzenie relevantné, ale je potrebné si ju prečítať.
- Qwen 3.x: Apache 2.0 — komerčné použitie, modifikácia, distribúcia bez poplatkov. Mistral: menšie modely (napr. Mistral Small) sú Apache 2.0, väčšie (Mistral Large) majú vlastnú Mistral licenciu — pri konkrétnom modeli si ju overte.
- DeepSeek V3: MIT licencia — maximálna sloboda vrátane fine-tuningu a ďalšej distribúcie.
- Gemma 3 (Google): vlastná Gemma licencia — povoľuje komerčné použitie, no nie je to OSI-schválená open-source licencia. Pozorne si prečítajte podmienky.
- Phi-4 (Microsoft): MIT.
Pre closed-weight cloud API (Claude, GPT-5.x, Gemini) sú podmienky dané SLA a terms of service — pozor na data retention policy a opt-out z tréningových dát.
Regulované odvetvia by mali mať DPA (Data Processing Agreement) podpísaný pred prvým produkčným volaním.
Krok 7 — Kontextové okno: kedy 1M pomôže a kedy nie
Takmer každý vlajkový model v roku 2026 má kontextové okno minimálne 128K tokenov. Llama 4 Scout má až 10M. Claude (vyššie tiery), Gemini 2.5 a Llama 4 Maverick ponúkajú 1M; DeepSeek V3 má 128K.
Otázka nie je „ktorý má väčší kontext", ale „potrebujem ho?".
Výskum ukazuje, že modely s rastúcim kontextom vykazujú „context rot" — presnosť retrievalu klesá, keď je relevantný obsah obklopený množstvom irelevantného textu. To platí najmä pri multi-hop otázkach, kde je potrebné skombinovať informácie z rôznych miest dokumentu.
Praktické pravidlo: Ak váš use-case zahŕňa dlhé dokumenty (zmluvy, technické manuály, archívy), ale dotazy sú cieleného charakteru, RAG bude ekonomickejší a presnejší ako priame dávanie celého dokumentu do kontextu. Dlhý kontext má zmysel tam, kde naozaj potrebujete, aby model čítal celý dokument naraz — generácia abstraktu z 200-stránkovej správy, analýza kódovej bázy.
Praktický rozhodovací strom
Tento postup vám v praxi zúži pole na dvoch až troch uchádzačov:
- 1.Môžu dáta opustiť vašu sieť? → Nie: open-weight + lokálny serving. Áno: pokračujte.
- 2.Je throughput alebo latencia kritická a spotreba veľká? → Áno: zvážte lokálny serving. Nie: cloud API.
- 3.Aká je úloha? → Jednoduchá extrakcia/klasifikácia: menší model (7–13B alebo lacné API). Komplexný reasoning: frontier alebo silný 70B+.
- 4.Máte špecifickú doménu s dostatkom dát? → Zvážte fine-tuning menšieho modelu pred nákupom väčšieho.
- 5.Aká je licencia? → Filtrujte podľa Apache 2.0 / MIT pre produkčné komerčné deploymenty bez právnej réžie.
Časté otázky
Ktorý open-weight model je dnes najlepší?
Neexistuje jeden správny. V roku 2026 sú pri rôznych benchmarkoch na čele modely ako Llama 4 Maverick, Qwen 3.x, DeepSeek a Mistral Large — závisí od úlohy. Pre kód a reasoning sú silné modely z Qwen rodiny, pre dlhý kontext vyniká Llama 4 Scout (10M kontextové okno). Vždy testujte na vlastných dátach, nie len na verejných benchmarkoch.
Je DeepSeek spoľahlivý na európske nasadenie?
DeepSeek ponúka otvorené váhy s MIT licenciou — model môžete stiahnuť a prevádzkovať lokálne, bez akéhokoľvek volania na čínske servery. Z pohľadu GDPR je lokálne nasadenie DeepSeek rovnako „čisté" ako Llama alebo Mistral. API cloudová verzia cez DeepSeek servery je iná otázka — tu platia rovnaké data egress úvahy ako pri US provideroch.
Čo je MoE a musím sa tým zaoberať pri výbere?
MoE (Mixture of Experts) je architektúra, kde model aktivuje len časť parametrov pri každom tokene. Praktický dôsledok: nižší compute pri inferencii, ale vyšší celkový VRAM footprint. Ak nasadzujete lokálne, musíte nahrať celý model do pamäte, aj keď sa pri každom tokene použije len zlomok. Pre cloud API vás tento detail nezaujíma — platíte za aktívne parametre.
Oplatí sa fine-tuning namiesto väčšieho modelu?
V mnohých prípadoch áno — ale len ak máte dostatok kvalitných dát a jasne definovanú doménu. Dobre doladený 13B model môže prekonať generický 70B na úzkej priemyselnej úlohe. Ak nemáte dostatok dát (pre SFT potrebujete rádovo tisíce kvalitných príkladov), fine-tuning skôr ublíži ako pomôže. O rozhodovaní medzi RAG a fine-tuningom píšeme v RAG vs fine-tuning.
Ako zistiť, či som vybral správne?
Správny výber sa overuje evaluáciami na vlastných dátach a use-caseoch — nie len porovnaním benchmarkov. Definujte 50–100 testovacích prípadov s očakávaným výstupom, spustite na kandidátoch, porovnajte. Tento proces opisujeme podrobne v Ako zmerať kvalitu LLM aplikácie.
*V MP Industrial Solutions pomáhame firmám prejsť výberom modelu štruktúrovane — od mapovania use-casov cez testovanie kandidátov až po produkčné nasadenie na vlastnej infraštruktúre. Ak riešite toto rozhodnutie a chcete sa vyhnúť predraženým slepým uličkám, radi sa porozprávame.*
