Malý fine-tuned model vs veľký base: kedy 8B zbije 70B

Výrobný riaditeľ sa pýta: „Máme platiť za volania na veľký cloudový model, alebo si natrénovať vlastný menší?" Je to správna otázka — a odpoveď nie je automaticky „väčší je lepší". V praxi vidíme, že fine-tuned 7–8B model na úzkej doméne pravidelne predstihne generický 70B model na tých istých úlohách, pričom beží na jednej GPU vo vlastnej sieťovej infraštruktúre.

Tento článok rozkladá rozhodnutie na konkrétne kritériá: kedy sa malý špecializovaný model oplatí, kedy veľký base model nevyhnutne vyhráva a ako trade-off vyzerá z pohľadu nákladov, latencie a operačnej zložitosti.

Prečo malý fine-tuned model vôbec funguje

Veľký generický model drží znalosti z miliárd dokumentov — vie o medicíne, práve, literatúre, varíte receptoch aj fyzike. Tá šírka je jeho silou pri otvorených otázkach, ale zároveň slabinou pri úzkych opakovateľných úlohách.

Keď model fine-tunujete na konkrétnej doméne, nemeníte jeho váhy náhodne — meníte rozloženie pravdepodobností tak, aby sa správal ako odborník v danom odbore. Fine-tuned 8B model sa pri klasifikácii poruchových hlásení z výrobnej linky nestráca v oceáne všeobecného jazyka. Každý token generuje sústredene v rámci naučeného distribúcie. Výsledok: vyššia presnosť na danej úlohe, menšia variabilita, predvídateľný formát odpovede.

Výskum to potvrdzuje. Modely rodiny DeepSeek-R1 vo veľkosti 1,5B–8B, trénované dištiláciou z väčšieho teacher modelu, preukázali na konkrétnych reasoning benchmarkoch výsledky blízke oveľa väčším základným modelom. LIMA výskum ukázal, že 1 000 vysokokvalitných tréningových príkladov môže produkovať lepšie výsledky ako 100 000 nízkokvalitatívnych. Závislosť nie je len na veľkosti — závisí na zhode medzi tréningovými dátami a produkčnou úlohou.

Kedy malý fine-tuned model vyhráva

Úzka a dobre definovaná doména. Ak máte opakujúce sa úlohy — extrakcia štruktúrovaných dát z PDF dokumentácie, klasifikácia chybových hlásení, generovanie technických popisov podľa šablóny — fine-tuned 8B model bude na týchto úlohách konzistentnejší ako generický 70B. Hranica je jednoduchá: čím menšia je doména, tým väčšia je relatívna výhoda špecializácie.

On-prem alebo air-gapped prostredie. Regulované odvetvia (výroba s citlivou dokumentáciou, zdravotníctvo, právne kancelárie), interné dáta, ktoré nesmú opustiť sieť — tu je cloud model vylúčený bez ohľadu na kvalitu. Fine-tuned 8B model sa zmestí na bežnú pracovnú GPU: RTX 4090 s 24 GB VRAM zvládne QLoRA tréning 8B modelu a neskôr ho aj servovať v produkcii. Pre lokálne nasadenie LLM bez závislosti na cloude je veľkosť modelu priamo určujúca pre hardvérové náklady.

Latencia a throughput. Inference cez API veľkého cloudového modelu pridáva sieťovú latenciu aj variabilitu — pri špičkách môžu odpovede trvať niekoľko sekúnd. Vlastný 8B model nasadený cez vLLM na lokálnom serveri generuje odpovede rádovo rýchlejšie pri deterministickej latencii. Pre real-time integrácie do výrobných systémov alebo operátorských rozhraní je to kritická vlastnosť. Viac o výbere serving stacku — vLLM vs SGLang vs Ollama.

Náklady pri vysokom objeme volaní. Cloudové API účtujú per token. Pri tisícoch volaní denne sa to sčíta. Fine-tuned lokálny model má jednorazový tréningový náklad a potom fixný prevádzkový náklad servera. Na A100 GPU z lacnejšieho cloud providera vás tréning 8B modelu na 10 000 príkladoch vyjde rádovo v desiatich až tridsiatich dolároch za jeden beh. Po nasadení na vlastnom hardvéri sú ďalšie volania bez dodatočných nákladov.

Predvídateľný formát výstupu. Fine-tuning na SFT dátach (supervised fine-tuning — dohliadané dotrénovanje) naučí model vždy vracať výstup v požadovanom formáte: konkrétne JSON schémy, štruktúrované správy, normalizované polia. Generický veľký model formát dodržuje len s dobrým prompt engineeringom — a aj tak sa občas odchýli. Fine-tuned model to má internalizované.

Kedy veľký base model nevyhnutne vyhráva

Široká doména a variabilné úlohy. Ak systém musí odpovedať na nepredvídateľné otázky naprieč rôznymi oblasťami — zákaznícka podpora pokrývajúca techniku, obchod aj HR — fine-tuned 8B model bude za hranicou svojej kompetentnosti. Malý model trénovaný na technickej dokumentácii sa bude plaviť pri otázkach o obchodných podmienkach.

Reasoning a komplexná analýza. Frontier modely (Claude Opus, GPT triedy) majú výrazne lepší reasoning pri viacstupňových problémoch, dedukciách z protichodných informácií, nových scenároch bez jasného vzoru. Pre strategické rozhodovanie, právnu analýzu, medicínsku diferenciálnu diagnostiku — tam sa škála parametrov prejaví. Fine-tuned 8B model sa naučí vzory z tréningových dát, ale mimo nich je menej robustný.

Rýchle experimentovanie bez tréningových dát. Nová doména, nová firma, nový pilot — a ešte nemáte dostatok kvalitných dát na fine-tuning. Generický veľký model s dobrým system promptom vás dostane k funkčnému prototypu za hodiny. Fine-tuning vyžaduje minimálne tisíce kvalitných príkladov — bez toho produkuje model, ktorý vyzerá spoľahlivo, no zlyháva všade tam, kde mu chýba pokrytie témy.

Multimodálne a emergentné schopnosti. Schopnosti, ktoré veľké modely „objavili" škálovaním — komplexné analogie, generalizácia na radikálne nové situácie, práca s obrázkami a kódom v kombinácii — sú veľmi ťažko prenesiteľné dištiláciou do malého modelu bez obrovských tréningových dát. Ak projekt závisí na týchto schopnostiach, malý model vás sklamí.

Kedy cost delta nevyhrá. Ak máte nízky objem volaní (stovky za deň, nie tisíce), náklady na cloud API nebudú dramatické. Pridaná operačná zložitosť vlastného serving infraštruktúry — monitoring, updates, fallback, bezpečnosť — môže prevážiť nad úsporou.

Kvantifikácia: čo strácate pri prechode dole

Rozhodnutie si žiada konkrétne čísla, nie len smer. Niekoľko overených rozsahov:

LoRA vs plné fine-tuning: LoRA (low-rank adaptation — adaptácia cez nízkohodnostné matice) dosahuje ~90–95 % kvality plného fine-tuningu pri 10–20× nižšej pamäťovej náročnosti. Pre väčšinu doménových use casov je to dostatočné.
QLoRA vs LoRA: 4-bitová kvantilácia počas tréningu (QLoRA) pridáva ďalšiu degradáciu — typicky ~80–90 % kvality plného fine-tuningu. Kompromis: 8B model v QLoRA trénujete na GPU s ~5 GB VRAM namiesto ~15 GB.
GGUF kvantizácia pri inferencii: GGUF Q4 formát stráca typicky ~1–3 % na benchmarkoch oproti FP16 pri inference. Pre produkčné nasadenie na spotrebiteľskom hardvéri je to prijateľné.
Fine-tuned 8B vs generický 70B: Na úzko definovanej doméne vidíme, že špecializovaný 8B model môže dosiahnuť porovnateľné alebo lepšie výsledky ako generický 70B. Závisí to absolútne od presnosti vymedzenia domény a kvality tréningových dát.

Tieto čísla sú smerodajné, nie absolútne — každý dataset a doména produkuje iné výsledky. Preto je evaluácia fine-tuneného modelu na vlastných dátach nevyhnutnou súčasťou procesu, nie voliteľným krokom.

Praktický rozhodovací rámec

Pred tým, než sa zaviažete k fine-tuningu, odpovedzte na štyri otázky:

1. Vieme presne definovať doménu a úlohu? Ak nie — ak očakávate, že systém bude robustný voči nepredvídateľným vstupom — fine-tuning na 8B modeli neprinesie konzistentné výsledky. Začnite s veľkým modelom a dobrým RAG.

2. Máme dostatok kvalitných tréningových dát? SFT (supervised fine-tuning — dohliadané dotrénovanie) vyžaduje minimálne tisíce vysokokvalitných príkladov pre funkčné výsledky. Menej dát produkuje model, ktorý vyzerá správne, ale v praxi halucinuje v rohových prípadoch. Príprava datasetu na fine-tuning je kritický krok — pred trénovaním, nie po ňom.

3. Aké sú reálne požiadavky na latenciu a objem? Ak potrebujete sub-sekundové odpovede pri stovkách simultánnych požiadaviek, lokálny serving fine-tuneného modelu cez vLLM bude lepší ako cloudové API. Ak postačuje latencia 2–5 sekúnd a objem je nízky, cloud model je jednoduchší.

4. Aké sú regulačné a dátové obmedzenia? Ak dáta nesmú opustiť sieť — koniec diskusie, on-prem je jediná možnosť. Veľkosť modelu sa potom volí podľa dostupného hardvéru.

Keď všetky štyri odpovedajú v prospech fine-tuningu, typický postup: base model (napr. Qwen 3 8B alebo iný open-weight model vhodnej veľkosti) → SFT na doménových dátach → evaluácia na testovacej sade → kvantizácia GGUF pre serving → produkčný deployment. Celý cyklus sa dá urobiť za 2–3 týždne pri dobre pripravených dátach.

Hybridný prístup: keď ani jedno ani druhé nestačí samo

V praxi vidíme aj tretiu cestu: malý lokálny fine-tuned model na rutinné úlohy s fallback na väčší cloudový model pri nízko-istotných odpovediach. Tento vzor — LLM routing alebo cascading — kombinuje latenciové a nákladové výhody malého modelu s robustnosťou veľkého pre výnimočné prípady.

Implementácia vyžaduje confidence scoring na výstupe malého modelu a smerovaciu logiku. Nie je trivialná, ale pri správnom nastavení výrazne znižuje priemerné náklady bez straty kvality pre edge case úlohy. Detailnejší pohľad na architektúry smerovania LLM volaní prináša článok o LLM routingu a cascadingu.

Čo sa pri fine-tuningu nevyhnutne stráca

Poctivé rozhodnutie musí zahrnúť aj riziká. Katastrofické zabudnutie (catastrophic forgetting) je reálny jav — fine-tuning na úzkych dátach môže degradovať generálne schopnosti modelu. Model, ktorý ste vytrénovali na výrobnej dokumentácii, môže byť slabší pri všeobecnom jazykovom chápaní. PEFT metódy ako LoRA tento efekt zmierňujú, ale neodstraňujú.

Fine-tuning tiež nenaučí model nové fakty spoľahlivo. Mení štýl, formát a distribúciu správania — nie faktickú znalosť. Ak potrebujete model s aktuálnymi dátami o produktoch, cenách alebo predpisoch, RAG (Retrieval-Augmented Generation — generovanie s vyhľadávaním) je lepší nástroj ako fine-tuning. Pre väčšinu produkčných systémov sú tieto dve metódy komplementárne, nie konkurenčné — porovnanie prístupov detailne rozoberá článok o výbere RAG vs fine-tuning.

A napokon: maintenance. Fine-tuned model treba pri zmene domény znovu trénovať. Base model od providera sa aktualizuje automaticky — váš špecializovaný model nie. Do celkových nákladov vždy zahrňte opakovanie tréningového cyklu pri zmene dát.

Časté otázky

Koľko tréningových príkladov potrebujem na fine-tuning 8B modelu?

Pre SFT (supervised fine-tuning) sú funkčné výsledky možné od ~1 000 vysoko kvalitných príkladov, ale produkčné systémy s konzistentnou kvalitou typicky vyžadujú 10 000–100 000 párov. Kľúčový faktor je kvalita a pokrytie domény, nie surový počet. 500 primerane dobrých príkladov predbehne 5 000 šumivých.

Môžem fine-tuned 8B model nasadiť na bežnom firemnom serveri bez špeciálnej GPU?

Pre inferenciu áno — GGUF Q4 kvantizácia 8B modelu beží aj na CPU, hoci pomalšie (typicky 10–30 tokenov za sekundu na modernom serveri). Pre produkčné nasadenie s prijateľnou latenciou odporúčame aspoň GPU s 8–12 GB VRAM. Na serving vo vyššom objeme je vLLM s dedikovanou GPU štandardné riešenie.

Je lepší fine-tuned Qwen 3 8B alebo iný open-weight model pre B2B doménu?

Závisí od konkrétnej domény a jazykových požiadaviek. Qwen 3 8B má Apache 2.0 licenciu a dobré výsledky na viacjazyčných dátach vrátane európskych jazykov. Phi-4 (3.8B–14B) je silnou voľbou pre doménové úlohy na obmedzenom hardvéri. Pred rozhodnutím odporúčame rýchly benchmark na vašich vlastných dátach — benchmark na verejných setoch nevypovedá dosť o vašej konkrétnej distribúcii.

Oplatí sa fine-tuning ak máme iba pár stoviek firemných dokumentov?

Pravdepodobne nie pre priamy SFT. S pár stovkami dokumentov nemáte dostatok tréningových príkladov na spoľahlivý fine-tuning. Vhodnejšia cesta je RAG — naindexovať dokumenty do vektorovej databázy a generický model nechať vyhľadávať z nich. Fine-tuning sa stáva relevantný keď máte tisíce otázka-odpoveď párov odvodených z týchto dokumentov, alebo pri dobre definovanej extrakčnej/klasifikačnej úlohe s dostatkom anotovaných príkladov.

Môžem zmerať, či fine-tuning skutočne pomohol?

Áno — a toto meranie je povinné, nie voliteľné. Evalvácia zahŕňa held-out testovaciu sadu z rovnakej domény, porovnanie metrík pred a po fine-tuningu, a overenie, že generálne schopnosti modelu neboli výrazne degradované. Systematický postup popisuje článok o evaluácii fine-tuneného modelu.

*Rozhodnutie medzi malým špecializovaným a veľkým generickým modelom nie je technické — je strategické. Závisí od toho, čo konkrétne riešite, aké dáta máte a aký je váš operačný kontext. V MP Industrial Solutions pomáhame firmám prejsť týmto rozhodnutím systematicky: od analýzy use casov cez benchmark na ich vlastných dátach až po nasadenie, ktoré skutočne funguje v ich infraštruktúre — nie iba na papieri.*

Prečo malý fine-tuned model vôbec funguje

Kedy malý fine-tuned model vyhráva

Kedy veľký base model nevyhnutne vyhráva

Kvantifikácia: čo strácate pri prechode dole

Rozhodnutie si žiada konkrétne čísla, nie len smer. Niekoľko overených rozsahov:

LoRA vs plné fine-tuning: LoRA (low-rank adaptation — adaptácia cez nízkohodnostné matice) dosahuje ~90–95 % kvality plného fine-tuningu pri 10–20× nižšej pamäťovej náročnosti. Pre väčšinu doménových use casov je to dostatočné.
QLoRA vs LoRA: 4-bitová kvantilácia počas tréningu (QLoRA) pridáva ďalšiu degradáciu — typicky ~80–90 % kvality plného fine-tuningu. Kompromis: 8B model v QLoRA trénujete na GPU s ~5 GB VRAM namiesto ~15 GB.
GGUF kvantizácia pri inferencii: GGUF Q4 formát stráca typicky ~1–3 % na benchmarkoch oproti FP16 pri inference. Pre produkčné nasadenie na spotrebiteľskom hardvéri je to prijateľné.
Fine-tuned 8B vs generický 70B: Na úzko definovanej doméne vidíme, že špecializovaný 8B model môže dosiahnuť porovnateľné alebo lepšie výsledky ako generický 70B. Závisí to absolútne od presnosti vymedzenia domény a kvality tréningových dát.

Praktický rozhodovací rámec

Pred tým, než sa zaviažete k fine-tuningu, odpovedzte na štyri otázky:

4. Aké sú regulačné a dátové obmedzenia? Ak dáta nesmú opustiť sieť — koniec diskusie, on-prem je jediná možnosť. Veľkosť modelu sa potom volí podľa dostupného hardvéru.

Šesť pilierov,jedna dodávka.

Priemysel & strojárstvo

Elektroinštalácie & energetika

Automatizácia & riadenie

Datacentrá & IT infraštruktúra

AI, software & cloud

Inteligentné budovy & domácnosti

Malý fine-tuned model vs veľký base: kedy 8B zbije 70B

Prečo malý fine-tuned model vôbec funguje

Kedy malý fine-tuned model vyhráva

Kedy veľký base model nevyhnutne vyhráva

Kvantifikácia: čo strácate pri prechode dole

Praktický rozhodovací rámec

Hybridný prístup: keď ani jedno ani druhé nestačí samo

Čo sa pri fine-tuningu nevyhnutne stráca

Časté otázky

Koľko tréningových príkladov potrebujem na fine-tuning 8B modelu?

Môžem fine-tuned 8B model nasadiť na bežnom firemnom serveri bez špeciálnej GPU?

Je lepší fine-tuned Qwen 3 8B alebo iný open-weight model pre B2B doménu?

Oplatí sa fine-tuning ak máme iba pár stoviek firemných dokumentov?

Môžem zmerať, či fine-tuning skutočne pomohol?

Malý fine-tuned model vs veľký base: kedy 8B zbije 70B

Prečo malý fine-tuned model vôbec funguje

Kedy malý fine-tuned model vyhráva

Kedy veľký base model nevyhnutne vyhráva

Kvantifikácia: čo strácate pri prechode dole

Praktický rozhodovací rámec

Hybridný prístup: keď ani jedno ani druhé nestačí samo

Čo sa pri fine-tuningu nevyhnutne stráca

Časté otázky

Koľko tréningových príkladov potrebujem na fine-tuning 8B modelu?

Môžem fine-tuned 8B model nasadiť na bežnom firemnom serveri bez špeciálnej GPU?

Je lepší fine-tuned Qwen 3 8B alebo iný open-weight model pre B2B doménu?

Oplatí sa fine-tuning ak máme iba pár stoviek firemných dokumentov?

Môžem zmerať, či fine-tuning skutočne pomohol?