7 dôvodov, prečo fine-tuning v praxi zlyhá

Fine-tuning je jedným z najviac skloňovaných pojmov v každom AI roadmap dokumente. „Natrénujeme vlastný model, ktorý bude rozumieť našej doméne." V teórii elegantné. V praxi sme videli, ako sa rovnaký projekt rozpadol na siedmich rôznych miestach — a každý krát z iného dôvodu. Tento článok nie je o tom, ako fine-tuning urobiť — je o tom, prečo väčšina pokusov nedosiahne produkciu, a ako sa týmto pasciam vyhnúť skôr, než minú čas a rozpočet.

Ak ešte len zvažujete, či vôbec siahnuť po fine-tuningu alebo skôr po RAG, prečítajte si najprv RAG vs fine-tuning — rozhodovanie. Príčiny zlyhania, ktoré opisujeme nižšie, totiž začínajú práve tam.

---

1. Málo dát — alebo dáta nízkej kvality

Toto je najčastejší dôvod zlyhania. Tím zozbiera čo má k dispozícii — pár stoviek interných dokumentov, export z CRM, zopár exportovaných e-mailov — a spustí tréning. Výsledok je model, ktorý s vysokou istotou odpovedá zle: horšie ako základný model, ktorý aspoň vie povedať „neviem".

Výskum ukázal (LIMA a ďalšie práce), že relatívne malý počet vysoko kvalitných príkladov — rádovo tisíc — dokáže produkovať lepší model ako desiatky tisíc nekvalitných. Kvantita bez kvality je v tomto prípade aktívne škodlivá.

Praktická mierka:

SFT (supervised fine-tuning): minimum ~1 000 kvalitných otázka–odpoveď alebo task-completion párov, s pokrytím hlavných tém vašej domény. Produkčné systémy sú typicky na 10 000–100 000 príkladoch.
DPO (preference tuning): ~2 000 preferenčných párov s winner/loser, overených človekom.
GRPO (RL-based tuning): ~1 000 scorovaných trajektórií s overiteľnými odmenami.

Okrem počtu záleží na pokrytí — ak vaša KB (knowledge base) nemá dostatok príkladov z konkrétnej poddomény, model bude v tejto oblasti halucinátor. Pred spustením tréningu preto odporúčame urobiť topic coverage audit: vypíšte hlavné kategórie otázok, ktoré bude model riešiť, a skontrolujte, či máte dostatočnú vzorku v každej z nich.

---

2. Overfitting — model vie len to, čo videl

Keď je dataset príliš malý alebo príliš úzky a model sa na ňom trénuje príliš dlho, nastáva overfitting. Model exceluje na tréningových príkladoch, ale pri akejkoľvek odchýlke — mierne inak formulovaná otázka, iný kontext, nezvyklý vstup — úplne zlyháva alebo halucinuje.

Znaky overfittingu v praxi:

Model doslova cituje tréningové vzorky namiesto toho, aby generalizoval.
Na tréningových dátach vysoké skóre, na nových príkladoch výrazne nižšie.
Model odmieta odpovedať na otázky mimo distribúcie tréningových dát namiesto toho, aby priznal neistotu.

Technické opatrenia: monitorujte validation loss počas trénovania a zastavte keď začne stúpať (early stopping). Sledujte eval metriky na hold-out sete, nie iba na tréningových dátach. Pre malé datasety je regularizácia a nižšie rank pri LoRA adaptéroch (napr. rank=8 namiesto rank=64) vhodnejšie nastavenie.

---

3. Catastrophic forgetting — model zabudne, čo vedel

Fine-tuning na úzkych doménových dátach môže degradovať generálne schopnosti modelu — schopnosť rozoberať, sumarizovať, uvažovať v angličtine alebo v iných jazykoch, základnú logiku. Tento jav sa nazýva catastrophic forgetting (katastrofické zabudnutie) a je dobre zdokumentovaný.

V praxi to vyzerá takto: fine-tuningom na interných technických dokumentoch dosiahnete, že model výborne odpovedá na otázky z vašej oblasti — ale prestane fungovať pri generálnych úlohách, ktoré predtým zvládal bez problémov. Zákazníci, ktorí tento jav nepoznajú, ho interpretujú ako „model sa pokazil".

Čo zmierňuje, ale neodstraňuje problém:

LoRA / QLoRA — adaptéry menia len malý počet parametrov, pôvodné váhy zostávajú zamrznuté. Toto je najúčinnejší praktický spôsob ako obmedziť forgetting.
Merging — fine-tuned model sa zmerguje so základným modelom pomocou nástrojov ako mergekit (SLERP, TIES). Výsledok balansuje doménovú znalosť a generálne schopnosti.
Diverzifikácia datasetu — zahrnutie general-purpose príkladov do tréningového datasetu spolu s doménovými.

Pre regulované odvetvia (lekárstvo, právo, farmácia) je forgetting obzvlášť kritický — model, ktorý zabudol logiku a bezpečnostné vzory, môže produkovať obsahovo pôsobiace, ale fakticky nesprávne výstupy.

---

4. Zlá voľba metódy — full fine-tuning tam, kde stačí LoRA, alebo naopak

Tímy, ktoré začínajú s fine-tuningom, majú tendenciu ísť buď do extrému (plné fine-tuning, ktoré si vyžaduje obrovské GPU zdroje), alebo naopak zvoliť najúspornejšiu variantu bez premýšľania o trade-offoch.

Orientačný prehľad VRAM nárokov pre 7B model:

Plné fine-tuning (BF16): ~70–120 GB — vyžaduje multi-GPU server
LoRA (16-bit): ~15 GB — A100 alebo jedna RTX 4090 (24 GB VRAM)
QLoRA (4-bit): ~5 GB — zmestí sa na RTX 3090 s 24 GB VRAM

LoRA dosahuje typicky ~90–95 % kvality plného fine-tuningu pri 10–20× nižšej pamäťovej náročnosti. Pre väčšinu doménových use-casov je toto dostatočné — siahnuť po plnom fine-tuningu bez jasného zdôvodnenia je plytvanie zdrojmi.

Na druhej strane existujú prípady, kde LoRA nestačí: keď sa mení tokenizér, keď ide o jazyky s veľmi odlišnou morfológiou od tréningových dát, alebo pri hlbokom „continued pretraining" (budovaní doménovej znalosti z neoznačených textov). Výber metódy by mal vychádzať z konkrétneho cieľa, nie z toho, čo sa náhodou spustilo prvé. Podrobnejší prehľad nájdete v článku LoRA vs QLoRA vs full fine-tuning.

---

5. Fine-tuning namiesto RAG — nesprávny nástroj pre nesprávnu úlohu

Toto je možno najdrahší omyl, s ktorým sa stretávame. Tím chce, aby model „vedel" o ich produktoch, dokumentoch, interných procesoch. Fine-tuning sa javí ako prirodzená odpoveď. Spustia ho, dáta nalejú do tréningu, a o niekoľko týždňov zistia, že model stále halucinuje fakty — pretože fine-tuning nespoľahlivo pridáva fakty do modelu.

Fine-tuning je vhodný nástroj pre:

Zmenu formátu a štýlu odpovedí (napr. vždy vrátiť JSON s konkrétnou schémou).
Zmenu správania (napr. model má vždy odmietnuť určité typy požiadaviek, alebo má dodržiavať konkrétny komunikačný tón).
Prispôsobenie špecializovanej domény, kde base model nemá dostatok tréningových dát (napr. úzky priemyselný žargón, proprietárne formáty).

RAG (Retrieval-Augmented Generation — vyhľadávaním obohatená generácia) je správny nástroj pre:

Prístup k aktuálnym alebo meniacim sa informáciám.
Zodpovedanie otázok na základe konkrétnych dokumentov.
Sledovateľnosť odpovede k zdroju (citácia, grounding).

V praxi: ak váš cieľ je „model má vedieť odpovedať na otázky z nášho katalógu produktov" — to je RAG use-case, nie fine-tuning. Fine-tuning by ste nasadili, ak chcete, aby model používal váš špecifický formát odpovede alebo terminológiu z odvetvia.

---

6. Žiadny eval — nevieme, či sme niečo vyhrali alebo prehrali

Prekvapivo bežný scenár: tím fine-tuning spustí, model sa natrénuje, pôsobí „lepšie" na pár manuálne testovaných príkladoch, a ide do produkcie. O mesiac neskôr prídu sťažnosti na regresiu — model prestáva fungovať na prípadoch, ktoré predtým riešil bez problémov.

Bez systematickej evalvácie (hodnotenia kvality modelu) nevieme:

1.Či fine-tuning vôbec pomohol — porovnanie s base modelom.
2.Či sme nespôsobili regresiu — výkonnosť na predtým funkčných prípadoch.
3.Kde presne model zlyháva — v akých kategóriách otázok.

Minimálny eval framework pred nasadením do produkcie obsahuje:

Hold-out test set — ~10–20 % dát, ktoré neboli v tréningovej ani validačnej sade. Meriate na nich po natrénovaní.
Baseline porovnanie — rovnaké otázky na base modeli aj na fine-tuned verzi. Regression = ak fine-tuned model skóruje nižšie na prípadoch, kde base model fungoval.
Task-specific metriky — nie iba perplexita (technická metrika strojového učenia), ale metriky relevantné pre váš use-case: presnosť extrakcií, správnosť formátu, quality rating od doménového experta.

Podrobnejšie o nastavení evalvácie: Ako zmerať, či fine-tuning pomohol.

---

7. Nereálne očakávania — fine-tuning nie je zázrak

Posledná, ale v mnohých ohľadoch najdôležitejšia príčina. Fine-tuning sa v interných prezentáciách často predáva ako riešenie, ktoré z generického LLM spraví experta na vašu oblasť. V praxi je to jemnejšie:

Fine-tuned 4B–8B model môže prekonať generický 70B+ model na úzko definovanom tasku — ale iba ak je task skutočne úzko definovaný, dáta sú kvalitné a eval to potvrdzuje.
Fine-tuning nezlepšuje reasoning — ak base model nevie riešiť určitý typ logických úloh, fine-tuning na doménových dátach to nezmení. Na reasoning sú vhodné metódy ako GRPO s verifikovateľnými odmenami. Viac v článku SFT, DPO, GRPO — ktorá metóda kedy.
Fine-tuning nie je jednorazový projekt — dáta sa menia, model starne, regresie pribúdajú. Bez infraštruktúry na opakovateľné tréning-eval-deploy cykly sa projekt postupne rozpadá.
Halucinácie ostávajú — fine-tuning ich môže znížiť v špecifickej doméne, ale neodstraňuje ich. Guardrails, RAG grounding a human-in-the-loop sú stále potrebné tam, kde na správnosti záleží.

Tímy, ktoré tieto limity poznajú pred začatím projektu, končia s použiteľnými modelmi. Tímy, ktoré sa dozvedia o limitoch po šiestich mesiacoch vývoja, zvyčajne projekt zastavia.

---

Súhrn: checklist pred spustením projektu

Pred tým, ako sa rozhodnete spustiť fine-tuning projekt, odporúčame si prejsť týchto sedem otázok:

1.Máte dostatočný dataset? — počet príkladov, pokrytie tém, overená kvalita.
2.Je fine-tuning správny nástroj? — alebo by RAG alebo prompt engineering stačilo?
3.Máte nastavený eval? — hold-out set, baseline, task-specific metriky.
4.Máte GPU infraštruktúru? — alebo realistický plán cloud trénovania s odhadom nákladov.
5.Ste pripravení na iteráciu? — jeden fine-tuning run nestačí, pipeline musí byť opakovateľný.
6.Máte doménového experta v slučke? — kto overí, že model odpovedá správne, nie iba plynulo.
7.Máte plán na forgetting a regresie? — monitoring, rollback, eval po každom novom trénovacím behu.

Ak niektorá z týchto otázok nemá jasnú odpoveď, projekt nie je pripravený na spustenie — iba na prípravu.

---

Časté otázky

Prečo môj fine-tuned model odpovedá horšie ako základný model?

Najčastejšia príčina je overfitting na malom alebo nekvalitnom datasete. Model sa naučí „vzory" z tréningových dát, ale generalizácia na nové vstupy zlyhá. Riešenie: zvýšiť kvalitu dát, použiť early stopping, znížiť rank LoRA adaptéra, alebo celý project prehodnotiť z pohľadu RAG vs fine-tuning.

Koľko príkladov naozaj potrebujem na fine-tuning?

Pre SFT je funkčný výsledok možný od ~1 000 vysoko kvalitných príkladov, ale produkčné systémy sú typicky na 10 000–100 000. Dôležitejšia ako kvantita je pokrytie — ak chýba dostatočná vzorka v kľúčových kategóriách, model bude v týchto oblastiach nespoľahlivý bez ohľadu na celkový počet príkladov.

Je fine-tuning vhodný na aktualizáciu znalostí modelu (nové produkty, ceny, záznamy)?

Nie. Fine-tuning nespoľahlivo ukladá fakty — model môže naznačovať informácie z tréningu, ale aj halucináciami ich zmiešava. Pre znalosti, ktoré sa menia alebo musia byť overiteľné, je správny nástroj RAG s aktuálnou databázou dokumentov.

Môže malý fine-tuned model prekonať veľký generický model?

Áno — za konkrétnych podmienok. Fine-tuned 4B–8B model môže na úzko definovanom tasku prekonať generický 70B+ model, ak je task dobre ohraničený, dataset kvalitný a eval to potvrdí. Na širokých, generálnych úlohách väčší model zvyčajne vyhráva.

Čo je catastrophic forgetting a ako mu predísť?

Catastrophic forgetting je jav, pri ktorom fine-tuning na úzkych dátach degraduje generálne schopnosti modelu — jazyky, logiku, uvažovanie. Najúčinnejšie opatrenie je LoRA alebo QLoRA, ktoré menia len malý počet parametrov a zachovávajú pôvodné váhy. Doplnkovo pomáha merging fine-tuned modelu so základným cez nástroj mergekit.

---

*MP Industrial Solutions pomáha firmám rozlíšiť, kedy fine-tuning skutočne dáva zmysel a kedy existuje jednoduchšia a lacnejšia cesta. Ak zvažujete doménovú adaptáciu LLM, radi posúdime váš use-case — od datasetu po infraštruktúru a eval.*

---

1. Málo dát — alebo dáta nízkej kvality

Praktická mierka:

SFT (supervised fine-tuning): minimum ~1 000 kvalitných otázka–odpoveď alebo task-completion párov, s pokrytím hlavných tém vašej domény. Produkčné systémy sú typicky na 10 000–100 000 príkladoch.
DPO (preference tuning): ~2 000 preferenčných párov s winner/loser, overených človekom.
GRPO (RL-based tuning): ~1 000 scorovaných trajektórií s overiteľnými odmenami.

---

2. Overfitting — model vie len to, čo videl

Znaky overfittingu v praxi:

Model doslova cituje tréningové vzorky namiesto toho, aby generalizoval.
Na tréningových dátach vysoké skóre, na nových príkladoch výrazne nižšie.
Model odmieta odpovedať na otázky mimo distribúcie tréningových dát namiesto toho, aby priznal neistotu.

---

3. Catastrophic forgetting — model zabudne, čo vedel

Čo zmierňuje, ale neodstraňuje problém:

LoRA / QLoRA — adaptéry menia len malý počet parametrov, pôvodné váhy zostávajú zamrznuté. Toto je najúčinnejší praktický spôsob ako obmedziť forgetting.
Merging — fine-tuned model sa zmerguje so základným modelom pomocou nástrojov ako mergekit (SLERP, TIES). Výsledok balansuje doménovú znalosť a generálne schopnosti.
Diverzifikácia datasetu — zahrnutie general-purpose príkladov do tréningového datasetu spolu s doménovými.

---

4. Zlá voľba metódy — full fine-tuning tam, kde stačí LoRA, alebo naopak

Orientačný prehľad VRAM nárokov pre 7B model:

Plné fine-tuning (BF16): ~70–120 GB — vyžaduje multi-GPU server
LoRA (16-bit): ~15 GB — A100 alebo jedna RTX 4090 (24 GB VRAM)
QLoRA (4-bit): ~5 GB — zmestí sa na RTX 3090 s 24 GB VRAM

---

5. Fine-tuning namiesto RAG — nesprávny nástroj pre nesprávnu úlohu

Fine-tuning je vhodný nástroj pre:

Zmenu formátu a štýlu odpovedí (napr. vždy vrátiť JSON s konkrétnou schémou).
Zmenu správania (napr. model má vždy odmietnuť určité typy požiadaviek, alebo má dodržiavať konkrétny komunikačný tón).
Prispôsobenie špecializovanej domény, kde base model nemá dostatok tréningových dát (napr. úzky priemyselný žargón, proprietárne formáty).

RAG (Retrieval-Augmented Generation — vyhľadávaním obohatená generácia) je správny nástroj pre:

Prístup k aktuálnym alebo meniacim sa informáciám.
Zodpovedanie otázok na základe konkrétnych dokumentov.
Sledovateľnosť odpovede k zdroju (citácia, grounding).

---

6. Žiadny eval — nevieme, či sme niečo vyhrali alebo prehrali

Bez systematickej evalvácie (hodnotenia kvality modelu) nevieme:

1.Či fine-tuning vôbec pomohol — porovnanie s base modelom.
2.Či sme nespôsobili regresiu — výkonnosť na predtým funkčných prípadoch.
3.Kde presne model zlyháva — v akých kategóriách otázok.

Minimálny eval framework pred nasadením do produkcie obsahuje:

Hold-out test set — ~10–20 % dát, ktoré neboli v tréningovej ani validačnej sade. Meriate na nich po natrénovaní.
Baseline porovnanie — rovnaké otázky na base modeli aj na fine-tuned verzi. Regression = ak fine-tuned model skóruje nižšie na prípadoch, kde base model fungoval.
Task-specific metriky — nie iba perplexita (technická metrika strojového učenia), ale metriky relevantné pre váš use-case: presnosť extrakcií, správnosť formátu, quality rating od doménového experta.

Podrobnejšie o nastavení evalvácie: Ako zmerať, či fine-tuning pomohol.

---

7. Nereálne očakávania — fine-tuning nie je zázrak

Fine-tuned 4B–8B model môže prekonať generický 70B+ model na úzko definovanom tasku — ale iba ak je task skutočne úzko definovaný, dáta sú kvalitné a eval to potvrdzuje.
Fine-tuning nezlepšuje reasoning — ak base model nevie riešiť určitý typ logických úloh, fine-tuning na doménových dátach to nezmení. Na reasoning sú vhodné metódy ako GRPO s verifikovateľnými odmenami. Viac v článku SFT, DPO, GRPO — ktorá metóda kedy.
Fine-tuning nie je jednorazový projekt — dáta sa menia, model starne, regresie pribúdajú. Bez infraštruktúry na opakovateľné tréning-eval-deploy cykly sa projekt postupne rozpadá.
Halucinácie ostávajú — fine-tuning ich môže znížiť v špecifickej doméne, ale neodstraňuje ich. Guardrails, RAG grounding a human-in-the-loop sú stále potrebné tam, kde na správnosti záleží.

Tímy, ktoré tieto limity poznajú pred začatím projektu, končia s použiteľnými modelmi. Tímy, ktoré sa dozvedia o limitoch po šiestich mesiacoch vývoja, zvyčajne projekt zastavia.

---

Súhrn: checklist pred spustením projektu

Pred tým, ako sa rozhodnete spustiť fine-tuning projekt, odporúčame si prejsť týchto sedem otázok:

1.Máte dostatočný dataset? — počet príkladov, pokrytie tém, overená kvalita.
2.Je fine-tuning správny nástroj? — alebo by RAG alebo prompt engineering stačilo?
3.Máte nastavený eval? — hold-out set, baseline, task-specific metriky.
4.Máte GPU infraštruktúru? — alebo realistický plán cloud trénovania s odhadom nákladov.
5.Ste pripravení na iteráciu? — jeden fine-tuning run nestačí, pipeline musí byť opakovateľný.
6.Máte doménového experta v slučke? — kto overí, že model odpovedá správne, nie iba plynulo.
7.Máte plán na forgetting a regresie? — monitoring, rollback, eval po každom novom trénovacím behu.

Ak niektorá z týchto otázok nemá jasnú odpoveď, projekt nie je pripravený na spustenie — iba na prípravu.

---

Časté otázky

Prečo môj fine-tuned model odpovedá horšie ako základný model?

Koľko príkladov naozaj potrebujem na fine-tuning?

Je fine-tuning vhodný na aktualizáciu znalostí modelu (nové produkty, ceny, záznamy)?

Môže malý fine-tuned model prekonať veľký generický model?

Čo je catastrophic forgetting a ako mu predísť?

---

Šesť pilierov,jedna dodávka.

Priemysel & strojárstvo

Elektroinštalácie & energetika

Automatizácia & riadenie

Datacentrá & IT infraštruktúra

AI, software & cloud

Inteligentné budovy & domácnosti

7 dôvodov, prečo fine-tuning v praxi zlyhá

1. Málo dát — alebo dáta nízkej kvality

2. Overfitting — model vie len to, čo videl

3. Catastrophic forgetting — model zabudne, čo vedel

4. Zlá voľba metódy — full fine-tuning tam, kde stačí LoRA, alebo naopak

5. Fine-tuning namiesto RAG — nesprávny nástroj pre nesprávnu úlohu

6. Žiadny eval — nevieme, či sme niečo vyhrali alebo prehrali

7. Nereálne očakávania — fine-tuning nie je zázrak

Súhrn: checklist pred spustením projektu

Časté otázky

Prečo môj fine-tuned model odpovedá horšie ako základný model?

Koľko príkladov naozaj potrebujem na fine-tuning?

Je fine-tuning vhodný na aktualizáciu znalostí modelu (nové produkty, ceny, záznamy)?

Môže malý fine-tuned model prekonať veľký generický model?

Čo je catastrophic forgetting a ako mu predísť?

7 dôvodov, prečo fine-tuning v praxi zlyhá

1. Málo dát — alebo dáta nízkej kvality

2. Overfitting — model vie len to, čo videl

3. Catastrophic forgetting — model zabudne, čo vedel

4. Zlá voľba metódy — full fine-tuning tam, kde stačí LoRA, alebo naopak

5. Fine-tuning namiesto RAG — nesprávny nástroj pre nesprávnu úlohu

6. Žiadny eval — nevieme, či sme niečo vyhrali alebo prehrali

7. Nereálne očakávania — fine-tuning nie je zázrak

Súhrn: checklist pred spustením projektu

Časté otázky

Prečo môj fine-tuned model odpovedá horšie ako základný model?

Koľko príkladov naozaj potrebujem na fine-tuning?

Je fine-tuning vhodný na aktualizáciu znalostí modelu (nové produkty, ceny, záznamy)?

Môže malý fine-tuned model prekonať veľký generický model?

Čo je catastrophic forgetting a ako mu predísť?