SFT, DPO, GRPO: tri spôsoby ako doladiť model a ktorý kedy

Keď firma pristúpi k doladeniu vlastného jazykového modelu, prvá otázka zvyčajne znie: „Koľko dát potrebujeme?" Správnejšia otázka je: „Čo chceme od modelu zmeniť — a aký tréningový cieľ to zodpovedá?" SFT, DPO a GRPO sú tri rôzne odpovede na tri rôzne problémy. Vybrať správnu metódu skôr, než zbieraš dáta, rozhoduje o tom, či projekt o šesť mesiacov funguje alebo nie.

Tento článok nevysvetľuje, ako nainštalovať tréningový framework. Vysvetľuje, čo každá metóda robí, kedy ju nasadiť, koľko dát skutočne treba, a prečo poradie SFT → DPO → GRPO nie je náhoda.

Základ: čo je LoRA a čo je cieľ tréningu — dva rozdielne koncepty

Pred samotným porovnaním metód je dôležité rozlíšiť dve veci, ktoré sa v diskusiách často miešajú.

LoRA (Low-Rank Adaptation) a QLoRA (kvantizáciou komprimovaná varianta) sú *mechanizmy* — spôsob, ako fyzicky modifikovať model bez toho, aby si upravoval všetky váhy. Namiesto toho trénuješ malé adaptérové matice, ktoré sa prikladajú na existujúce váhy modelu. Vďaka tomu sa zmestíš do oveľa menšej GPU pamäte: bežný 7B model zvládneš doladiť s QLoRA na GPU s ~9 GB VRAM, kým plné fine-tuning by si vyžadovalo ~70–120 GB. Podrobnejšie porovnanie týchto mechanizmov nájdeš v článku LoRA vs QLoRA vs full fine-tuning.

SFT, DPO a GRPO sú naopak *tréningové ciele* — definujú, čo sa model učí. Rovnako ako LoRA, aj plné fine-tuning je mechanizmus. Môžeš robiť SFT s LoRA, SFT s plným fine-tuningom, DPO s QLoRA — kombinácie sú ľubovoľné. V praxi sa dnes väčšina doménových projektov robí s LoRA alebo QLoRA jednoducho z ekonomických dôvodov, ale cieľ tréningu zostáva tým podstatným rozhodnutím.

SFT — supervised fine-tuning: naučiť model formát a správanie

SFT (supervised fine-tuning, doučovanie s učiteľom) je základná metóda. Dáš modelu vstup a požadovaný výstup, model sa uči tieto páry napodobňovať. Je to v podstate rozšírenie predtrénovania: model sa učí zo vzoriek formátu (prompt → odpoveď).

SFT rieši otázku: *„Ako má model reagovať na tento typ úlohy?"*

Kedy použiť SFT

SFT je správna voľba, keď:

Model má správne znalosti, ale odpovedá v zlom formáte (príliš dlho, príliš stručne, nesprávny jazyk, nesprávna štruktúra)
Chceš model naučiť doménový žargón, terminológiu alebo štýl komunikácie
Máš jasne definovanú úlohu s konzistentnými vzormi — napríklad klasifikácia dokumentov, extrakcia entít, generovanie reportov podľa šablóny
Chceš distilačne preniesť správanie silnejšieho modelu do menšieho (príklady generuje teacher model, trénuje sa student)

SFT funguje aj ako základ pre všetky ďalšie metódy. Base model bez SFT sa nedá spoľahlivo ďalej ladiť s DPO alebo GRPO — na to sa vrátim nižšie.

Koľko dát SFT potrebuje

Výskum ukázal, že 1 000 vysokokvalitných príkladov môže produkovať výrazne lepší výstup než 100 000 nízkokvalitných vzoriek. Ale pre produkčné systémy je typická veľkosť datasetu skôr 10 000–100 000 párov, pretože chceš pokryť dlhý chvost variantov vstupov, ktoré sa objavia v reálnej prevádzke.

Praktické minimum pre dôveryhodné výsledky v doménovom projekte je okolo 5 000 kvalitných príkladov pokrývajúcich väčšinu tématických oblastí, s ktorými sa model stretne. Pod touto hranicou model síce môže zlepšiť správanie na dátach, ktoré videl, ale zlyháva na variantoch, ktoré nevidel.

Pre regulované odvetvia (právo, medicína, farmácia) platí prísnejšie pravidlo: dataset musí pokrývať každú jurisdikciu a každý typ dokumentu, s ktorým bude model pracovať. Čiastočné pokrytie produkuje model, ktorý s vysokou istotou odpovedá aj v oblastiach, kde nemá dostatok tréningových príkladov — to je horšie než neriešiť problém vôbec.

Čo SFT nerieši

SFT neučí model *hodnoteniu* — nevie, že jedna odpoveď je lepšia než druhá, len vie, že takáto odpoveď existuje. Ak má model tendenciu odpovedať neohľaduplne, byť príliš stručný tam, kde to škodí, alebo sa vyhýbať určitým typom otázok, SFT samo o sebe to neopraví. Na to slúži DPO.

DPO — direct preference optimization: naučiť model čo je lepšie

DPO (direct preference optimization) tréning prebieha cez preferenčné páry — ku každému promptu máš dve odpovede: winner (preferovaná) a loser (menej preferovaná). Model sa učí, aby jeho distribúcia odpovedí smerovala k winner a od loser.

DPO je zjednodušenou variantou pôvodného RLHF (reinforcement learning from human feedback) — nevyžaduje separátny reward model, čo ho robí oveľa lacnejším a stabilnejším na tréning.

DPO rieši otázku: *„Ako má model rozhodovať, keď existuje viacero možných odpovedí?"*

Kedy použiť DPO

DPO je správna voľba, keď:

Máš definované preferencie: čo je lepšia odpoveď a čo horšia (human-verified alebo overená automatickým procesom)
Chceš zmenšiť tendenciu modelu odpovedať určitým nežiaducim spôsobom — príliš pasívne, príliš dlho, s príliš veľa hedging frázami
Chceš vyladiť tón komunikácie bez toho, aby si kompletne prepisoval tréningové dáta
Už máš SFT základ a chceš ďalej zlepšovať alignment modelu

Koľko dát DPO potrebuje

Minimálne odporúčané množstvo sú ~2 000 preferenčných párov s human-verified winner/loser hodnotením. Toto nie je svojvoľné číslo — pod touto hranicou sa signál preference nedá spoľahlivo oddeliť od šumu v distribúcii, a model sa môže pretrénovať na artefakty konkrétnych hodnotiteľov.

Pre dobrú generalizáciu chceš väčšiu pokrytosť: 5 000–10 000 párov pokrývajúcich rôzne typy promptov a scenarios je bežný produkčný cieľ.

Dôležitejšia než číslo je kvalita hodnotenia. Ak sú winner/loser páry hodnotené nekonzistentne alebo z nejasných kritérií, model sa naučí nekonzistentnú politiku. Pred zbieraním dát je nevyhnutné mať jasnú rubríku — čo konkrétne robí odpoveď lepšou.

Poradie: SFT pred DPO je nevyhnutné

DPO sa aplikuje na model, ktorý prešiel SFT — nie na base model priamo. Dôvod je praktický: base model produkuje príliš veľkú variabilitu odpovedí, a DPO signál sa „rozplynie" — model nemá stabilný základ, voči ktorému by sa preference gradient uplatnil.

V praxi to vyzerá takto:

1.Base model → SFT → instruction-tuned model (vie odpovedať konzistentne na dané typy úloh)
2.Instruction-tuned model → DPO → aligned model (preferuje lepšie odpovede nad horšími)

Preskočenie SFT a priame DPO z base modelu typicky produkuje nestabilné výsledky alebo model, ktorý nenasleduje inštrukcie.

GRPO — group relative policy optimization: naučiť model uvažovať

GRPO (group relative policy optimization) je metóda z rodiny RL-from-rewards (reinforcement learning s odmenami). Namiesto preferenčných párov dostane model verifikovateľnú úlohu — matematickú rovnicu, logický problém, kódovací task — a dostane odmenu podľa toho, či jeho výstup je objektívne správny.

GRPO získal prominenciu po vydaní DeepSeek R1, kde ho použili pre reasoning-oriented fine-tuning. Kľúčová výhoda oproti staršiemu PPO (proximal policy optimization): GRPO nevyžaduje separátny critic model, čo znižuje VRAM nároky a zjednodušuje tréningový pipeline.

GRPO rieši otázku: *„Ako naučiť model lepšie uvažovať na úlohách, kde je správna odpoveď overiteľná?"*

Kedy použiť GRPO

GRPO je správna voľba, keď:

Máš úlohy s verifikovateľnými odpoveďami — matematika, kód, logika, SQL dotazy, extrakcia štruktúrovaných dát so zlatou anotáciou
Chceš zlepšiť reasoning — schopnosť modelu prechádzať cez viacero krokov bez straty kontextu
Chceš, aby model generoval chain-of-thought (reťaz úvah) na úlohách, kde je to hodnotné
Máš prostredie, kde viete automaticky vyhodnocovať správnosť výstupu bez ľudského hodnotiteľa

GRPO je typicky tretí krok pipeline, nie prvý. Model musí mať solídny SFT základ a ideálne aj DPO alignment, skôr než sa RL tréning uplatní efektívne.

Koľko dát GRPO potrebuje

Minimum sú ~1 000 scorovaných trajektórií — promptov s verifikovateľnou odpoveďou a funkčným reward signálom. Dôraz je na „verifikovateľnú": odmena musí byť konzistentná a automaticky vypočítateľná. Ak odmena závisí od subjektívneho hodnotenia, RL tréning produkuje nestabilné výsledky.

V praxi sa GRPO robí na menších, cielených datasetoch (tisíce, nie stovky tisíc) — pretože reward signal je intenzívnejší ako supervised signal. Na druhej strane, zozbieranie verifikovateľných odmien je drahé: treba definovať metriku, napísať evaluátor, a zabezpečiť, že evaluátor sám nechybuje.

Experimentálna súčasnosť GRPO

GRPO je aktívny výskumný priestor. Existuje viacero variantov (DAPO a iné) a komunita aktívne skúma, kde presne sú jeho limity. Pre väčšinu doménových projektov v B2B prostredí je GRPO relevantný len ak:

Pracuješ na reasoning-heavy úlohách (komplexná analýza, viacriadkový kód, technická diagnostika)
Máš kapacitu napísať a validovať reward funkciu
Tím má skúsenosť s RL tréningom — debugging RL je výrazne zložitejší ako debugging SFT

Pre väčšinu doménových adaptácií (štýl, terminológia, formát) je SFT + DPO postačujúci a oveľa stabilnejší.

Tri metódy vedľa seba — rýchle porovnanie

SFT — supervised fine-tuning: - Vstup: (prompt, požadovaná odpoveď) páry - Učí: formát, štýl, terminológiu, správanie pri špecifických úlohách - Minimum dát: ~5 000 kvalitných párov pre doménový produkčný systém - Poradie: vždy prvý krok

DPO — direct preference optimization: - Vstup: (prompt, winner odpoveď, loser odpoveď) trojice - Učí: čo je preferovaná odpoveď, alignment, zlepšenie tónu a rozhodovania - Minimum dát: ~2 000 human-verified preferenčných párov - Poradie: po SFT, nie z base modelu

GRPO — group relative policy optimization: - Vstup: prompt + automatický reward signal (verifikovateľná správnosť) - Učí: reasoning, chain-of-thought, presnosť na overiteľných úlohách - Minimum dát: ~1 000 scorovaných trajektórií s funkčným evaluátorom - Poradie: po SFT (a ideálne DPO) ako tretí krok

Katastrofické zabudnutie — skrytý náklad každého fine-tuningu

Každá metóda nesie riziko katastrofického zabudnutia (catastrophic forgetting): model, ktorý intenzívne trénuješ na úzku doménu, môže degradovať v schopnostiach, ktoré nevidel v tréningových dátach. V praxi to znamená: model, ktorý exceluje v generovaní technických reportov, môže začať horšie zvládať konverzačné otázky alebo logické uvažovanie mimo domény.

PEFT mechanizmy ako LoRA zmierňujú tento efekt, pretože modifikujú len malú časť váh — ale neeliminujú ho. Mitigácia v praxi:

1.Do tréningového datasetu zmiešaj doménové dáta s generálnymi vzorkami (5–15 % generálneho mixu)
2.Po každom tréningovom behu evaluuj model mimo domény — nielen na doménových benchmarkoch
3.Verzia modelu pred fine-tuningom si zachovaj ako fallback

Podrobnejší pohľad na to, ako zmerať, či fine-tuning pomohol alebo ušetril, nájdeš v článku Ako zmerať, či fine-tuning pomohol.

Pipeline v praxi: od base modelu k produkčnému deploymentu

V B2B projektoch, kde sme nasadili doménový model, vyzerá typický postup takto:

Fáza 1 — výber základu. Vyberieš vhodný open-weight model (Qwen, Llama, Mistral rodina) podľa VRAM kapacity a požadovaného kontextu. Pre väčšinu doménových úloh je 7B–14B model optimálny pomer výkon/cena. Ak máš GPU s 24 GB VRAM (napr. RTX 3090/4090), QLoRA 7B funguje pohodlne; pre 13B model sa zmestíš tesne. Viac o výbere modelu a GPU sizing nájdeš v článku Aká GPU na inferenciu LLM.

Fáza 2 — zbieranie SFT dát. Identifikuješ typy úloh, formát požadovaných odpovedí, terminológiu. Zbieraš alebo generuješ 5 000–50 000 párov. Pre doménové projekty je dobrý recept: 150–200 high-quality human-seed príkladov, rozšírených 10–100× cez silný frontier model (Claude, GPT ako teacher). Výsledok overíš ručnou anotáciou vzorky.

Fáza 3 — SFT beh. Tréning s LoRA alebo QLoRA, typicky niekoľko epoch. Na A100 GPU za hodiny, nie dni. Hrubé náklady v cloude sa pohybujú rádovo v desiatkach eur za beh pri 7B modeli a 10K príkladoch — závisí od providera a použitého GPU.

Fáza 4 — evalvácia a rozhodnutie. Testovacia sada pokrývajúca všetky typy úloh. Ak výsledky vyhovujú, model ide do produkcie. Ak nie — analyzuješ kde zlyháva, nie slepo pridávaš dáta.

Fáza 5 (voliteľná) — DPO. Ak máš kapacitu na zbieranie preferenčných párov a model má konkrétne správanie, ktoré chceš zmeniť (nie len chýbajúce znalosti), DPO je správny ďalší krok.

Fáza 6 (špecializovaná) — GRPO. Len ak pracuješ na reasoning-heavy use-case a máš verifikovateľný reward signál.

Kedy fine-tuning nerobiť

Fine-tuning nie je odpoveď na každý problém. Videli sme projekty, kde firma investovala týždne do SFT a výsledok bol horší než jednoduchá RAG pipeline s dobrým promptom. Pred fine-tuningom sa opýtaj:

Je problém v tom, čo model nevie (fakty, dokumenty) — potom je RAG efektívnejší a lacnejší. Fine-tuning nenaučí model spoľahlivo nové fakty, len zmení správanie.
Je problém v tom, že model odpovedá zle formátom alebo štýlom — potom môže stačiť lepší systémový prompt pred investíciou do datasetu.
Máš dostatok kvalitných dát na pokrytie domény — ak nie, fine-tuning produkuje model, ktorý s istotou odpovedá aj tam, kde nemá základ.

Rozhodovací rámec RAG vs fine-tuning podrobnejšie rozoberá samostatný článok RAG vs fine-tuning — kedy čo.

Časté otázky

Môžem robiť DPO priamo z base modelu bez SFT?

Technicky áno, výsledok je zvyčajne nestabilný. Base model produkuje príliš variabilné výstupy — DPO gradient sa nevie efektívne uplatniť, pretože model nemá konzistentný základ správania. V praxi takmer vždy potrebuješ aspoň minimálny SFT pass pred DPO.

Je GRPO vhodné pre firemné projekty mimo technológie?

GRPO je silné tam, kde máš verifikovateľné odpovede — matematika, kód, štruktúrované extrakcie so zlatou anotáciou. Pre väčšinu B2B use-casov (zákaznícka podpora, dokumentačný asistent, reportovanie) je SFT + DPO postačujúce a oveľa jednoduchšie na implementáciu a debugging. GRPO odporúčame len ak tím má skúsenosť s RL tréningom.

Koľko stojí fine-tuning v cloude pre 7B model?

Hrubý odhad: SFT beh na 10 000 príkladoch trvá na A100 GPU rádovo hodiny, náklady sú v desiatkach eur (na lacnejších poskytovateľoch) až nižších stovkách eur (hyperscaleri). Reálna cena projektu závisí od počtu iterácií, veľkosti datasetu a toho, koľkokrát sa tréning opakuje po úpravách dát. Väčší náklad býva zbieranie a anotácia dát, nie samotný tréning.

Čo je katastrofické zabudnutie a ako ho predísť?

Katastrofické zabudnutie nastáva, keď fine-tuning na úzkej doméne degraduje generálne schopnosti modelu — napríklad logické uvažovanie alebo konverzačné schopnosti mimo domény. Zmierniš ho mixovaním doménových dát s generálnymi (5–15 % generálneho mixu v datasete), LoRA/QLoRA mechanizmom (menej agresívna modifikácia váh) a pravidelnou evaluáciou mimo domény po každom tréningovom behu.

Aký open-weight model odporúčate ako základ pre doménový SFT?

Pre väčšinu doménových projektov v roku 2026 sú dobrým základom modely z rodín Qwen, Llama alebo Mistral v rozmedzí 7B–14B. Výber závisí od kontextovej dĺžky, licencie a toho, aký base model je kompatibilný s tvojím tréningovým frameworkom. Pre špecifické odporúčania s číslami pozri Ako vybrať LLM model.

*Ak zvažujete doladenie vlastného modelu a nie ste si istí, kde začať — SFT, DPO alebo iná metóda — radi si so vami prejdeme konkrétny use-case a navrhneme realistický plán. Kontaktujte nás na mp-is.eu alebo si dohodnite konzultáciu priamo.*