Syntetické dáta na fine-tuning: kedy pomôžu a kedy model otrávia

Každý tím, ktorý začína s fine-tuningom, narazí na rovnakú stenu: reálnych, dobre anotovaných príkladov je málo. Výroba nových príkladov rukou je drahá a pomalá. Takmer zákonite príde otázka — čo keby sme dáta vygenerovali modelom?

Je to legitímna technika. Používajú ju výskumné tímy aj produkčné systémy. Ale má presné podmienky, kedy funguje, aj presné podmienky, kedy tichým spôsobom pokazí model, ktorý práve ladíte. Tento článok rozkladá oboje — bez zbytočného optimizmu.

Čo vlastne syntetické dáta sú (a čo nie sú)

Syntetické tréningové dáta pre fine-tuning sú príklady vstup–výstup vygenerované automaticky, nie zachytené z reálneho ľudského správania. V praxi to znamená jednu z troch vecí:

Generovanie cez teacher model — silnejší model (napr. frontier API) dostane inštrukciu a vygeneruje príklady pre slabší cieľový model. Toto je niekedy nepresne nazývané dištiláciou, hoci nejde o dištiláciu v pôvodnom zmysle.
Augmentácia existujúcich dát — existujúce príklady sa parafrázujú, preformátujú alebo rozširujú; zachováva sa sémantický obsah, mení sa forma.
Self-play a syntetické scenáre — model generuje dáta sám pre seba (alebo v roli učiteľa aj žiaka), typicky pre reasoning alebo konverzačné fine-tuning.

Dôležité: syntetické dáta nie sú náhrada za continued pretraining na surových doménových textoch. Continued pretraining buduje znalostný základ cez neoznačené texty. Syntetické dáta pre SFT (supervised fine-tuning) učia model formát a správanie, nie znalosti. Tieto dve vrstvy sa dopĺňajú, ale nenahradzujú.

Kedy syntetika naozaj pomáha

Nie každý use-case má dostatok reálnych dát. Toto sú situácie, kde syntetické dáta prinášajú reálnu hodnotu:

1. Máte silný seed set, ale je malý. Výskum ukazuje, že model natrénovaný na tisícke vysoko-kvalitných príkladov prekoná model na stotisíc priemerných. Ak máte 150–200 reálnych, dobre ošetrených príkladov, môžete ich rozšíriť 10–50× cez teacher model — a zachovať distribúciu, ktorú ste chceli. Toto funguje dobre pri štruktúrovaných úlohách s overiteľnými výstupmi: extrakcia entít, klasifikácia, transformácia formátov.

2. Pokrývate dlhý chvost. Reálne dáta majú distribúciu — niektoré prípady sú časté, niektoré vzácne. Model natrénovaný len na reálnych dátach nemusí vedieť dobre spracovať okrajové prípady, ktoré v histórii viackrát nevystúpili. Teacher model dokáže tieto okrajové prípady cielene pokryť.

3. Chcete preniesť reasoning z väčšieho modelu. Toto je core princíp distilačného prístupu, ktorý popularizoval DeepSeek — reťaz úvah (chain-of-thought) z frontier modelu sa používa ako tréningový signál pre menší model. Menší model sa nenaučí "vedieť" to isté, ale naučí sa *uvažovať* podobne. Výsledky sú preukázané: modely veľkosti 7B–8B natrénované na chain-of-thought syntetickom datasete môžu na úzkych reasoning úlohách prekonať niekoľkonásobne väčší generalistický model.

4. Potrebujete dátovú augmentáciu pre bezpečnostné edge cases. Red-teaming a generovanie adversariálnych príkladov — kde chcete modelu ukázať, čo *nemá* robiť — je ďalší legitímny use-case syntetiky. Reálne príklady zlyhania sú vzácne; syntetický teacher ich dokáže generovať systematicky.

Pozri tiež: Fine-tuning dataset — koľko a akú kvalitu pre kvantitatívne odporúčania o veľkosti datasetu.

Hlavné riziká: kedy model otrávia

Syntetické dáta majú tri kategórie rizík, z ktorých každý môže tichým spôsobom degradovať model.

Riziko 1: Šírenie chýb teachera

Teacher model nie je neomylný. Má vlastné halucinačné vzory, mŕtve uhly, preferencie formulácií. Keď vygeneruje tisíc príkladov a tie natrénujete na cieľový model, cieľový model sa nenaučí len žiadanú distribúciu — naučí sa aj quirks teachera. V malej dávke je to tolerovateľné. Pri veľkých syntetických datasetoch bez filtrovania to produkuje model, ktorý dôveryhodne opakuje chyby, ktoré vy neviete ani identifikovať (pretože sú chyby modelu, nie ľudí).

Príklad z praxe: klient z technickej dokumentácie mal teacher model, ktorý konzistentne pomenúval jeden typ elektrického komponentu starým obchodným názvom. Tisíc vygenerovaných príkladov neskôr bol cieľový model jemne, ale konzistentne biased smerom k tomu istému starému názvosloviu — aj keď v seed dátach takýto vzor nebol.

Riziko 2: Model collapse

Toto je technicky najzávažnejšie riziko a aktívna oblasť výskumu. Model collapse nastáva, keď model trénovaný na syntetických dátach z toho istého modelu (alebo z podobných modelov) postupne stráca variabilitu a konverguje na úzku distribúciu výstupov. Výstupy sú plynulé, formálne správne — ale model prestal pokrývať rozsah reálnych vstupov.

Intuícia: ak teacher generuje dáta, ktoré sú distribuovanou odpoveďou toho istého modelu (alebo jeho predchodcu), každá iterácia trénovania zosíluje centrálne vzory a oslabuje okraje. Po niekoľkých cykloch model vie dobre odpovedať na priemerné vstupy a prestane vedieť spracovať nezvyčajné formulácie, edge cases, alebo dáta mimo trénovacej distribúcie.

V produkčných systémoch sa to prejaví ako: model "funguje" v testoch (testy pokrývajú bežné prípady), ale v produkcii si klienti sťažujú, že niekedy dostanú generickú alebo nezmyselnú odpoveď — práve na okrajových otázkach.

Ochrana: nikdy netrénujte výhradne na syntetike. Human-seed dáta musia tvoriť aspoň ~20–30 % datasetu a musia pokrývať diverzitu vstupov — nie len priemerné prípady. Systematická evalvácia na out-of-distribution vstupoch pred deploymentom je povinná.

Riziko 3: Licenčné a ToS obmedzenia

Toto riziko je menej technické, ale pre B2B použitie kľúčové. Väčšina frontier modelov (Claude, GPT, Gemini) má v podmienkach poskytovania služieb explicitné obmedzenia týkajúce sa generovania tréningových dát na súperove modely. Konkrétne formulácie sa líšia a menia — vždy čítajte aktuálne ToS konkrétneho poskytovateľa.

Prakticky: ak používate komerčný API ako teacher model a cieľový model plánujete komerčne distribuovať alebo deploynúť pre zákazníkov, musíte mať vyjasnený právny základ. Pre interné nasadenie na vlastnej infraštruktúre je situácia odlišná, ale nie automaticky čistá.

Bezpečná cesta: open-weight modely (Qwen, Mistral a iné s Apache 2.0 alebo MIT licenciou) generovanie syntetických dát typicky dovoľujú — ale každý model má vlastné podmienky, vždy ich overte pred nasadením. Ak chcete komerčne čistý syntetický pipeline bez právnych otáznikov, teacher aj student model by mali byť z rodín s permisívnymi licenciami.

Generovanie cez teacher model — praktický postup

Predpokladáme, že máte 100–200 kvalitných seed príkladov a chcete ich rozšíriť.

1. Seed set je základ — neskrátite ho. Tých 150 príkladov musia pokrývať distribúciu, ktorú chcete. Ak seed set pokrýva len jednu tretinu use-case priestoru, synteticky rozšírený dataset bude pokrývať tú istú tretinu — len väčší.

2. Prompt engineering pre teacher. Teacher musí dostať explicitné inštrukcie o formáte, štýle, doméne, a o tom, čo chcete *zabrániť*. Vague prompt = vague dáta. Dobrý teacher prompt obsahuje: ukážkový vstup-výstup páry zo seed setu, požadovaný formát odpovede, doménovú terminológiu, ktorú chcete preferovať, a negatívne príklady (čomu sa vyhýbať).

3. Generuj viac, ako potrebuješ — a filtruj. Generujte 3–5× viac príkladov, ako plánujete použiť. Následne filtrujte: - Automatická kontrola formátu (správny JSON, správna štruktúra) - Embedding-based deduplikácia (príliš podobné príklady nič nepridajú) - Skórovanie relevantnosti — buď cez iný model ako judge, alebo cez pravidlové checkery ak máte verifikovateľné výstupy - Vzorková ľudská kontrola aspoň 5–10 % vygenerovaných príkladov

4. Miešajte s reálnymi dátami. Finálny dataset by mal obsahovať seed dáta (100 %) + syntetické dáta (10–50× viac, po filtrácii). Zachovajte identifikátor zdroja v metadátach datasetu — pri debuggingu to oceníte.

5. Evaluujte na holdout sete z reálnych dát. Toto je kritické. Eval set nesmie obsahovať syntetické príklady. Ak model nehodnotíte na reálnom ľudskom hodnotení, nikdy nezistíte, či syntetika zaviedla drift.

Pre viac o evaluácii pozri Ako zmerať, či fine-tuning pomohol.

Syntetické dáta vs dištilácia modelu — dôležitý rozdiel

Tieto pojmy sa v praxi miešajú, ale nie sú to isté.

Dištilácia modelu v pôvodnom zmysle je tréning menšieho modelu tak, aby napodobnil výstupnú distribúciu väčšieho. To zahŕňa porovnávanie distribúcií cez KL divergenciu, prístup k logitom teachera, a celé spektrum knowledge distillation techník z akademickej literatúry.

Generovanie syntetických dát z teacher modelu je pragmatickejší prístup: teacher model generuje textové príklady vstup–výstup, a tie sa použijú ako bežný SFT dataset. Nepoužívate logity teachera, nepočítate distribučné podobnosti — len generujete príklady. Výsledok je horší než plná dištilácia, ale realizovateľný bez prístupu k internám modelu a bez špeciálnych frameworkov.

V praxi sa väčšina "dištilácie" v komerčných projektoch deje práve cez druhý prístup — pretože prístup k logitom frontier modelu nie je dostupný cez štandardné API. Výsledky sú napriek tomu preukázateľné: pozri DeepSeek-R1 distilované modely, ktoré preniesli reasoning schopnosti do 1.5B–8B modelov cez syntetické chain-of-thought dáta.

Pre hlbší pohľad na samotnú dištiláciu ako techniku: Distilácia modelu.

Augmentácia vs generovanie — kedy ktoré

Augmentácia existujúcich príkladov (preformátovanie, parafráza, zmena štýlu) je bezpečnejší prístup ako čisté generovanie — zachováva fakty zo seed setu a mení len formu. Je vhodná, keď:

Vaše seed dáta sú fakticky spoľahlivé (napr. technická dokumentácia, vaše interné procesy)
Chcete model naučiť reagovať na rôzne spôsoby formulácie tej istej otázky
Nemáte dôvod zavádzať nové fakty mimo seed setu

Čisté generovanie (teacher model vytvára úplne nové príklady) je silnejšie, ale rizikovejšie — teacher môže zaviesť fakty, ktoré seed set neobsahuje, a vy to nemusíte zachytiť bez ľudskej kontroly.

Kombinovaný prístup: augmentácia pre ~60 % syntetického datasetu, čisté generovanie pre ~40 % (pre pokrytie long-tail scenárov) — s vyššou mierou ľudskej kontroly pri generovaných príkladoch.

Kedy syntetiku nepoužívať

Existujú situácie, kde syntetické dáta nielenže nepomôžu, ale aktívne uškodia:

Fakty a presné číselné hodnoty. Ak fine-tuning má model naučiť konkrétne produktové čísla, ceny, technické parametre — teacher model ich vymyslí. Toto je klasické prostredie pre halucinácie. Pre faktické znalosti je správna technika RAG alebo continued pretraining na verifikovaných textoch, nie SFT na syntetike.

Regulované domény bez expertnej validácie. V právnych, medicínskych alebo finančných kontextoch synteticky vygenerované príklady môžu obsahovať faktické chyby, ktoré reálneho experta nestojia žiadny čas rozoznať, ale ktoré trénovaný model bude replikovať s plnou istotou. Ak nemáte expertný review každého vygenerovaného príkladu, syntetiku tu nepoužívajte.

Keď nemáte žiadne seed dáta. Syntetika bez seed datasetu je generovanie od ničoho — dostanete distribúciu, ktorá reflektuje teachera, nie vašu doménu. Pred generovaním musíte mať aspoň malý, reálny, dobre anotovaný základ.

Časovo citlivé informácie. Teacher model má knowledge cutoff. Syntetické príklady o aktuálnych udalostiach, najnovšej legislatíve alebo aktuálnom trhu budú zastarané, a vy to nepoznáte, pokiaľ nezavedíte systematický fact-check pipeline.

Filtrácia a quality gates — konkrétne kroky

Filtrácia je tam, kde sa rozhoduje o tom, či syntetický dataset pomôže alebo ublíži. Minimálny quality gate:

1.Formátová validácia — automatická, 100 % príkladov. Vylúčte príklady s nesprávnym formátom, chýbajúcimi poľami, neplatnými hodnotami.
2.Deduplikácia — embedding-based similarity search; príklady s cosine similarity > 0.92 voči existujúcim príkladom vyhodiť (alebo si vybrať jeden reprezentant).
3.Skórovanie relevantnosti — ak máte verifikovateľné výstupy (kód, JSON, SQL), spustite syntaktický check. Ak nie, použite model-as-judge s explicitnou rubrikou; nie generický "je toto dobré?" prompt.
4.Distribučná analýza — porovnajte rozloženie tém, dĺžok a formátov syntetického datasetu vs seed setu. Výrazné odchýlky signalizujú drift.
5.Vzorková ľudská kontrola — min. 5 % príkladov s rotujúcim kritériom (nehodnoťte vždy tie isté typy). Zamerajte sa na: fakty, tón, edge cases.

Pre viac kontextu o tom, prečo kvalita dát rozhoduje viac ako kvantita: 7 dôvodov, prečo fine-tuning zlyhá.

Časté otázky

Koľko syntetických príkladov môžem pridať k reálnym dátam bez rizika?

Neexistuje pevný pomer platný pre všetky prípady. Praktický orientačný bod: syntetické príklady by nemali tvoriť viac ako 70–80 % celkového datasetu, ak nemáte silnú filtráciu a ľudskú kontrolu. Pri vyššom podiele riziko model collapse rastie. Seed dáta musia byť vždy prítomné a musia pokrývať celú distribúciu use-case priestoru — nie len bežné prípady.

Môžem použiť ChatGPT / Claude na generovanie tréningových dát pre môj model?

Závisí od použitia. Pre interné firemné nasadenie (model beží na vašej infraštruktúre, nie je komerčne distribuovaný) je situácia odlišná od komerčného produktu. Vždy čítajte aktuálne ToS konkrétneho providera — formulácie sa menia. Pre komerčne čistý pipeline odporúčame open-weight teacher modely (Llama, Qwen, Mistral) s permisívnou licenciou.

Je generovanie cez teacher model to isté ako dištilácia modelu?

Nie. Dištilácia v pôvodnom zmysle pracuje s logitmi (distribúciou pravdepodobností) teachera. Generovanie syntetických dát cez teacher API je pragmatickejšia varianta — dostanete textové príklady, nie distribučný signál. Výsledky sú slabšie ako plná dištilácia, ale realizovateľné bez prístupu k internám modelu. V komerčných projektoch je táto varianta bežnejšia práve kvôli dostupnosti.

Čo keď teacher model generuje fakticky chybné príklady?

Toto je štandardný problém a hlavný argument pre ľudskú kontrolu vzorky. Teacher model halucinuje — menej ako malé modely, ale nie nula. Riešenie: verifikovateľné úlohy (kód, JSON, SQL) overujte automaticky; fakty v neštruktúrovanom texte vyžadujú ľudský review. Ak nemáte kapacitu na ľudský review, obmedzte syntetiku na augmentáciu existujúcich overených príkladov — nie na generovanie nových faktov.

Pomôžu syntetické dáta ak model netuší nič o mojej doméne?

Málokedy. Syntetika vie rozšíriť a diverzifikovať existujúci seed set — nevie nahradiť základ doménovej znalosti. Ak model nemá žiadnu doménovú základňu, správna cesta je continued pretraining na doménových textoch (manuáloch, normách, interných dokumentoch), a až potom SFT — syntetický alebo reálny.

*MP Industrial Solutions robí tieto rozhodnutia denne pre klientov z výroby, energetiky a logistiky. Ak riešite otázku, aká kombinácia reálnych a syntetických dát dáva zmysel pre váš konkrétny model a use-case, radi to prejdeme spoločne.*