Merging modelov: SLERP, TIES, DARE a kedy to dáva zmysel

Q: Funguje merging pre MoE modely (Llama 4, Qwen3 MoE)?

Technicky čiastočne — `mergekit` pridáva podporu, no MoE architektúry sú výrazne komplikovanejšie: okrem váh expertov treba riešiť aj router parametre. Výsledky sú nepredvídateľnejšie ako pri dense modeloch a podpora nástrojov sa ešte vyvíja. Odporúčame najprv overiť aktuálny stav `mergekit` dokumentácie pre konkrétnu architektúru.

Väčšina diskusií o prispôsobení LLM sa točí okolo fine-tuningu: zhromaždiť dáta, spustiť tréning, počkať hodiny alebo dni, vyhodnocovať. Existuje však celá kategória techník, ktorá tento cyklus úplne obchádza: model merging, teda zlučovanie váh viacerých trénovaných modelov priamo v parametrickom priestore — bez jedinej trénovacej iterácie. Žiadny GPU tréning, žiadny gradient descent. Len aritmetika nad váhami.

Znelo by to ako skratka, ktorá nemôže fungovať. V praxi ale funguje prekvapivo dobre — ak viete, kedy a ako ju použiť. Tento článok vysvetľuje tri hlavné metódy (SLERP, TIES, DARE), kde sa merging líši od distilácie a ensemblingu, a čo sú realistické prínosy a limity pre firmy, ktoré zvažujú pokročilejšiu prácu s open-weight modelmi.

Čo je model merging a čo nie je

Než prejdeme k metódam, dôležité odlíšenie:

Model merging kombinuje váhy dvoch alebo viacerých modelov so zdieľanou architektúrou a tokenizérom priamo v parametrickom priestore. Výsledok je jeden model s váhami, ktoré sú nejakým spôsobom kombináciou zdrojových modelov. Nevyžaduje žiadne tréningové dáta, žiadne GPU počas samotného mergingu (len RAM na načítanie váh), žiadny gradient.

Distilácia je niečo iné: väčší teacher model generuje syntetické odpovede, na ktorých sa trénuje menší student model. Distilácia vyžaduje tréning — merging nie. Tieto prístupy sa môžu dopĺňať, ale nie sú zameniteľné. Ak vás zaujíma distilácia, venuje sa jej samostatný článok Distilácia modelu.

Ensemble je tiež odlišný prístup: viacero modelov beží v inferenčnom čase paralelne a ich výstupy sa kombinujú hlasovaním alebo priemerovým agregovaním. Ensemble je drahší na inferenciu (bežíte viac modelov), merging produkuje jeden model s bežnou inferenčnou záťažou.

Merging teda stojí v úplne vlastnej kategórii: kombinuje schopnosti bez tréningových nákladov, no na úkor nepredvídateľnosti výsledku.

Prečo merging vôbec funguje?

Intuícia za mergingom vychádza z pozorovania, že modely s rovnakou architektúrou trénované z rovnakého (alebo podobného) base modelu majú váhy v podobnom priestore. Fine-tuning na doméne A posunie váhy určitým smerom; fine-tuning na doméne B iným. Lineárna kombinácia týchto posunov teda v princípe zachytí obidve schopnosti — ak sa neneutralizujú.

Toto „ak" je jadro problému, ktorému sa venujú pokročilejšie metódy ako TIES a DARE.

Tri hlavné metódy

SLERP — sférická interpolácia

SLERP (Spherical Linear Interpolation) je najjednoduchšia a najstaršia metóda. Pôvodne sa používala na interpoláciu rotácií v 3D grafike; v kontexte modelov sa aplikuje na parametrické vektory.

Namiesto lineárneho priemerovania ((váhy_A + váhy_B) / 2) SLERP interpoluje po geodetickom oblúku na hypersférickom povrchu parametrického priestoru. Výsledok lepšie zachováva rozdiely v smeroch váh ako priamy lineárny priemer.

V praxi: - Funguje výhradne na dvoch modeloch — nie na troch a viac. - Jeden parameter t (0.0 = čisto model A, 1.0 = čisto model B, 0.5 = stred) riadi "blízkosť" výsledku. - Výsledok je citlivý na výber t — optimálna hodnota sa líši podľa dvojice modelov. - Vhodný na jemné "zmäkčenie" rozdielu dvoch fine-tunov (napr. jeden model je lepší v štýle, druhý v faktoch).

TIES — ošetrenie interferencie

TIES (Trim, Elect Sign, Disjoint Merge) rieši problém, ktorý SLERP ignoruje: keď naivne skombinujete viacero fine-tunov, ich zmeny v parametrickom priestore si môžu navzájom odporovať — niektoré parametre sa posuňou kladne u modelu A a záporne u modelu B, čím sa pri priemere vynulujú a celková schopnosť sa stratí.

TIES to rieši v troch krokoch:

1.Trim — orezanie malých zmien: zachovajú sa len najväčšie delta parametre (odchýlky od base modelu). Malé zmeny sú väčšinou šum.
2.Elect Sign — voľba smeru: pre každý parameter sa hlasovaním určí dominantný smer zmeny naprieč modelmi. Modely, ktoré hlasujú v menšinovom smere, sa pri danom parametri ignorujú.
3.Disjoint Merge — zlúčenie: každý parameter prispeje len tými modelmi, ktoré prežili predchádzajúce kroky.

TIES funguje na troch a viac modeloch, čo ho robí vhodným na budovanie "polyglot" modelov z viacerých doménových fine-tunov. Za cenu vyššej komplexnosti nastavenia.

DARE — redukcia redundancie

DARE (Drop And REscale) pristupuje k problému inak: pred zlúčením náhodne "odhodí" (nastaví na nulu) veľký podiel delta parametrov každého modelu — typicky 80–90 % z nich — a zvyšné primerane rescaluje. Intuícia: väčšina delta parametrov je redundantná alebo rušivá; zachovanie len malého podielu s rescalovaním dáva porovnateľný alebo lepší výsledok.

DARE sa v praxi kombinuje s TIES (DARE+TIES): DARE redukuje šum v každom zdrojovom modeli pred tým, ako TIES aplikuje svoju logiku interferenčnej redukcie. Táto kombinácia je v mergekit dostupná ako jedna z prednastavených stratégií.

Task Arithmetic a ďalšie varianty

mergekit a výskumná komunita implementujú aj ďalšie metódy:

Task Arithmetic: sčítanie "task vektorov" (delta od base modelu) s váhovaním — jednoduchý základ, z ktorého TIES a DARE vychádzajú.
Passthrough: niektoré vrstvy sa vezmú priamo z jedného modelu, iné z druhého — neobjektívna, ale niekedy prekvapivo efektívna metóda pri modeloch s rôzne silnými časťami.

mergekit — nástroj ktorý to spája dokopy

Pre praktické použitie je `mergekit` de facto štandard. Konfiguruje sa cez YAML súbory, čo uľahčuje reprodukovateľnosť a verzionovanie receptov. Príklad minimálnej konfigurácie pre SLERP:

merge_method: slerp
base_model: meta-llama/Llama-3-8B
models:
  - model: ./my-finetune-A
  - model: ./my-finetune-B
parameters:
  t: 0.5
dtype: bfloat16

mergekit zvládne väčšinu mergov na CPU s dostatočnou RAM (pre 7B modely v BF16 rádovo 30–40 GB RAM, žiadne VRAM). Samotný merge prebehne v minútach.

Relatívne nová funkcia tokensurgeon umožňuje cross-tokenizer transplantáciu váh — čo otvára možnosť mergovania modelov z rôznych rodín (napr. Qwen a Llama), hoci s výrazne nižšou predvídateľnosťou výsledku a potrebou dôkladnej evaluácie.

Pre tých, ktorí nechcú manuálne ladenie parametrov: existuje aj evolučný merging (Mergenetic a podobné nástroje), kde sa optimálny recept hľadá automaticky cez evolučné algoritmy — merging beží desiatky iterácií s rôznymi kombináciami parametrov, každá iterácia sa evaluuje na malej benchmark sade. Táto metóda je pomalšia (hodiny namiesto minút), ale znižuje závislosť od expertnej intuície.

Kedy merging dáva zmysel

V praxi má merging opodstatnenie v niekoľkých konkrétnych situáciách:

Kombinácia schopností z viacerých fine-tunov. Máte model fine-tunovaný na zákazníckej komunikácii a iný na technickej dokumentácii. Chcete jeden model, ktorý zvláda oboje. Miesto ďalšieho tréningu na zmiešaných dátach vyskúšajte merge — ak schopnosti nie sú v konflikte, výsledok môže byť porovnateľný.

Zrýchlená explorácia v rannom štádiu. Pred tým, než investujete hodiny tréningu do každej kombinácie hyperparametrov a dátových mixov, merging vám umožní rýchlo preskúmať priestor možností. Niekoľko mergov z existujúcich checkpointov stojí menej ako niekoľko tréningových behov.

Záloha pri chýbajúcich tréningových zdrojoch. Ak nemáte GPU kapacitu na ďalší tréning, ale máte viacero čiastočne špecializovaných modelov, merging je legitímna alternatíva.

Jemné doladenie štýlu. SLERP s hodnotou t bližšou k jednej strane vám dá model, ktorý "trochu viac" prihliadne na vlastnosti jedného z fine-tunov — čo môže byť všetko, čo potrebujete na dosiahnutie požadovaného tónu.

Kedy merging nedáva zmysel

Rovnako dôležité je vedieť, kedy merging neskúšať:

Výrazne rozdielne tréningové distribúcie. Čím viac sa dátové distribúcie a ciele zdrojových modelov líšia, tým väčšia je pravdepodobnosť interferencie. Merge modelu trénovaného na právnických zmluvách s modelom trénovaným na básnickej tvorbe pravdepodobne nebude mať zmysel — oba fine-tuny ťahajú váhy rôznymi smermi.

Rôzne architektúry alebo tokenizéry (bez tokensurgeon). Merging predpokladá identickú architektúru a rovnaký tokenizér — inak technicky neexistuje konzistentný parametrický priestor, v ktorom by sa dalo interpolovať.

Keď potrebujete predvídateľné zlepšenie. Merging je experimentálny. Nie vždy funguje. Výsledok treba vždy evaluovať na vašich konkrétnych benchmarkoch — bez evaluácie nemáte istotu, či ste nezmenili model k horšiemu. Ak váš projekt vyžaduje garancie, siahnite po štandardnom fine-tuningu, ktorého výsledok je replikovateľný a kontrolovateľný. Problematike merania kvality fine-tuningových zmien sa venuje článok Ako zmerať, či fine-tuning pomohol.

Regulované prostredia. V kontexte medicíny, práva alebo financií je merging na produkčnom modeli rizikovejší ako fine-tuning — z dôvodu slabšej auditovateľnosti. Nemôžete ukázať, na akých dátach bol výsledný model trénovaný. Pre regulované sektory odporúčame merging iba ako nástroj pre interné experimenty, nie ako cestu k produkčnému modelu.

Riziká a obmedzenia

Degradácia na dlhom chvoste. Merging sa zvyčajne hodnotí na populárnych benchmarkoch. Na okrajových prípadoch špecifických pre vašu doménu môže výsledný model zlyhávať spôsobmi, ktoré jednoduché benchmarky nezachytia.

Rozptyl kvality. Rovnaká metóda s rôznymi pármi modelov produkuje dramaticky rôzne výsledky. Recept, ktorý fungoval pre jednu dvojicu fine-tunov, nemusí fungovať pre inú.

Nekontrolovaný výsledok z pohľadu bezpečnosti. Merged modely môžu prebrať nevhodné správanie z jedného zo zdrojových modelov, ak nebol dostatočne zarovnaný (aligned). Toto je osobitne dôležité pri mergingu modelov od rôznych trénerov.

SLERP/TIES merging nie je „vždy bezpečné" — v zmysle, že výsledný model nemusí zachovať všetky žiaduce vlastnosti zdrojových. Výsledok treba vždy evaluovať. Ak sa chcete vyhnúť najčastejším pasciam pri experimentovaní s fine-tuningom vo všeobecnosti, prečítajte si 7 dôvodov, prečo fine-tuning v praxi zlyhá.

Merging vs. fine-tuning: kedy čo

Jednoduchý rozhodovací rámec:

Máte aspoň dva existujúce fine-tuny zo spoločnej base modelu a chcete preskúmať kombináciu? → Vyskúšajte merge najprv.
Potrebujete model s konkrétnou doménovou znalosťou, ktorú žiadny z vašich fine-tunov nemá? → Fine-tuning na nových dátach.
Potrebujete garanciu kvality a auditovateľnosť v regulovanom prostredí? → Fine-tuning s dokumentovanými dátami.
Chcete rýchlu exploráciu pred investíciou do tréningu? → Merge je legitímna vstupná sonda.
Pracujete s MoE architektúrou (Llama 4, Qwen3 MoE)? → Merging je oveľa komplikovanejší, podpora nástrojov je menej zrelá — overte pred investíciou.

Merging nie je náhradou za fine-tuning. Je to doplnkový nástroj v toolboxe pokročilého ML inžiniera — hodnotný presne tam, kde by tréning bol zbytočne drahý na exploratívne otázky. Vzťah medzi fine-tuningom a mergingom je podobný ako medzi lokálnymi LLM a cloudom: oba majú svoje miesto, záleží na kontexte.

Praktický postup pre prvý pokus

Ak chcete merging vyskúšať:

1.Začnite s dvomi fine-tunmi zo spoločného base modelu, kde oba majú zdokumentovanú kvalitu na vašich benchmarkoch.
2.Nainštalujte mergekit, napíšte YAML konfiguráciu pre SLERP s t=0.5.
3.Spustite merge (beží na CPU, zaberá desiatky GB RAM, žiadne GPU).
4.Evaluujte výsledok na rovnakých benchmarkoch ako zdrojové modely — bez evaluácie neviete nič.
5.Ak výsledok sľubuje, experimentujte s rôznymi hodnotami t alebo prejdite na TIES pre viac modelov.
6.Len ak evalvácia potvrdí kvalitu → použite v produkcii.

Časté otázky

Je merging náhradou za fine-tuning?

Nie. Merging predpokladá, že máte aspoň jeden kvalitne natrénovaný fine-tun — pracuje nad existujúcimi výsledkami tréningu, nenahradí ho. Ak žiadny fine-tun neexistuje, merging nemá s čím pracovať.

Koľko RAM potrebujem na merge 7B modelov?

Pre 7B modely v BF16 rámcovo 30–40 GB RAM na CPU. Samotné VRAM nie je potrebné — merge prebehne na CPU za niekoľko minút. Pre 13B modely počítajte rádovo dvojnásobok.

Čím sa DARE líši od náhodného odstraňovania váh (pruning)?

Pruning trvale odstraňuje parametre s cieľom zmenšiť model. DARE odstraňuje delta parametre (odchýlky od base modelu) pred mergingom s cieľom redukovať interferenčný šum — výsledný model má rovnaký počet parametrov ako zdrojové modely. Ide o fundamentálne odlišné motivácie.

Funguje merging pre MoE modely (Llama 4, Qwen3 MoE)?

Technicky čiastočne — mergekit pridáva podporu, no MoE architektúry sú výrazne komplikovanejšie: okrem váh expertov treba riešiť aj router parametre. Výsledky sú nepredvídateľnejšie ako pri dense modeloch a podpora nástrojov sa ešte vyvíja. Odporúčame najprv overiť aktuálny stav mergekit dokumentácie pre konkrétnu architektúru.

Môžem mergom vyriešiť problém katastrofického zabudnutia?

Čiastočne — ak máte checkpoint pred zabudnutím a po fine-tuningu, merge medzi nimi môže zmierniť regresi všeobecných schopností. Toto je legitímna technika, ale nie spoľahlivá náhrada za replay dáta alebo regularizačné prístupy pri samotnom fine-tuningu.

*Ak zvažujete prácu s vlastnými fine-tunovanými modelmi a neviete, kde začať — či s výberom metódy, prípravou dát alebo mergingom — radi sa s vami pozrieme na konkrétny prípad. V MP Industrial Solutions sme prešli týmto procesom s viacerými klientmi z výroby a inžinieringu a vieme, kde sú reálne úskalia.*