7 powodów, dla których fine-tuning w praktyce zawodzi

Fine-tuning to jeden z najczęściej powtarzanych terminów w każdym dokumencie AI roadmap. „Wytrenujemy własny model, który będzie rozumiał naszą domenę." W teorii eleganckie. W praktyce widzieliśmy, jak ten sam projekt rozpadał się w siedmiu różnych miejscach — i za każdym razem z innego powodu. Ten artykuł nie jest o tym, jak zrobić fine-tuning — jest o tym, dlaczego większość prób nie dociera do produkcji, i jak unikać tych pułapek zanim pochłoną czas i budżet.

Jeśli dopiero rozważają Państwo, czy w ogóle sięgnąć po fine-tuning czy raczej po RAG, przeczytajcie najpierw RAG vs. fine-tuning — ramy decyzyjne. Przyczyny niepowodzeń, które opisujemy poniżej, zaczynają się bowiem właśnie tam.

---

1. Za mało danych — albo dane niskiej jakości

To najczęstsza przyczyna porażki. Zespół zbiera to, co ma pod ręką — kilkaset dokumentów wewnętrznych, eksport z CRM, kilka wyeksportowanych e-maili — i uruchamia trening. Efekt to model, który z wysoką pewnością odpowiada błędnie: gorszy od modelu bazowego, który przynajmniej potrafi powiedzieć „nie wiem".

Badania wykazały (LIMA i inne prace), że stosunkowo niewielka liczba bardzo wysokiej jakości przykładów — rzędu tysiąca — potrafi wyprodukować lepszy model niż dziesiątki tysięcy przykładów niskiej jakości. Ilość bez jakości jest w tym przypadku aktywnie szkodliwa.

Praktyczne minima:

SFT (supervised fine-tuning): minimum ~1 000 wysokiej jakości par pytanie–odpowiedź lub par zadanie–rozwiązanie, z pokryciem głównych tematów Państwa domeny. Systemy produkcyjne pracują typowo na 10 000–100 000 przykładach.
DPO (preference tuning): ~2 000 par preferencyjnych z winner/loser, zweryfikowanych przez człowieka.
GRPO (RL-based tuning): ~1 000 ocenionych trajektorii z weryfikowalnymi nagrodami.

Oprócz liczby liczy się pokrycie — jeśli Państwa baza wiedzy (knowledge base) nie ma wystarczającej liczby przykładów z konkretnej poddomeny, model będzie w tym obszarze produkował halucynacje. Przed uruchomieniem treningu zalecamy przeprowadzenie audytu pokrycia tematycznego: wypiszcie główne kategorie pytań, z którymi model będzie się mierzył, i sprawdźcie, czy macie wystarczającą próbkę w każdej z nich.

---

2. Overfitting — model wie tylko to, co widział

Gdy dataset jest zbyt mały albo zbyt wąski, a model trenuje się na nim zbyt długo, dochodzi do overfittingu. Model znakomicie radzi sobie z przykładami treningowymi, ale przy jakimkolwiek odchyleniu — nieco inaczej sformułowane pytanie, inny kontekst, nieznane wejście — całkowicie zawodzi lub produkuje halucynacje.

Objawy overfittingu w praktyce:

Model dosłownie cytuje próbki treningowe zamiast generalizować.
Na danych treningowych wysokie wyniki, na nowych przykładach wyraźnie niższe.
Model odmawia odpowiadania na pytania spoza rozkładu danych treningowych zamiast przyznać niepewność.

Środki techniczne: monitorujcie validation loss podczas treningu i zatrzymajcie go, gdy zaczyna rosnąć (early stopping). Śledźcie metryki ewaluacyjne na hold-out secie, nie tylko na danych treningowych. Dla małych datasetów odpowiedniejsze jest niższe rank adaptera LoRA (np. rank=8 zamiast rank=64) i regularyzacja.

---

3. Catastrophic forgetting — model zapomina, co wiedział

Fine-tuning na wąskich danych domenowych może degradować ogólne zdolności modelu — zdolność do analizy, podsumowywania, rozumowania w języku angielskim i innych językach, podstawową logikę. To zjawisko nazywane jest catastrophic forgetting (katastroficznym zapominaniem) i jest dobrze udokumentowane.

W praktyce wygląda to tak: przez fine-tuning na wewnętrznych dokumentach technicznych uzyskujecie model, który znakomicie odpowiada na pytania z Państwa dziedziny — ale przestaje działać przy ogólnych zadaniach, z którymi wcześniej radził sobie bez problemu. Klienci, którzy nie znają tego zjawiska, interpretują to jako „model się popsuł".

Co łagodzi, choć nie eliminuje problemu:

LoRA / QLoRA — adaptery zmieniają tylko niewielką liczbę parametrów, oryginalne wagi pozostają zamrożone. To najskuteczniejszy praktyczny sposób na ograniczenie forgettingu.
Merging — fine-tuned model łączy się z modelem bazowym za pomocą narzędzi takich jak mergekit (SLERP, TIES). Wynik balansuje wiedzę domenową i zdolności ogólne.
Dywersyfikacja datasetu — włączenie przykładów ogólnego przeznaczenia do datasetu treningowego obok przykładów domenowych.

W branżach regulowanych (medycyna, prawo, farmacja) zapominanie jest szczególnie krytyczne — model, który utracił logikę i wzorce bezpieczeństwa, może produkować treści brzmiące wiarygodnie, lecz faktycznie błędne.

---

4. Zły dobór metody — pełny fine-tuning tam, gdzie wystarczyłoby LoRA, albo odwrotnie

Zespoły zaczynające przygodę z fine-tuningiem mają tendencję do popadania w skrajności: albo decydują się na pełny fine-tuning wymagający ogromnych zasobów GPU, albo wybierają najtańszy wariant bez zastanowienia się nad kompromisami.

Orientacyjne zapotrzebowanie na VRAM dla modelu 7B:

Pełny fine-tuning (BF16): ~70–120 GB — wymaga serwera multi-GPU
LoRA (16-bit): ~15 GB — A100 lub jedna RTX 4090 (24 GB VRAM)
QLoRA (4-bit): ~5 GB — mieści się na RTX 3090 z 24 GB VRAM

LoRA osiąga typowo ~90–95 % jakości pełnego fine-tuningu przy 10–20× mniejszym zapotrzebowaniu na pamięć. Dla większości domenowych przypadków użycia jest to w zupełności wystarczające — sięganie po pełny fine-tuning bez wyraźnego uzasadnienia to marnotrawstwo zasobów.

Z drugiej strony istnieją przypadki, gdzie LoRA nie wystarcza: gdy zmienia się tokenizer, gdy mamy do czynienia z językami o morfologii bardzo różniącej się od danych treningowych, albo przy głębokim „continued pretraining" (budowaniu wiedzy domenowej z nieetykietowanych tekstów). Wybór metody powinien wynikać z konkretnego celu, a nie z tego, co przypadkiem uruchomiono jako pierwsze. Szczegółowy przegląd znajdziecie w artykule LoRA vs QLoRA vs pełny fine-tuning.

---

5. Fine-tuning zamiast RAG — niewłaściwe narzędzie do niewłaściwego zadania

To prawdopodobnie najdroższy błąd, z którym się spotykamy. Zespół chce, żeby model „wiedział" o produktach firmy, dokumentach, wewnętrznych procesach. Fine-tuning wydaje się naturalną odpowiedzią. Uruchamiają go, wlewają dane do treningu i po kilku tygodniach odkrywają, że model nadal produkuje halucynacje — bo fine-tuning zawodnie dodaje fakty do modelu.

Fine-tuning jest odpowiednim narzędziem dla:

Zmiany formatu i stylu odpowiedzi (np. zawsze zwracaj JSON z konkretnym schematem).
Zmiany zachowania (np. model ma zawsze odmawiać obsługi określonych typów żądań, albo przestrzegać konkretnego tonu komunikacji).
Dostosowania do wyspecjalizowanej domeny, w której model bazowy nie ma wystarczających danych treningowych (np. wąski żargon branżowy, zastrzeżone formaty).

RAG (Retrieval-Augmented Generation — generowanie wzbogacone wyszukiwaniem) to właściwe narzędzie dla:

Dostępu do aktualnych lub zmieniających się informacji.
Odpowiadania na pytania na podstawie konkretnych dokumentów.
Identyfikowalności odpowiedzi do źródła (cytowanie, grounding).

W praktyce: jeśli Państwa celem jest „model ma umieć odpowiadać na pytania z naszego katalogu produktów" — to jest przypadek użycia RAG, nie fine-tuningu. Fine-tuning wdrożylibyście wtedy, gdy chcecie, żeby model używał Państwa specyficznego formatu odpowiedzi lub branżowej terminologii.

---

6. Brak ewaluacji — nie wiemy, czy coś zyskaliśmy, czy straciliśmy

Zaskakująco częsty scenariusz: zespół uruchamia fine-tuning, model się trenuje, sprawia wrażenie „lepszego" na kilku ręcznie przetestowanych przykładach i trafia do produkcji. Miesiąc później pojawiają się skargi na regresję — model przestaje działać na przypadkach, z którymi wcześniej radził sobie bez problemu.

Bez systematycznej ewaluacji (oceny jakości modelu) nie wiemy:

1.Czy fine-tuning w ogóle pomógł — porównanie z modelem bazowym.
2.Czy nie spowodowaliśmy regresji — wydajność na wcześniej działających przypadkach.
3.Gdzie dokładnie model zawodzi — w jakich kategoriach pytań.

Minimalny framework ewaluacyjny przed wdrożeniem produkcyjnym obejmuje:

Hold-out test set — ~10–20 % danych, które nie znajdowały się w zestawie treningowym ani walidacyjnym. Mierzymy na nim po zakończeniu treningu.
Porównanie z baseline — te same pytania do modelu bazowego i fine-tuned wersji. Regresja = jeśli fine-tuned model osiąga niższe wyniki na przypadkach, gdzie model bazowy działał poprawnie.
Metryki specyficzne dla zadania — nie tylko perplexity (techniczna metryka uczenia maszynowego), ale metryki istotne dla Państwa przypadku użycia: dokładność ekstrakcji, poprawność formatu, ocena jakości przez eksperta domenowego.

Więcej o konfiguracji ewaluacji: Jak zmierzyć, czy fine-tuning pomógł.

---

7. Nierealistyczne oczekiwania — fine-tuning to nie jest magia

Ostatnia, ale pod wieloma względami najważniejsza przyczyna. Fine-tuning jest często prezentowany w wewnętrznych prezentacjach jako rozwiązanie, które z generycznego LLM zrobi eksperta w Państwa dziedzinie. W praktyce jest to bardziej subtelne:

Fine-tuned model 4B–8B może przewyższyć generyczny model 70B+ na wąsko zdefiniowanym zadaniu — ale tylko jeśli zadanie jest rzeczywiście wąsko zdefiniowane, dane są wysokiej jakości i ewaluacja to potwierdza.
Fine-tuning nie poprawia reasoning — jeśli model bazowy nie potrafi rozwiązywać określonego rodzaju zadań logicznych, fine-tuning na danych domenowych tego nie zmieni. Do reasoning odpowiednie są metody takie jak GRPO z weryfikowalnymi nagrodami. Więcej w artykule SFT, DPO, GRPO — która metoda kiedy.
Fine-tuning to nie jest projekt jednorazowy — dane się zmieniają, model starzeje, regresje narastają. Bez infrastruktury zapewniającej powtarzalne cykle trening–ewaluacja–wdrożenie projekt stopniowo się rozpada.
Halucynacje pozostają — fine-tuning może je zredukować w konkretnej domenie, ale ich nie eliminuje. Guardrails, RAG grounding i human-in-the-loop są nadal potrzebne wszędzie tam, gdzie poprawność ma znaczenie.

Zespoły, które znają te ograniczenia przed rozpoczęciem projektu, kończą z użytecznymi modelami. Zespoły, które dowiadują się o ograniczeniach po sześciu miesiącach pracy, zazwyczaj projekt zatrzymują.

---

Podsumowanie: checklist przed uruchomieniem projektu

Zanim zdecydują się Państwo na uruchomienie projektu fine-tuningu, zalecamy przejście przez te siedem pytań:

1.Czy macie wystarczający dataset? — liczba przykładów, pokrycie tematyczne, zweryfikowana jakość.
2.Czy fine-tuning to właściwe narzędzie? — czy RAG lub prompt engineering by wystarczyły?
3.Czy macie skonfigurowaną ewaluację? — hold-out set, baseline, metryki specyficzne dla zadania.
4.Czy macie infrastrukturę GPU? — albo realistyczny plan treningu w chmurze z szacunkiem kosztów.
5.Czy jesteście gotowi na iteracje? — jeden przebieg fine-tuningu nie wystarczy, pipeline musi być powtarzalny.
6.Czy macie eksperta domenowego w pętli? — kto zweryfikuje, że model odpowiada poprawnie, a nie tylko płynnie.
7.Czy macie plan na forgetting i regresje? — monitoring, rollback, ewaluacja po każdym nowym przebiegu treningowym.

Jeśli któreś z tych pytań nie ma jasnej odpowiedzi, projekt nie jest gotowy do uruchomienia — jedynie do przygotowania.

---

Najczęstsze pytania

Dlaczego mój fine-tuned model odpowiada gorzej niż model bazowy?

Najczęstszą przyczyną jest overfitting na małym lub niskiej jakości datasecie. Model nauczył się „wzorców" z danych treningowych, ale generalizacja na nowe wejścia zawodzi. Rozwiązanie: podnieść jakość danych, zastosować early stopping, obniżyć rank adaptera LoRA — albo całkowicie przemyśleć projekt pod kątem RAG vs fine-tuning.

Ile przykładów naprawdę potrzebuję do fine-tuningu?

Dla SFT funkcjonalny wynik jest możliwy od ~1 000 wysokiej jakości przykładów, ale systemy produkcyjne pracują typowo na 10 000–100 000. Ważniejsze od ilości jest pokrycie — jeśli brakuje wystarczającej próbki w kluczowych kategoriach, model będzie w tych obszarach zawodny bez względu na łączną liczbę przykładów.

Czy fine-tuning nadaje się do aktualizowania wiedzy modelu (nowe produkty, ceny, zapisy)?

Nie. Fine-tuning zawodnie przechowuje fakty — model może sygnalizować informacje z treningu, ale miesza je z halucynacjami. Dla wiedzy, która się zmienia lub musi być weryfikowalna, właściwym narzędziem jest RAG z aktualną bazą dokumentów.

Czy mały fine-tuned model może przewyższyć duży generyczny model?

Tak — przy określonych warunkach. Fine-tuned model 4B–8B może na wąsko zdefiniowanym zadaniu przewyższyć generyczny model 70B+, jeśli zadanie jest dobrze ograniczone, dataset jest wysokiej jakości i ewaluacja to potwierdza. Na szerokich, ogólnych zadaniach większy model zazwyczaj wygrywa.

Co to jest catastrophic forgetting i jak mu zapobiegać?

Catastrophic forgetting to zjawisko, w którym fine-tuning na wąskich danych degraduje ogólne zdolności modelu — języki, logikę, rozumowanie. Najskuteczniejszym środkiem zaradczym jest LoRA lub QLoRA, które zmieniają tylko niewielką liczbę parametrów i zachowują oryginalne wagi. Pomocne jest również łączenie fine-tuned modelu z modelem bazowym za pomocą narzędzia mergekit.

---

*MP Industrial Solutions pomaga firmom ocenić, kiedy fine-tuning naprawdę ma sens, a kiedy istnieje prostsza i tańsza droga. Jeśli rozważają Państwo domenową adaptację LLM, chętnie ocenimy Państwa przypadek użycia — od datasetu po infrastrukturę i ewaluację.*

---

1. Za mało danych — albo dane niskiej jakości

Praktyczne minima:

SFT (supervised fine-tuning): minimum ~1 000 wysokiej jakości par pytanie–odpowiedź lub par zadanie–rozwiązanie, z pokryciem głównych tematów Państwa domeny. Systemy produkcyjne pracują typowo na 10 000–100 000 przykładach.
DPO (preference tuning): ~2 000 par preferencyjnych z winner/loser, zweryfikowanych przez człowieka.
GRPO (RL-based tuning): ~1 000 ocenionych trajektorii z weryfikowalnymi nagrodami.

---

2. Overfitting — model wie tylko to, co widział

Objawy overfittingu w praktyce:

Model dosłownie cytuje próbki treningowe zamiast generalizować.
Na danych treningowych wysokie wyniki, na nowych przykładach wyraźnie niższe.
Model odmawia odpowiadania na pytania spoza rozkładu danych treningowych zamiast przyznać niepewność.

---

3. Catastrophic forgetting — model zapomina, co wiedział

Co łagodzi, choć nie eliminuje problemu:

LoRA / QLoRA — adaptery zmieniają tylko niewielką liczbę parametrów, oryginalne wagi pozostają zamrożone. To najskuteczniejszy praktyczny sposób na ograniczenie forgettingu.
Merging — fine-tuned model łączy się z modelem bazowym za pomocą narzędzi takich jak mergekit (SLERP, TIES). Wynik balansuje wiedzę domenową i zdolności ogólne.
Dywersyfikacja datasetu — włączenie przykładów ogólnego przeznaczenia do datasetu treningowego obok przykładów domenowych.

---

4. Zły dobór metody — pełny fine-tuning tam, gdzie wystarczyłoby LoRA, albo odwrotnie

Orientacyjne zapotrzebowanie na VRAM dla modelu 7B:

Pełny fine-tuning (BF16): ~70–120 GB — wymaga serwera multi-GPU
LoRA (16-bit): ~15 GB — A100 lub jedna RTX 4090 (24 GB VRAM)
QLoRA (4-bit): ~5 GB — mieści się na RTX 3090 z 24 GB VRAM

---

5. Fine-tuning zamiast RAG — niewłaściwe narzędzie do niewłaściwego zadania

Fine-tuning jest odpowiednim narzędziem dla:

Zmiany formatu i stylu odpowiedzi (np. zawsze zwracaj JSON z konkretnym schematem).
Zmiany zachowania (np. model ma zawsze odmawiać obsługi określonych typów żądań, albo przestrzegać konkretnego tonu komunikacji).
Dostosowania do wyspecjalizowanej domeny, w której model bazowy nie ma wystarczających danych treningowych (np. wąski żargon branżowy, zastrzeżone formaty).

RAG (Retrieval-Augmented Generation — generowanie wzbogacone wyszukiwaniem) to właściwe narzędzie dla:

Dostępu do aktualnych lub zmieniających się informacji.
Odpowiadania na pytania na podstawie konkretnych dokumentów.
Identyfikowalności odpowiedzi do źródła (cytowanie, grounding).

---

6. Brak ewaluacji — nie wiemy, czy coś zyskaliśmy, czy straciliśmy

Bez systematycznej ewaluacji (oceny jakości modelu) nie wiemy:

1.Czy fine-tuning w ogóle pomógł — porównanie z modelem bazowym.
2.Czy nie spowodowaliśmy regresji — wydajność na wcześniej działających przypadkach.
3.Gdzie dokładnie model zawodzi — w jakich kategoriach pytań.

Minimalny framework ewaluacyjny przed wdrożeniem produkcyjnym obejmuje:

Hold-out test set — ~10–20 % danych, które nie znajdowały się w zestawie treningowym ani walidacyjnym. Mierzymy na nim po zakończeniu treningu.
Porównanie z baseline — te same pytania do modelu bazowego i fine-tuned wersji. Regresja = jeśli fine-tuned model osiąga niższe wyniki na przypadkach, gdzie model bazowy działał poprawnie.
Metryki specyficzne dla zadania — nie tylko perplexity (techniczna metryka uczenia maszynowego), ale metryki istotne dla Państwa przypadku użycia: dokładność ekstrakcji, poprawność formatu, ocena jakości przez eksperta domenowego.

Więcej o konfiguracji ewaluacji: Jak zmierzyć, czy fine-tuning pomógł.

---

7. Nierealistyczne oczekiwania — fine-tuning to nie jest magia

Fine-tuned model 4B–8B może przewyższyć generyczny model 70B+ na wąsko zdefiniowanym zadaniu — ale tylko jeśli zadanie jest rzeczywiście wąsko zdefiniowane, dane są wysokiej jakości i ewaluacja to potwierdza.
Fine-tuning nie poprawia reasoning — jeśli model bazowy nie potrafi rozwiązywać określonego rodzaju zadań logicznych, fine-tuning na danych domenowych tego nie zmieni. Do reasoning odpowiednie są metody takie jak GRPO z weryfikowalnymi nagrodami. Więcej w artykule SFT, DPO, GRPO — która metoda kiedy.
Fine-tuning to nie jest projekt jednorazowy — dane się zmieniają, model starzeje, regresje narastają. Bez infrastruktury zapewniającej powtarzalne cykle trening–ewaluacja–wdrożenie projekt stopniowo się rozpada.
Halucynacje pozostają — fine-tuning może je zredukować w konkretnej domenie, ale ich nie eliminuje. Guardrails, RAG grounding i human-in-the-loop są nadal potrzebne wszędzie tam, gdzie poprawność ma znaczenie.

---

Podsumowanie: checklist przed uruchomieniem projektu

Zanim zdecydują się Państwo na uruchomienie projektu fine-tuningu, zalecamy przejście przez te siedem pytań:

1.Czy macie wystarczający dataset? — liczba przykładów, pokrycie tematyczne, zweryfikowana jakość.
2.Czy fine-tuning to właściwe narzędzie? — czy RAG lub prompt engineering by wystarczyły?
3.Czy macie skonfigurowaną ewaluację? — hold-out set, baseline, metryki specyficzne dla zadania.
4.Czy macie infrastrukturę GPU? — albo realistyczny plan treningu w chmurze z szacunkiem kosztów.
5.Czy jesteście gotowi na iteracje? — jeden przebieg fine-tuningu nie wystarczy, pipeline musi być powtarzalny.
6.Czy macie eksperta domenowego w pętli? — kto zweryfikuje, że model odpowiada poprawnie, a nie tylko płynnie.
7.Czy macie plan na forgetting i regresje? — monitoring, rollback, ewaluacja po każdym nowym przebiegu treningowym.

Jeśli któreś z tych pytań nie ma jasnej odpowiedzi, projekt nie jest gotowy do uruchomienia — jedynie do przygotowania.

---

Najczęstsze pytania

Dlaczego mój fine-tuned model odpowiada gorzej niż model bazowy?

Ile przykładów naprawdę potrzebuję do fine-tuningu?

Czy fine-tuning nadaje się do aktualizowania wiedzy modelu (nowe produkty, ceny, zapisy)?

Czy mały fine-tuned model może przewyższyć duży generyczny model?

Co to jest catastrophic forgetting i jak mu zapobiegać?

---

Sześć filarów,jedna dostawa.

Przemysł i inżynieria

Instalacje elektryczne i automatyka

Automatyka & Sterowanie

Centra danych i serwerownie

AI, software i cloud

Smart home i IoT

7 powodów, dla których fine-tuning w praktyce zawodzi

1. Za mało danych — albo dane niskiej jakości

2. Overfitting — model wie tylko to, co widział

3. Catastrophic forgetting — model zapomina, co wiedział

4. Zły dobór metody — pełny fine-tuning tam, gdzie wystarczyłoby LoRA, albo odwrotnie

5. Fine-tuning zamiast RAG — niewłaściwe narzędzie do niewłaściwego zadania

6. Brak ewaluacji — nie wiemy, czy coś zyskaliśmy, czy straciliśmy

7. Nierealistyczne oczekiwania — fine-tuning to nie jest magia

Podsumowanie: checklist przed uruchomieniem projektu

Najczęstsze pytania

Dlaczego mój fine-tuned model odpowiada gorzej niż model bazowy?

Ile przykładów naprawdę potrzebuję do fine-tuningu?

Czy fine-tuning nadaje się do aktualizowania wiedzy modelu (nowe produkty, ceny, zapisy)?

Czy mały fine-tuned model może przewyższyć duży generyczny model?

Co to jest catastrophic forgetting i jak mu zapobiegać?

7 powodów, dla których fine-tuning w praktyce zawodzi

1. Za mało danych — albo dane niskiej jakości

2. Overfitting — model wie tylko to, co widział

3. Catastrophic forgetting — model zapomina, co wiedział

4. Zły dobór metody — pełny fine-tuning tam, gdzie wystarczyłoby LoRA, albo odwrotnie

5. Fine-tuning zamiast RAG — niewłaściwe narzędzie do niewłaściwego zadania

6. Brak ewaluacji — nie wiemy, czy coś zyskaliśmy, czy straciliśmy

7. Nierealistyczne oczekiwania — fine-tuning to nie jest magia

Podsumowanie: checklist przed uruchomieniem projektu

Najczęstsze pytania

Dlaczego mój fine-tuned model odpowiada gorzej niż model bazowy?

Ile przykładów naprawdę potrzebuję do fine-tuningu?

Czy fine-tuning nadaje się do aktualizowania wiedzy modelu (nowe produkty, ceny, zapisy)?

Czy mały fine-tuned model może przewyższyć duży generyczny model?

Co to jest catastrophic forgetting i jak mu zapobiegać?