Synthetische data voor fine-tuning: wanneer ze helpen en wanneer ze het model vergiftigen

Elk team dat met fine-tuning begint, stuit op dezelfde muur: echte, goed geannoteerde voorbeelden zijn schaars. Nieuwe voorbeelden handmatig aanmaken is duur en traag. Bijna onvermijdelijk volgt de vraag — wat als we data genereren met een model?

Het is een legitieme techniek. Onderzoeksteams én productiesystemen maken er gebruik van. Maar ze heeft precieze voorwaarden waaronder ze werkt, én precieze voorwaarden waaronder ze het model dat u aan het verfijnen bent stilletjes om zeep helpt. Dit artikel ontleedt beide kanten — zonder onnodig optimisme.

Wat synthetische data eigenlijk zijn (en wat niet)

Synthetische trainingsdata voor fine-tuning zijn invoer-uitvoer-voorbeelden die automatisch worden gegenereerd, niet vastgelegd uit reëel menselijk gedrag. In de praktijk betekent dit één van drie dingen:

Generatie via een teacher-model — een sterker model (bijv. een frontier-API) krijgt een instructie en genereert voorbeelden voor een zwakker doelmodel. Dit wordt soms onnauwkeurig distillatie genoemd, hoewel het niet de oorspronkelijke betekenis van distillatie heeft.
Augmentatie van bestaande data — bestaande voorbeelden worden geparafraseerd, hergeformatteerd of uitgebreid; de semantische inhoud blijft bewaard, de vorm verandert.
Self-play en synthetische scenario's — het model genereert data voor zichzelf (of in de rol van zowel leraar als leerling), typisch voor reasoning- of conversatie-fine-tuning.

Belangrijk: synthetische data zijn geen vervanging voor continued pretraining op ruwe domeinspecifieke teksten. Continued pretraining bouwt een kennisbasis op via niet-gelabelde teksten. Synthetische data voor SFT (supervised fine-tuning) leren het model formaat en gedrag, niet kennis. Deze twee lagen vullen elkaar aan, maar vervangen elkaar niet.

Wanneer synthetische data echt helpen

Niet elk use-case heeft voldoende echte data. Dit zijn de situaties waarin synthetische data reële waarde toevoegen:

1. U hebt een sterke seed set, maar die is klein. Onderzoek toont aan dat een model getraind op duizend hoogwaardige voorbeelden beter presteert dan een model op honderdduizend gemiddelde. Als u 150–200 echte, goed bewerkte voorbeelden hebt, kunt u ze 10–50× uitbreiden via een teacher-model — en de distributie behouden die u wilde. Dit werkt goed bij gestructureerde taken met verifieerbare uitvoer: entiteitsextractie, classificatie, formaattransformatie.

2. U dekt de long tail. Echte data heeft een distributie — sommige gevallen zijn frequent, andere zeldzaam. Een model dat alleen op echte data is getraind, verwerkt randgevallen die in de geschiedenis niet vaak voorkwamen mogelijk slecht. Een teacher-model kan die randgevallen gericht afdekken.

3. U wilt redeneerpatronen overbrengen vanuit een groter model. Dit is het kernprincipe van de distillatiebenadering die DeepSeek heeft gepopulariseerd — een redeneerreeks (chain-of-thought) van een frontier-model wordt gebruikt als trainingssignaal voor een kleiner model. Het kleinere model leert niet hetzelfde te "weten", maar leert op een vergelijkbare manier *te redeneren*. De resultaten zijn aangetoond: modellen van 7B–8B die zijn getraind op een synthetische chain-of-thought-dataset kunnen op smalle reasoning-taken meerdere keren grotere generalistische modellen overtreffen.

4. U hebt data-augmentatie nodig voor beveiligings-edge-cases. Red-teaming en het genereren van adversariële voorbeelden — waarbij u het model wilt laten zien wat het *niet* moet doen — is een ander legitiem gebruik van synthetische data. Echte mislukkingsgevallen zijn zeldzaam; een synthetische teacher kan ze systematisch genereren.

Zie ook: Fine-tuning dataset — hoeveel en welke kwaliteit voor kwantitatieve aanbevelingen over datasetomvang.

De belangrijkste risico's: wanneer ze het model vergiftigen

Synthetische data hebben drie categorieën risico's, elk waarvan het model stilletjes kan degraderen.

Risico 1: Fouten van de teacher verspreiden

Het teacher-model is niet onfeilbaar. Het heeft eigen hallucinatiepatronen, blinde vlekken, formuleringsvoorkeuren. Wanneer het duizend voorbeelden genereert en u die traint op het doelmodel, leert het doelmodel niet alleen de gewenste distributie — het leert ook de eigenaardigheden van de teacher. In kleine dosering is dat tolereerbaar. Bij grote synthetische datasets zonder filtering produceert dit een model dat betrouwbaar fouten herhaalt die u zelf niet kunt identificeren (omdat het fouten van het model zijn, niet van mensen).

Praktijkvoorbeeld: een klant uit de technische documentatie had een teacher-model dat consistent één type elektrisch component bij de oude handelsnaam noemde. Duizend gegenereerde voorbeelden later was het doelmodel subtiel maar consistent bevooroordeeld richting diezelfde verouderde nomenclatuur — ook al was dat patroon niet aanwezig in de seeddata.

Risico 2: Model collapse

Dit is het technisch zwaarste risico en een actief onderzoeksgebied. Model collapse treedt op wanneer een model dat is getraind op synthetische data van hetzelfde model (of vergelijkbare modellen) geleidelijk variabiliteit verliest en convergeert naar een smalle outputdistributie. De uitvoer is vloeiend en formeel correct — maar het model heeft opgehouden het brede spectrum van echte invoer te dekken.

De intuïtie: als de teacher data genereert die de gedistribueerde respons zijn van hetzelfde model (of zijn voorganger), versterkt elke trainingsiteratie de centrale patronen en verzwakt de randen. Na enkele cycli beantwoordt het model gemiddelde invoer goed, maar verwerkt het ongewone formuleringen, randgevallen of data buiten de trainingsdistributie niet meer.

In productiesystemen uit zich dat als: het model "werkt" in tests (tests dekken gewone gevallen), maar in productie klagen klanten dat ze soms een generiek of zinloos antwoord krijgen — juist op de randvragen.

Bescherming: train nooit uitsluitend op synthetische data. Menselijke seeddata moeten ten minste ~20–30 % van de dataset uitmaken en moeten de diversiteit van invoer dekken — niet alleen de gemiddelde gevallen. Systematische evaluatie op out-of-distribution-invoer vóór deployment is verplicht.

Risico 3: Licentie- en ToS-beperkingen

Dit risico is minder technisch, maar voor B2B-gebruik cruciaal. De meeste frontier-modellen (Claude, GPT, Gemini) hebben in hun servicevoorwaarden expliciete beperkingen rond het genereren van trainingsdata voor concurrerende modellen. De exacte formuleringen verschillen en veranderen — lees altijd de actuele ToS van de specifieke provider.

In de praktijk: als u een commerciële API als teacher-model gebruikt en het doelmodel commercieel wilt distribueren of deployen voor klanten, moet u de juridische basis helder hebben. Voor intern gebruik op eigen infrastructuur is de situatie anders, maar niet automatisch vrij van risico.

Veilige weg: open-weight modellen (Qwen, Mistral en andere met Apache 2.0- of MIT-licentie) staan het genereren van synthetische data doorgaans toe — maar elk model heeft eigen voorwaarden, controleer ze altijd voordat u implementeert. Als u een commercieel sluitende synthetische pipeline wilt zonder juridische vraagtekens, moeten zowel het teacher- als het student-model uit families met permissieve licenties komen.

Generatie via een teacher-model — praktische aanpak

We gaan ervan uit dat u 100–200 kwalitatieve seedvoorbeelden hebt en die wilt uitbreiden.

1. De seed set is het fundament — u beknibbelt er niet op. Die 150 voorbeelden moeten de distributie dekken die u wilt. Als de seed set slechts een derde van de use-case-ruimte dekt, dekt de synthetisch uitgebreide dataset diezelfde derde — alleen groter.

2. Prompt engineering voor de teacher. De teacher moet expliciete instructies krijgen over formaat, stijl, domein en wat u wilt *voorkomen*. Vage prompt = vage data. Een goede teacher-prompt bevat: voorbeeldparen van invoer en uitvoer uit de seed set, het gewenste antwoordformaat, de domeinspecifieke terminologie die u prefereert, en negatieve voorbeelden (wat te vermijden).

3. Genereer meer dan u nodig hebt — en filter. Genereer 3–5× meer voorbeelden dan u van plan bent te gebruiken. Filter vervolgens: - Automatische formaatcontrole (correct JSON, correcte structuur) - Embedding-gebaseerde deduplicatie (te gelijkaardige voorbeelden voegen niets toe) - Relevantiescore — via een ander model als judge, of via regelgebaseerde checkers als u verifieerbare uitvoer hebt - Steekproefsgewijze menselijke controle van ten minste 5–10 % van de gegenereerde voorbeelden

4. Meng met echte data. De uiteindelijke dataset moet seeddata bevatten (100 %) + synthetische data (10–50× meer, na filtering). Bewaar de bronidentificator in de metadata van de dataset — bij het debuggen zult u dat waarderen.

5. Evalueer op een holdout-set van echte data. Dit is cruciaal. De eval-set mag geen synthetische voorbeelden bevatten. Als u het model niet evalueert op echte menselijke beoordeling, ontdekt u nooit of synthetische data drift hebben geïntroduceerd.

Zie voor meer over evaluatie: Hoe meten of fine-tuning geholpen heeft.

Synthetische data vs. modeldistillatie — een belangrijk onderscheid

Deze begrippen worden in de praktijk door elkaar gehaald, maar ze zijn niet hetzelfde.

Modeldistillatie in de oorspronkelijke betekenis is het trainen van een kleiner model zodat het de outputdistributie van het grotere model nabootst. Dat omvat het vergelijken van distributies via KL-divergentie, toegang tot de logits van de teacher en het volledige spectrum van knowledge-distillation-technieken uit de academische literatuur.

Het genereren van synthetische data via een teacher-model is een pragmatischere aanpak: het teacher-model genereert tekstuele invoer-uitvoer-voorbeelden, die vervolgens worden gebruikt als een gewone SFT-dataset. U gebruikt de logits van de teacher niet, berekent geen distributieel gelijkenis — u genereert alleen voorbeelden. Het resultaat is zwakker dan volledige distillatie, maar uitvoerbaar zonder toegang tot de internals van het model en zonder speciale frameworks.

In de praktijk verloopt de meeste "distillatie" in commerciële projecten via de tweede aanpak — omdat toegang tot logits van frontier-modellen niet beschikbaar is via standaard-API's. De resultaten zijn desondanks aantoonbaar: zie de gedistilleerde DeepSeek-R1-modellen, die redeneervermogens hebben overgedragen naar 1.5B–8B-modellen via synthetische chain-of-thought-data.

Voor een diepere kijk op distillatie als techniek: Modeldistillatie.

Augmentatie vs. generatie — wanneer welke

Augmentatie van bestaande voorbeelden (herformattering, parafrase, stijlwijziging) is een veiligere aanpak dan pure generatie — het bewaart de feiten uit de seed set en wijzigt alleen de vorm. Dit is geschikt wanneer:

Uw seeddata feitelijk betrouwbaar zijn (bijv. technische documentatie, uw interne processen)
U het model wilt leren reageren op verschillende manieren om dezelfde vraag te formuleren
U geen reden hebt om nieuwe feiten buiten de seed set te introduceren

Pure generatie (het teacher-model maakt volledig nieuwe voorbeelden) is krachtiger, maar risicovoller — de teacher kan feiten introduceren die de seed set niet bevat, en u merkt dat mogelijk niet op zonder menselijke controle.

Gecombineerde aanpak: augmentatie voor ~60 % van de synthetische dataset, pure generatie voor ~40 % (voor de dekking van long-tail-scenario's) — met een hogere mate van menselijke controle bij de gegenereerde voorbeelden.

Wanneer synthetische data niet te gebruiken

Er zijn situaties waarin synthetische data niet alleen niet helpen, maar actief schade aanrichten:

Feiten en precieze numerieke waarden. Als fine-tuning het model specifieke productnummers, prijzen of technische parameters moet leren — verzint het teacher-model die. Dit is de klassieke omgeving voor hallucinaties. Voor feitelijke kennis is de juiste techniek RAG of continued pretraining op geverifieerde teksten, niet SFT op synthetische data.

Gereguleerde domeinen zonder expertvalidatie. In juridische, medische of financiële contexten kunnen synthetisch gegenereerde voorbeelden feitelijke fouten bevatten die een echte expert direct herkent, maar die het getrainde model met volledige zekerheid zal herhalen. Als u geen expertreview hebt voor elk gegenereerd voorbeeld, gebruik hier dan geen synthetische data.

Wanneer u geen seeddata hebt. Synthetische data zonder seed dataset is generatie vanuit het niets — u krijgt een distributie die de teacher weerspiegelt, niet uw domein. Voordat u begint met genereren, moet u ten minste een kleine, echte, goed geannoteerde basis hebben.

Tijdgevoelige informatie. Het teacher-model heeft een knowledge cutoff. Synthetische voorbeelden over actuele gebeurtenissen, recente wetgeving of de huidige markt zijn verouderd — en u merkt dat niet tenzij u een systematische fact-check pipeline inricht.

Filtering en quality gates — concrete stappen

Filtering is waar wordt bepaald of de synthetische dataset helpt of schaadt. Minimale quality gate:

1.Formaatvalidatie — automatisch, 100 % van de voorbeelden. Sluit voorbeelden uit met een onjuist formaat, ontbrekende velden of ongeldige waarden.
2.Deduplicatie — embedding-gebaseerde similarity search; voorbeelden met een cosine similarity > 0,92 ten opzichte van bestaande voorbeelden verwijderen (of één representant kiezen).
3.Relevantiescore — als u verifieerbare uitvoer hebt (code, JSON, SQL), voer een syntactische controle uit. Zo niet, gebruik een model-as-judge met een expliciete rubric; geen generieke "is dit goed?"-prompt.
4.Distributieanalyse — vergelijk de verdeling van onderwerpen, lengtes en formaten van de synthetische dataset versus de seed set. Significante afwijkingen signaleren drift.
5.Steekproefsgewijze menselijke controle — min. 5 % van de voorbeelden met een roterend criterium (beoordeel niet altijd dezelfde typen). Focus op: feiten, toon, randgevallen.

Voor meer context over waarom datakwaliteit meer bepalend is dan kwantiteit: 7 redenen waarom fine-tuning mislukt.

Veelgestelde vragen

Hoeveel synthetische voorbeelden kan ik toevoegen aan echte data zonder risico?

Er bestaat geen vaste verhouding die voor alle gevallen geldt. Een praktisch oriëntatiepunt: synthetische voorbeelden mogen niet meer dan 70–80 % van de totale dataset uitmaken als u geen sterke filtering en menselijke controle hebt. Bij een hogere verhouding neemt het risico op model collapse toe. Seeddata moeten altijd aanwezig zijn en de volledige distributie van de use-case-ruimte dekken — niet alleen de gewone gevallen.

Mag ik ChatGPT / Claude gebruiken om trainingsdata te genereren voor mijn model?

Dat hangt af van het gebruik. Voor intern bedrijfsgebruik (het model draait op uw eigen infrastructuur, wordt niet commercieel gedistribueerd) is de situatie anders dan voor een commercieel product. Lees altijd de actuele ToS van de specifieke provider — formuleringen veranderen. Voor een commercieel sluitende pipeline adviseren wij open-weight teacher-modellen (Llama, Qwen, Mistral) met een permissieve licentie.

Is generatie via een teacher-model hetzelfde als modeldistillatie?

Nee. Distillatie in de oorspronkelijke betekenis werkt met logits (kansverdelingen) van de teacher. Het genereren van synthetische data via een teacher-API is een pragmatischer variant — u krijgt tekstuele voorbeelden, geen distributieel signaal. De resultaten zijn zwakker dan volledige distillatie, maar uitvoerbaar zonder toegang tot de internals van het model. In commerciële projecten is deze variant gebruikelijker, juist vanwege de beschikbaarheid.

Wat als het teacher-model feitelijk onjuiste voorbeelden genereert?

Dit is een standaardprobleem en het hoofdargument voor menselijke steekproefcontrole. Het teacher-model hallucineert — minder dan kleine modellen, maar niet nul. Oplossing: verifieerbare taken (code, JSON, SQL) automatisch controleren; feiten in ongestructureerde tekst vereisen menselijke review. Als u geen capaciteit hebt voor menselijke review, beperk synthetische data dan tot augmentatie van bestaande geverifieerde voorbeelden — niet tot het genereren van nieuwe feiten.

Helpen synthetische data als het model niets weet van mijn domein?

Zelden. Synthetische data kunnen een bestaande seed set uitbreiden en diversifiëren — ze kunnen de basis van domeinkennis niet vervangen. Als het model geen enkel domeinfundament heeft, is de juiste weg continued pretraining op domeinspecifieke teksten (handleidingen, normen, interne documenten), en daarna pas SFT — synthetisch of echt.

*MP Industrial Solutions neemt deze beslissingen dagelijks voor klanten uit de productie, energiesector en logistiek. Als u de vraag stelt welke combinatie van echte en synthetische data zinvol is voor uw specifieke model en use-case, bespreken we dat graag samen.*