Steeds meer bedrijven komen tot dezelfde situatie: een frontier-model werkt uitstekend, maar is in productie te duur of te traag. Een latency van 3–5 seconden is onaanvaardbaar bij inline aanbevelingen in een MES-systeem. De kosten voor duizend aanroepen van een groot API-model tellen maandelijks op tot bedragen die de controller niet wil goedkeuren. En deployment op een edge-apparaat met beperkt VRAM is simpelweg niet aan de orde.
Precies hier komt modelsdestillatie (knowledge distillation) in beeld. Het is geen nieuwe techniek — ze ontstond in de context van classificatienetwerken meer dan tien jaar geleden — maar in het tijdperk van grote taalmodellen beleeft ze een renaissance en is ze een van de sleutelinstrumenten geworden voor productie-deployment. Dit artikel legt uit hoe destillatie werkt, waar het verschilt van kwantisatie, wanneer het de moeite waard is en wat u er realistisch van kunt verwachten.
Wat destillatie is en wat niet
Destillatie is kennisoverdracht van het ene model (teacher) naar een ander, kleiner model (student). De teacher is lang getraind op veel data — hij heeft rijke interne representaties en capaciteiten die u niet rechtstreeks uit de trainingsdata kunt halen. De student leert niet alleen van de uiteindelijke antwoorden, maar ook van *hoe* de teacher redeneert.
Een belangrijk onderscheid dat in de praktijk vaak wordt verward:
Destillatie ≠ kwantisatie. Kwantisatie is een compressietechniek — u representeert de originele gewichten in een lagere numerieke precisie (bijvoorbeeld van FP16 naar 4-bit integer via het .gguf-formaat). Het model blijft hetzelfde, neemt alleen minder ruimte in beslag en inferreert sneller, waarbij het doorgaans ~1–3 % kwaliteit verliest op benchmarks. Kwantisatie verandert noch de architectuur noch het aantal parameters.
Destillatie verandert beide. De student is een ander model met minder parameters en potentieel een andere architectuur. Het doel is niet de teacher comprimeren, maar zijn capaciteiten overdragen naar een kleinere structuur.
Destillatie ≠ synthetische data. Wanneer u een frontier-model gebruikt om trainingsvoorbeelden te genereren voor een kleiner model, gaat het om het aanmaken van synthetische data, niet om klassieke destillatie in de technische zin. In de praktijk worden deze benaderingen gecombineerd, maar het mechanisme verschilt — hierover meer in het artikel over synthetische data voor fine-tuning.
Twee basistypen destillatie
Response-based destillatie (op uitvoer)
De eenvoudigste aanpak. De student wordt getraind op soft labels — dat zijn volledige kansverdelingen die de teacher op de uitvoer produceert (logits of softmax-distributies), niet alleen het harde antwoord "correct/incorrect".
Waarom zijn soft labels waardevoller dan harde? Wanneer de teacher een vraag over de diagnose van een technisch probleem ziet, kan zijn uitvoerverdeling zeggen: "60 % kans A, 25 % kans B, 15 % kans C." Dat weerspiegelt onzekerheid en samenhang tussen de opties. Een hard label zou alleen "A" zijn. Door te trainen op soft labels ontvangt de student een rijker signaal.
In de praktijk betekent dit voor LLM's dat de student token voor token ziet hoe de teacher kansen verdeelt, en probeert die distributies na te bootsen — niet alleen de uiteindelijke tekst te reproduceren.
Feature-based destillatie (op interne representaties)
Een geavanceerdere aanpak. De student probeert niet alleen de uitvoer te reproduceren, maar ook de interne toestanden van het teacher-model — activaties van verborgen lagen, aandachtspatronen (attention patterns), representaties in de embeddingsruimte.
Voordeel: draagt een diepere kennisstructuur over. Nadeel: vereist dat teacher en student een voldoende compatibele architectuur hebben, wat bij sterk uiteenlopende groottes de implementatie bemoeilijkt. In de praktijk wordt feature-based destillatie het vaakst gebruikt bij modellen met vergelijkbare architectuur, waarbij de teacher een factor 2–4× groter is.
Moderne bibliotheken combineren beide benaderingen. Het standaard trainingsobject voor destillatie in TRL of Axolotl bevat doorgaans een combinatie van verlies op logits (KL-divergentie tussen de distributies van teacher en student) en verlies op ground-truth labels (klassieke cross-entropy).
Wanneer destillatie de moeite waard is
Destillatie is niet voor elk scenario geschikt. We hebben projecten gezien waarbij de juiste keuze van aanpak vanaf het begin maanden werk bespaarde. Drie situaties waarin destillatie duidelijk wint:
Latency en edge-deployment. Als het model lokaal moet draaien op een apparaat met 4–8 GB VRAM — een industriële terminal, een embedded controller, een mobiele applicatie — komt een frontier-model simpelweg niet in aanmerking. Een goed gedestilleerd model van 1B–4B kan op een smalle domein resultaten bereiken die voor de betreffende use case voldoende zijn. Voorbeeld: een taalmodel voor het classificeren van foutmeldingen uit SCADA-systemen hoeft niet de algemene kennis van een 70B-model te hebben, maar moet snel en nauwkeurig zijn op dat specifieke domein.
Kosten bij hoge aanroepvolumes. Als uw applicatie het LLM duizenden of tienduizenden keren per dag aanroept, is het prijsverschil tussen een frontier-API-aanroep en de inferentie van een eigen 7B-model een orde van grootte. Destillatie van een dure frontier-teacher naar een goedkoop te inferreren student is hier een standaard productiepatroon.
Gereguleerde of air-gapped omgevingen. Data die uw perimeter niet mogen verlaten, vereisen een lokaal model. Als uw domeinexpert een frontier-model met cloud-API is (bijvoorbeeld voor het annoteren van trainingsdata), draagt destillatie zijn kennis over naar een model dat u on-prem kunt deployen. Meer over de vereisten van gereguleerde omgevingen in het artikel On-prem LLM voor gereguleerde sectoren.
Wanneer destillatie niet volstaat: als uw use case algemeen redeneren vereist, complexe multi-step reasoning of verwerking van lange context, zal een kleine student niet concurreren met een groot model, ongeacht de kwaliteit van de destillatie. Destillatie draagt capaciteiten over, maar maakt van de student geen andere architectuur.
Realistische verwachtingen over kwaliteit
Dit is waar we het grootste verschil zien tussen marketingclaims en productieervaring.
Wat destillatie realistisch bereikt:
Een goed gedestilleerde student op een smal domein (technische documentatie, classificatie, extractie van gestructureerde data) kan 85–95 % van de teacherkwaliteit bereiken op dat specifieke domein, bij een 5–20× kleinere omvang. DeepSeek publiceerde begin 2025 een serie gedestilleerde modellen (inclusief versies van 1,5B–8B) van hun grotere reasoning-model, waarbij chain-of-thought-redenering succesvol werd overgedragen naar aanzienlijk kleinere architecturen met behoud van het grootste deel van de prestaties op wiskundige en codeertaken.
Wat destillatie niet behoudt:
De algemene capaciteiten van de teacher worden slecht overgedragen. Een student gedestilleerd op technische documentatie zal minder goed marketingteksten schrijven of ethische dilemma's oplossen. Dit is een kenmerk, geen bug — specialisatie is de bedoeling — maar u moet dit beseffen bij het ontwerpen van het systeem.
Lange context en complexe reasoning zijn een ander gebied waar de kleine student achteruit gaat. Een teacher met 1M token context draagt slechts een fractie van die capaciteit over aan een student met 128K context en minder parameters.
Praktische vuistregel: u kunt destilleren zodat de student beduidend beter is dan het basismodel van die omvang — maar u kunt niet destilleren zodat de student even goed is als de teacher in het algemeen. Het doel is gerichte excellentie, niet algemene gelijkwaardigheid.
Relatie met fine-tuning en synthetische data
Destillatie, fine-tuning en synthetische data zijn complementaire technieken, geen alternatieven. Een typische productiepipeline ziet er als volgt uit:
- 1.Teacher genereert trainingsdata — het frontier-model annoteert, beantwoordt en evalueert op uw domein. Dit is een combinatie van destillatie (teacher produceert logits of soft labels) en synthetische datageneratie (teacher genereert teksten die trainingsvoorbeelden worden).
- 2.Student wordt getraind op deze data — via standaard SFT (Supervised Fine-Tuning) of met een expliciete destillatieverliesfunctie, waarbij de student de distributies van de teacher nabootst.
- 3.Optioneel: alignment — DPO of GRPO op de gedestilleerde student, als u zijn gedrag verder wilt afstemmen op voorkeuren.
Belangrijk detail: als de teacher antwoorden genereert en de student alleen op de uiteindelijke teksten wordt getraind (zonder toegang tot logits), spreken we technisch over training op synthetische data, niet over destillatie in de strikte zin. De resultaten kunnen vergelijkbaar zijn, maar het mechanisme verschilt. Klassieke destillatie met logits draagt doorgaans een rijker signaal over.
Bij het samenstellen van een dataset voor destillatie gelden dezelfde principes als bij fine-tuning in het algemeen — hierover meer in het artikel Dataset voor fine-tuning — hoeveel en welke kwaliteit.
Praktische stappen naar een eigen gedestilleerd model
Als u destillatie in de praktijk wilt uitproberen, werkt de volgende pipeline voor de meeste domein-use-cases:
Stap 1 — Definieer het domein en de taak. Hoe smaller het domein, hoe beter de student leert. "Classificatie van foutcodes van Fanuc CNC-machines" is een betere scope dan "industriële documentatie."
Stap 2 — Bereid seed-data voor. Circa 150–300 handmatig geverifieerde voorbeelden (vraag/antwoord, invoer/uitvoer) uit uw domein. Dit is de basis van de kwaliteit — garbage in, garbage out geldt dubbel.
Stap 3 — Teacher genereert uitgebreide data. Draai het frontier-model op uw seed-voorbeelden, laat het variaties genereren, verwante vragen beantwoorden, chain-of-thought-verklaringen produceren. Het doelvolume voor een functionele SFT is doorgaans duizenden voorbeelden.
Stap 4 — Training van de student. Voor de meeste domeingevallen volstaat standaard SFT met Unsloth of Axolotl op een model van 1B–8B. Als u toegang heeft tot de logits van de teacher (open model), voeg dan destillatieverlies toe (KL-divergentie) — TRL heeft hiervoor directe ondersteuning. Voor de productiepipeline en de keuze van methode raad ik ook het overzicht aan SFT, DPO, GRPO — welke methode wanneer.
Stap 5 — Evaluatie en vergelijking. Meet de student op een holdout-set uit uw domein, vergelijk met de teacher en met het basismodel zonder destillatie. U bent geïnteresseerd in de delta — hoeveel de student de teacher nadert ten opzichte van de baseline. Als de delta kleiner is dan 5–10 % relatief, was de destillatie geslaagd.
Stap 6 — Deployment. Het gedestilleerde studentmodel kunt u kwantiseren (bijvoorbeeld naar het .gguf-formaat via llama.cpp) voor verdere verlaging van de geheugenvereisten bij inferentie. vLLM of Ollama handelen het serving af, ook voor kleine teams zonder DevOps-infrastructuur.
Veelgemaakte fouten
Student te groot. Als u een model wilt dat op een 8 GB GPU past, begin dan niet met een student van 13B. Destillatie herschrijft de fysica niet — kleinere hardware vereist een kleiner model.
Teacher en student uit incompatibele domeinen. Een teacher die uitsluitend getraind is op Engelstalige code is een slechte teacher voor Nederlandstalige klantenservice. De teacher moet competent zijn op uw doeldomein — anders destilleert u het verkeerde gedrag.
Scores op andere taken negeren. Destillatie kan de capaciteiten van de student op taken buiten de trainingsdistributie verslechteren. Als uw student ook andere taken heeft buiten het gedestilleerde domein, meet dan ook die. Catastrofaal vergeten (catastrophic forgetting) is reëel bij destillatie — niet alleen bij fine-tuning.
Verwachten dat een kleine student een grote op alles evenaart. De meest voorkomende misvatting. Destillatie is optimalisatie voor een specifiek segment van capaciteiten, geen klonen van de teacher.
Veelgestelde vragen
Is destillatie hetzelfde als kwantisatie?
Nee. Kwantisatie comprimeert een bestaand model door de numerieke precisie van de gewichten te verlagen — het model blijft hetzelfde, neemt alleen minder ruimte in beslag. Destillatie maakt een volledig nieuw, kleiner model dat wordt getraind om het gedrag van het grotere na te bootsen. Beide benaderingen worden vaak gecombineerd: u destilleert eerst, daarna kwantiseert u het resulterende studentmodel.
Hoeveel data heb ik nodig voor destillatie?
Dat hangt af van de use case en van de vraag of u de logits van de teacher gebruikt of alleen zijn uitvoer (synthetische data). Voor smalle domeinsdestillatie via SFT zijn resultaten haalbaar met duizenden voorbeelden — mits die kwalitatief zijn. Voor een robuust productiemodel zonder regressies rekent u op tienduizenden voorbeelden. Seed-data van 150–300 handmatig geverifieerde voorbeelden volstaat; de rest kan de teacher genereren.
Kan ik destilleren van een gesloten API-model waarvoor ik geen toegang heb tot de logits?
Ja, maar dat is onvolledige destillatie — of anders gezegd training op synthetische data. Het frontier-model genereert antwoorden, u traint de student op die teksten via standaard SFT. De resultaten kunnen goed zijn voor de meeste domaintaken, maar u mist het rijkere signaal van soft labels. Controleer de API-voorwaarden van de betreffende provider voordat u begint — sommige verbieden expliciet training op hun uitvoer.
Wanneer kiest u voor destillatie en wanneer voor directe fine-tuning?
Als u beschikt over een kwalitatief basismodel van de gewenste omvang (bijvoorbeeld Phi-4, Qwen3 4B, Gemma 3 4B) en over kwalitatieve domeindata, is directe fine-tuning eenvoudiger en sneller. Destillatie voegt waarde toe wanneer de teacher capaciteiten heeft die uw bestaande data niet vastleggen — zoals complexe reasoning, lange chain-of-thought of genuanceerde onzekerheid in distributies.
Welke hardware heb ik nodig voor de training van de student?
Dezelfde als voor standaard LoRA- of QLoRA-fine-tuning van een model van die omvang. Een student van 1B–3B traint u probleemloos op een RTX 3060 12 GB of hogere kaart. Een student van 7B–8B met QLoRA draait op een RTX 3090/4090. De training duurt doorgaans korter dan volledige pretraining — in de orde van uren, niet dagen.
*Bij MP Industrial Solutions helpen we bedrijven om van een veelbelovende pilot naar een robuuste productie-deployment te gaan — inclusief de keuze van het juiste model en de juiste techniek. Als u overweegt of destillatie, directe fine-tuning of een combinatie met RAG het beste past bij uw use case, beoordelen we graag de concrete situatie.*
