Immer mehr Unternehmen stoßen auf dieselbe Situation: Ein Frontier-Modell liefert hervorragende Ergebnisse, ist im Produktionsbetrieb aber zu teuer oder zu langsam. Eine Latenz von 3–5 Sekunden ist bei Inline-Empfehlungen in einem MES-System nicht akzeptabel. Die Kosten für tausend Aufrufe eines großen API-Modells summieren sich monatlich auf Beträge, die der Controller nicht durchwinkt. Und ein Deployment auf einem Edge-Gerät mit begrenztem VRAM kommt schlicht nicht in Frage.
Genau hier kommt die Modell-Destillation (Knowledge Distillation) ins Spiel. Es ist keine neue Technik — sie entstand im Kontext von Klassifikationsnetzen vor mehr als einem Jahrzehnt — doch im Zeitalter großer Sprachmodelle erlebt sie eine Renaissance und ist zu einem der wichtigsten Werkzeuge für produktive Deployments geworden. Dieser Artikel erklärt, wie Destillation funktioniert, wo sie sich von Quantisierung unterscheidet, wann sie sich lohnt und was man realistisch von ihr erwarten kann.
Was Destillation ist — und was nicht
Destillation ist der Wissenstransfer von einem Modell (Teacher) auf ein anderes, kleineres (Student). Der Teacher wurde lange und auf großen Datenmengen trainiert — er verfügt über ausgereifte innere Repräsentationen und Fähigkeiten, die sich nicht direkt aus den Trainingsdaten extrahieren lassen. Der Student lernt nicht nur aus den finalen Antworten, sondern auch daraus, *wie* der Teacher argumentiert.
Eine wichtige Unterscheidung, die in der Praxis oft verwechselt wird:
Destillation ≠ Quantisierung. Quantisierung ist eine Kompressionstechnik — die ursprünglichen Gewichte werden in niedrigerer numerischer Präzision dargestellt (z. B. von FP16 auf 4-Bit-Integer über das Format .gguf). Das Modell bleibt dasselbe, belegt nur weniger Speicher und inferiert schneller, verliert dabei typischerweise ~1–3 % Qualität auf Benchmarks. Quantisierung verändert weder die Architektur noch die Parameteranzahl.
Destillation verändert beides. Der Student ist ein anderes Modell mit weniger Parametern und potenziell anderer Architektur. Ziel ist nicht, den Teacher zu komprimieren, sondern seine Fähigkeiten in eine kleinere Struktur zu übertragen.
Destillation ≠ Synthetische Daten. Wenn ein Frontier-Modell genutzt wird, um Trainingsbeispiele für ein kleineres Modell zu generieren, handelt es sich um die Erzeugung synthetischer Daten — nicht um klassische Destillation im technischen Sinne. In der Praxis werden diese Ansätze kombiniert, aber der Mechanismus ist ein anderer — ausführlicher dazu im Artikel über synthetische Daten für das Fine-tuning.
Die zwei grundlegenden Destillationstypen
Response-basierte Destillation (auf den Ausgaben)
Der einfachste Ansatz. Der Student wird auf Soft Labels trainiert — das sind vollständige Wahrscheinlichkeitsverteilungen, die der Teacher am Ausgang produziert (Logits oder Softmax-Distributionen), nicht nur die harte Antwort „richtig/falsch".
Warum sind Soft Labels wertvoller als harte? Wenn der Teacher eine Frage zur Diagnose eines technischen Problems sieht, kann seine Ausgabeverteilung sagen: „60 % Wahrscheinlichkeit A, 25 % Wahrscheinlichkeit B, 15 % Wahrscheinlichkeit C." Das spiegelt Unsicherheit und Zusammenhänge zwischen den Optionen wider. Ein harter Label wäre nur „A." Durch das Training auf Soft Labels erhält der Student ein dichteres Signal.
In der Praxis für LLMs bedeutet das: Der Student sieht Token für Token, wie der Teacher Wahrscheinlichkeiten verteilt, und versucht, diese Verteilungen nachzuahmen — nicht nur den finalen Text zu reproduzieren.
Feature-basierte Destillation (auf internen Repräsentationen)
Ein ausgefeilterer Ansatz. Der Student versucht, nicht nur die Ausgaben zu reproduzieren, sondern auch die internen Zustände des Teacher-Modells — Aktivierungen verdeckter Schichten, Aufmerksamkeitsmuster (Attention Patterns), Repräsentationen im Embedding-Raum.
Vorteil: Es wird eine tiefere Wissensstruktur übertragen. Nachteil: Teacher und Student müssen eine hinreichend kompatible Architektur aufweisen, was bei sehr unterschiedlichen Größen die Implementierung erschwert. In der Praxis wird feature-basierte Destillation am häufigsten eingesetzt, wenn Teacher und Student eine ähnliche Architektur teilen und der Teacher um den Faktor 2–4× größer ist.
Moderne Bibliotheken kombinieren beide Ansätze. Das Standard-Trainingsziel für Destillation in TRL oder Axolotl umfasst typischerweise eine Kombination aus Logit-Loss (KL-Divergenz zwischen den Verteilungen von Teacher und Student) und Ground-Truth-Label-Loss (klassische Cross-Entropy).
Wann sich Destillation lohnt
Destillation ist nicht für jeden Anwendungsfall geeignet. Wir haben Projekte gesehen, bei denen die richtige Wahl des Ansatzes zu Beginn Monate Arbeit gespart hat. Drei Situationen, in denen Destillation klar die Nase vorn hat:
Latenz und Edge-Deployment. Wenn ein Modell lokal auf einem Gerät mit 4–8 GB VRAM laufen muss — industrielles Terminal, Embedded Controller, mobile Anwendung — scheidet ein Frontier-Modell schlicht aus. Ein gut destilliertes Modell der Größe 1B–4B kann in einer engen Domäne Ergebnisse erzielen, die für den jeweiligen Use Case ausreichen. Beispiel: Ein Sprachmodell zur Klassifikation von Fehlermeldungen aus SCADA-Systemen braucht kein Allgemeinwissen eines 70B-Modells, muss aber in dieser konkreten Domäne schnell und präzise sein.
Kosten bei hohem Aufrufvolumen. Wenn eine Anwendung tausend- oder zehntausendmal täglich ein LLM aufruft, ist der Preisunterschied zwischen einem Frontier-API-Aufruf und der Inferenz eines eigenen 7B-Modells erheblich. Destillation vom teuren Frontier-Teacher zum günstig inferenzierbaren Student ist hier ein etabliertes Produktionsmuster.
Regulierte oder air-gapped Umgebungen. Daten, die den eigenen Perimeter nicht verlassen dürfen, erfordern ein lokales Modell. Wenn der Domänenexperte ein Frontier-Modell mit Cloud-API ist (z. B. für die Annotation von Trainingsdaten), überträgt Destillation sein Wissen in ein Modell, das on-premises betrieben werden kann. Mehr zu den Anforderungen regulierter Umgebungen im Artikel On-Prem LLM für regulierte Branchen.
Wann Destillation nicht ausreicht: Erfordert der Use Case allgemeines Schlussfolgern, komplexes Multi-Step-Reasoning oder die Arbeit mit langen Kontexten, wird ein kleiner Student mit einem großen Modell nicht mithalten können — unabhängig von der Qualität der Destillation. Destillation überträgt Fähigkeiten, macht aus dem Student aber keine andere Architektur.
Realistische Qualitätserwartungen
Hier sehen wir den größten Unterschied zwischen Marketingversprechen und Produktionspraxis.
Was Destillation realistisch erreicht:
Ein gut destillierter Student in einer engen Domäne (technische Dokumentation, Klassifikation, Extraktion strukturierter Daten) kann 85–95 % der Qualität des Teachers in genau dieser Domäne erreichen — bei 5–20× kleinerer Modellgröße. DeepSeek veröffentlichte Anfang 2025 eine Serie destillierter Modelle (darunter Versionen der Größe 1,5B–8B) aus ihrem größeren Reasoning-Modell, bei denen Chain-of-Thought-Reasoning in deutlich kleinere Architekturen übertragen wurde, wobei der Großteil der Leistung bei mathematischen und Coding-Aufgaben erhalten blieb.
Was Destillation nicht erhält:
Allgemeine Fähigkeiten des Teachers werden nur schwach übertragen. Ein Student, der auf technische Dokumentation destilliert wurde, wird schlechter darin sein, Marketingtexte zu schreiben oder ethische Dilemmata zu lösen. Das ist ein Feature, kein Bug — Spezialisierung ist das Ziel — aber beim Systemdesign muss man sich das bewusst machen.
Langer Kontext und komplexes Reasoning sind ein weiterer Bereich, in dem kleine Studenten verlieren. Ein Teacher mit 1M-Token-Kontext überträgt nur einen Bruchteil dieser Fähigkeit auf einen Student mit 128K-Kontext und weniger Parametern.
Praktische Faustregel: Destillation kann den Student deutlich besser machen als ein Basismodell dieser Größe — aber nicht so gut wie den Teacher in der Breite. Das Ziel ist gezielte Exzellenz, keine allgemeine Gleichwertigkeit.
Verhältnis zu Fine-tuning und synthetischen Daten
Destillation, Fine-tuning und synthetische Daten sind komplementäre Techniken, keine Alternativen. Eine typische Produktions-Pipeline sieht so aus:
- 1.Der Teacher generiert Trainingsdaten — das Frontier-Modell annotiert, beantwortet und bewertet in der eigenen Domäne. Das ist eine Kombination aus Destillation (der Teacher produziert Logits oder Soft Labels) und synthetischer Datengenerierung (der Teacher generiert Texte, die zu Trainingsbeispielen werden).
- 2.Der Student wird auf diesen Daten trainiert — über Standard-SFT (Supervised Fine-Tuning) oder mit expliziter Destillations-Lossfunktion, bei der der Student die Verteilungen des Teachers imitiert.
- 3.Optional: Alignment — DPO oder GRPO über dem destillierten Student, wenn sein Verhalten nach Präferenzen feinabgestimmt werden soll.
Wichtiges Detail: Wenn der Teacher Antworten generiert und der Student nur auf den finalen Texten trainiert wird (ohne Zugriff auf die Logits), handelt es sich technisch um Training auf synthetischen Daten, nicht um Destillation im engen Sinne. Die Ergebnisse können ähnlich sein, aber der Mechanismus ist ein anderer. Klassische Destillation mit Logits überträgt typischerweise ein reichhaltigeres Signal.
Für die Erstellung eines Destillationsdatensatzes gelten dieselben Grundsätze wie für Fine-tuning im Allgemeinen — ausführlicher dazu im Artikel Datensatz für Fine-tuning — Menge und Qualität.
Praktische Schritte zum eigenen destillierten Modell
Wer Destillation in der Praxis ausprobieren möchte — diese Pipeline funktioniert für die meisten domänenspezifischen Use Cases:
Schritt 1 — Domäne und Task definieren. Je enger die Domäne, desto besser wird der Student. „Klassifikation von Fehlercodes an Fanuc-CNC-Maschinen" ist ein besserer Scope als „industrielle Dokumentation."
Schritt 2 — Seed-Daten vorbereiten. Etwa 150–300 manuell geprüfte Beispiele (Frage/Antwort, Eingabe/Ausgabe) aus der eigenen Domäne. Das ist die Qualitätsbasis — Garbage in, Garbage out gilt hier doppelt.
Schritt 3 — Der Teacher generiert erweiterte Daten. Das Frontier-Modell auf den Seed-Beispielen laufen lassen, Variationen generieren, verwandte Fragen beantworten, Chain-of-Thought-Erklärungen produzieren lassen. Das Zielvolumen für ein funktionsfähiges SFT liegt typischerweise im Bereich von tausenden Beispielen.
Schritt 4 — Student trainieren. Für die meisten Domänenanwendungen reicht Standard-SFT mit Unsloth oder Axolotl auf einem Modell der Größe 1B–8B. Hat man Zugriff auf die Logits des Teachers (offenes Modell), lässt sich Destillations-Loss (KL-Divergenz) hinzufügen — TRL bietet dafür direkte Unterstützung. Für die Produktions-Pipeline und die Wahl der Methode empfiehlt sich auch ein Blick auf den Überblick SFT, DPO, GRPO — welche Methode wann.
Schritt 5 — Evaluierung und Vergleich. Den Student auf einem Holdout-Set der eigenen Domäne messen, mit dem Teacher und dem Basismodell ohne Destillation vergleichen. Entscheidend ist das Delta — wie weit sich der Student dem Teacher gegenüber der Baseline angenähert hat. Liegt das Delta unter 5–10 % relativ, war die Destillation erfolgreich.
Schritt 6 — Deployment. Den destillierten Student kann man quantisieren (z. B. ins Format .gguf über llama.cpp), um den Speicherbedarf bei der Inferenz weiter zu senken. vLLM oder Ollama bewältigen das Serving auch für kleine Teams ohne DevOps-Infrastruktur.
Häufige Fehler
Zu großer Student. Wer ein Modell braucht, das auf eine 8-GB-GPU passt, sollte nicht mit einem 13B-Student beginnen. Destillation schreibt die Physik nicht um — kleinere Hardware erfordert ein kleineres Modell.
Teacher und Student aus inkompatiblen Domänen. Ein Teacher, der ausschließlich auf englischem Code trainiert wurde, ist ein schlechter Teacher für deutschsprachigen Kundenservice. Der Teacher muss in der Zieldomäne kompetent sein — sonst destilliert man falsches Verhalten.
Scores auf anderen Tasks ignorieren. Destillation kann die Fähigkeiten des Students bei Aufgaben außerhalb der Trainingsverteilung verschlechtern. Hat der Student auch andere Aufgaben jenseits der destillierten Domäne, sollte man diese ebenfalls messen. Catastrophic Forgetting ist bei Destillation genauso real wie beim Fine-tuning.
Die Erwartung, dass ein kleiner Student in allem so gut ist wie ein großer. Die häufigste Fehlannahme. Destillation ist eine Optimierung für einen bestimmten Fähigkeitsausschnitt, kein Klonen des Teachers.
Häufige Fragen
Ist Destillation dasselbe wie Quantisierung?
Nein. Quantisierung komprimiert ein bestehendes Modell durch Reduzierung der numerischen Präzision der Gewichte — das Modell bleibt dasselbe, belegt nur weniger Speicher. Destillation erstellt ein völlig neues, kleineres Modell, das trainiert wird, das Verhalten des größeren nachzuahmen. Beide Ansätze werden häufig kombiniert: zuerst destilliert man, dann quantisiert man das resultierende Student-Modell.
Wie viele Daten brauche ich für die Destillation?
Das hängt vom Use Case ab und davon, ob man die Logits des Teachers oder nur seine Ausgaben (synthetische Daten) nutzt. Für enge Domänendestillation über SFT sind mit tausenden qualitativ hochwertiger Beispiele gute Ergebnisse erreichbar. Für ein robustes Produktionsmodell ohne Regressionen sollte man mit zehntausenden Beispielen rechnen. Seed-Daten: 150–300 manuell geprüfte reichen; den Rest kann der Teacher generieren.
Kann ich aus einem geschlossenen API-Modell destillieren, auf dessen Logits ich keinen Zugriff habe?
Ja, aber es handelt sich um unvollständige Destillation — beziehungsweise um Training auf synthetischen Daten. Das Frontier-Modell generiert Antworten, der Student wird auf diesen Texten über Standard-SFT trainiert. Die Ergebnisse können für die meisten Domänenaufgaben gut sein, aber das reichhaltigere Signal der Soft Labels fehlt. Vor der Nutzung unbedingt die API-Nutzungsbedingungen des jeweiligen Anbieters prüfen — manche untersagen explizit das Training auf ihren Ausgaben.
Wann ist direktes Fine-tuning besser als Destillation?
Steht ein qualitativ hochwertiges Basismodell in der gewünschten Größe zur Verfügung (z. B. Phi-4, Qwen3 4B, Gemma 3 4B) und liegen qualitativ hochwertige Domänendaten vor, ist direktes Fine-tuning einfacher und schneller. Destillation schafft Mehrwert, wenn der Teacher Fähigkeiten mitbringt, die die vorhandenen Daten nicht abdecken — etwa komplexes Reasoning, langer Chain-of-Thought oder nuancierte Unsicherheit in den Verteilungen.
Welche Hardware brauche ich für das Training des Students?
Dieselbe wie für ein Standard-LoRA- oder QLoRA-Fine-tuning eines Modells der jeweiligen Größe. Einen 1B–3B-Student trainiert man problemlos auf einer RTX 3060 12 GB oder einer stärkeren Karte. Einen 7B–8B-Student mit QLoRA betreibt man auf einer RTX 3090/4090. Das Training ist meist kürzer als vollständiges Pretraining — in der Größenordnung von Stunden, nicht Tagen.
*Bei MP Industrial Solutions begleiten wir Unternehmen auf dem Weg vom vielversprechenden Piloten zum robusten Produktionseinsatz — einschließlich der Wahl des richtigen Modells und der passenden Technik. Wenn Sie abwägen, ob für Ihren Use Case Destillation, direktes Fine-tuning oder eine Kombination mit RAG besser geeignet ist, analysieren wir die konkrete Situation gerne mit Ihnen.*
