Continued Pretraining vs. Fine-Tuning: wann die Domäne tiefer eintrainieren

Ein Unternehmen setzt RAG über interne Dokumentation ein, die Ergebnisse sind akzeptabel, aber das Modell macht weiterhin seltsame Fehler — es versteht Abkürzungen nicht, verwechselt Fachbegriffe, antwortet generisch. Das Team probiert SFT (Supervised Fine-Tuning) auf einigen hundert Beispielen. Eine Verbesserung ist erkennbar, aber das vertiefte Domänenwissen fehlt nach wie vor. Jemand schlägt vor: „Was wäre, wenn wir das Modell auf der gesamten Firmendokumentation nachtrainieren? Allen diesen 800 PDF?"

Genau das ist die Situation, in der Continued Pretraining ins Spiel kommt — eine Methode, die zwischen dem Training eines Modells von Grund auf und klassischem Domänen-Fine-Tuning steht. Sie ist leistungsstärker, teurer und weniger erprobt als SFT. Und genau deshalb lohnt es sich, sie zu verstehen, bevor man sie einsetzt oder verwirft.

Was Continued Pretraining ist — und was nicht

Continued Pretraining (manchmal auch Domain-Adaptive Pretraining, DAPT oder Second-Stage Pretraining genannt) ist der Prozess, bei dem man ein fertiges vortrainiertes Modell nimmt und es weiterhin im Stil des Pretrainings trainiert — also auf einem großen Korpus nicht annotierter Texte, mittels Causal Language Modeling (Vorhersage des nächsten Tokens).

Der Unterschied zu klassischem Fine-Tuning (SFT) ist grundlegend:

SFT trainiert das Modell auf annotierten Eingabe-Ausgabe-Paaren (Frage–Antwort, Anweisung–Ergebnis). Es lehrt das Modell, *wie es sich verhalten* und *wie es antworten* soll. Es erfordert verhältnismäßig kleine, aber sorgfältig annotierte Datensätze.
Continued Pretraining trainiert das Modell auf Rohtexten ohne strukturierte Antworten. Es lehrt das Modell, *was es weiß* — die Sprachverteilung, Begriffe, Muster und Fakten einer bestimmten Domäne. Es erfordert große Textmengen, aber ohne manuelle Annotation.

Eine weitere häufige Verwechslung: Continued Pretraining ist nicht dasselbe wie Full Fine-Tuning. Full Fine-Tuning beschreibt, *wie viele Gewichte trainiert werden* (alle, im Gegensatz zu LoRA). Continued Pretraining beschreibt, *welcher Trainingstyp* stattfindet (weiteres Pretraining vs. Instruktions-Fine-Tuning). Man kann Continued Pretraining via LoRA, QLoRA oder vollständigem Parameter-Update durchführen — es handelt sich um orthogonale Dimensionen.

Wann Continued Pretraining sinnvoll ist

Nicht jedes Domänenproblem erfordert Continued Pretraining. Aus der Praxis sehen wir drei Hauptszenarien, in denen es Sinn ergibt:

1. Neue Domäne mit hoher technischer Dichte und eigenem Vokabular

Wenn Ihre Domäne Terminologie, Abkürzungen und Phrasen verwendet, die im Standardtrainingstext selten vorkommen oder fehlen. Beispiele: Industriedokumentation mit Zehntausenden von Abkürzungen, spezifische medizinische Teilbereiche, unternehmensinterner Regulierungssprache, technische Normen. Ein Modell nach SFT kann Antworten zwar korrekt *formatieren*, versteht die Fachbegriffe aber nicht tiefgreifend — das zeigt sich bei konkreten Fragen.

2. Mangel an annotierten Daten, aber ausreichend Rohtext

Das Annotieren von Daten für SFT ist teuer und zeitaufwendig. Wenn Sie 500 GB technischer Dokumentation haben, aber nur 500 qualitativ hochwertige annotierte Q&A-Beispiele, ermöglicht Continued Pretraining die Nutzung des gesamten Textkorpus ohne Annotationsaufwand. Anschließend folgt SFT als „Verhaltensfeinjustierung" auf der neuen Wissensbasis.

3. Andere Sprache oder Sprachmischung

Die meisten populären Open-Weight-Modelle sind dominant englischsprachig. Wenn Sie starke Fähigkeiten auf Deutsch, Slowakisch, Tschechisch oder anderen Sprachen mit geringerer Repräsentation im ursprünglichen Pretraining benötigen, verbessert Continued Pretraining auf einem großen Sprachkorpus die Fähigkeiten in der jeweiligen Sprache erheblich — einschließlich Grammatik, Idiomatik und kulturellem Kontext.

Umgekehrt ist Continued Pretraining *nicht sinnvoll*, wenn: - Ausreichend qualitativ hochwertige Q&A-Beispiele vorliegen und die Domäne sich nicht grundlegend vom ursprünglichen Pretraining unterscheidet - Der Hauptbedarf eine Änderung des *Verhaltens* ist (Format, Ton, Ablehnung, Antwortstruktur) — das ist Aufgabe von SFT oder DPO - Das Rechenbudget begrenzt ist und ein schnelles Ergebnis benötigt wird

Typische Pipeline: wie es in der Praxis aussieht

Wenn man sich für Continued Pretraining entscheidet, ist es ein mehrstufiger Prozess. Abkürzungen führen nicht zum Ziel.

Phase 1 — Korpusvorbereitung

Dies ist die längste und wichtigste Phase. Der Quelltext muss bereinigt sein: keine Duplikate, keine OCR-Artefakte, kein irrelevanter Inhalt (Footer, Navigation, Formularfelder). Empfohlen wird auch Deduplication auf n-Gramm-Ebene — das Modell sollte denselben Satz nicht hundertfach sehen, da dies zu Memorization statt Generalisierung führt.

Korpusgröße: Für einen merklichen Effekt sprechen wir in der Praxis von *Hunderten Millionen Tokens*, idealerweise *Milliarden*. Ein typisches technisches Dokument im PDF-Format umfasst nach der Verarbeitung ca. 50.000–200.000 Tokens. Fünfhundert solcher Dokumente entsprechen also ca. 25–100 Millionen Tokens — was an der unteren Grenze sinnvollen Continued Pretrainings liegt.

Ein wichtiges Detail: gemischtes Pretraining ist besser als rein domänenspezifisches. Wenn man ausschließlich auf Domänentexten trainiert, vergisst das Modell allgemeine Fähigkeiten, und die Sprache „erstarrt" in einem Register. Ein gutes Rezept ist ein Mix aus 80–90 % Domänendaten und 10–20 % allgemeinem Text (z. B. ein hochwertiger Web-Korpus). Das mildert katastrophales Vergessen.

Phase 2 — Trainingskonfiguration

Der entscheidende Unterschied zu SFT: Die Lernrate muss deutlich niedriger sein als beim Pretraining von Grund auf. Üblich ist eine Größenordnung von 1e-5 bis 1e-4, also typischerweise 10–100× niedriger als beim ursprünglichen Pretraining. Eine zu hohe Lernrate bedeutet: das Modell „vergisst" das Gelernte; eine zu niedrige: keine Domänenadaption.

Zur Trainingsarchitektur: Die meisten Teams greifen in der Praxis auch beim Continued Pretraining auf LoRA oder QLoRA zurück, da vollständige Parameter-Updates extrem kostspielig sind. LoRA funktioniert beim Continued Pretraining — nicht so gut wie vollständige Gewichte, aber in der Praxis für die meisten Domänenadaptionen ausreichend.

Phase 3 — SFT als Finalisierung

Continued Pretraining allein produziert kein „chatfähiges" Modell. Es produziert ein Modell, das die Domäne tief versteht, aber nur freien Text generieren kann. Deshalb folgt nach Continued Pretraining fast immer SFT (und manchmal DPO), damit das Modell lernt, korrekt auf Anweisungen zu reagieren, Fragen zu beantworten und ein Format einzuhalten. Mehr zu dieser Pipeline im Artikel über die Entscheidung zwischen SFT, DPO und GRPO.

Kosten und Hardwareanforderungen

Hier muss man ehrlich sein: Continued Pretraining ist *teurer* als SFT — und das spürbar.

Bei SFT auf 10.000 Beispielen sprechen wir von Stunden Training auf einer einzelnen A100 — in der Größenordnung von einigen zehn Euro. Continued Pretraining auf 500 Millionen Tokens kann auch mit mehreren GPUs Tage dauern — selbst mit LoRA. Vollständiges Parameter-Update auf einem Milliarden-Token-Korpus kann Dutzende A100-Stunden erfordern, was in der Cloud Kosten von mehreren Hundert bis Tausend Euro bedeutet.

Orientierungswerte aus der Praxis: - LoRA Continued Pretraining eines 7B-Modells auf ~200 Mio. Tokens: ca. 10–30 Stunden auf einer einzelnen A100 80 GB - QLoRA 4-Bit Continued Pretraining eines 7B-Modells auf demselben Korpus: länger (Dequantisierung verlangsamt), passt aber auf eine Consumer-GPU mit 24 GB VRAM - Vollständiges Parameter Continued Pretraining eines 13B-Modells: Multi-GPU nahezu zwingend

A100-Preise in der Cloud liegen heute bei ca. ~$0,60/Std. (Spot-Preise bei kleineren Anbietern) bis ~$3–4/Std. bei großen Hyperscalern. Einplanen sollte man einen Puffer — der erste Lauf deckt üblicherweise Datenprobleme auf und das Training muss neu gestartet werden.

Risiken, die wir in der Praxis sehen

Katastrophales Vergessen ist eine reale Bedrohung. Ein Modell nach zu aggressivem Continued Pretraining kann bei allgemeinen Fähigkeiten degradieren — schlechteres Englisch, schlechteres Befolgen von Anweisungen, schlechtere Logik. Gegenmittel: niedrige Lernrate, gemischtes Training (siehe oben), ggf. Regularisierung. Evaluieren Sie nicht nur die Domänenleistung, sondern auch allgemeine Benchmarks vor und nach dem Training.

„Das Modell memoriert nur" — ist der Korpus klein und enthält viele sich wiederholende Dokumente, lernt das Modell, Texte zu zitieren, statt sie zu verstehen. Deduplication und Datendiversität sind Pflicht.

Naive Daten = naives Modell — im Jahr 2026 ist ein erheblicher Teil neuer Web-Texte KI-generiert, was beim Web-Crawling das Risiko birgt, auf synthetisch verteilter Generierung zu trainieren. Für firmeninterne Industriedokumente ist das üblicherweise kein Problem, aber beim Sammeln externer Quellen ist Vorsicht geboten.

Regulatorische und datenbezogene Risiken — Continued Pretraining auf Firmendokumentation kann unbeabsichtigt die Guardrails des ursprünglichen instruction-getunten Modells „vergessen" lassen. Nach Continued Pretraining folgen SFT und Alignment Fine-Tuning (DPO oder GRPO), die diese Mechanismen wiederherstellen. Überspringt man diesen Schritt, hat man ein Modell ohne eingebaute Sicherheitsverhaltensweisen. Für regulierte Branchen ist das kritisch.

Weitere Gründe, warum Domänenadaption scheitert, behandeln wir ausführlicher im Artikel über die häufigsten Ursachen für fehlgeschlagenes Fine-Tuning.

Alternative: wann RAG Continued Pretraining ersetzt

Für viele Unternehmen ist Continued Pretraining die falsche Antwort auf die richtige Frage. Wenn das Ziel ist, dass das Modell „den Inhalt von Dokumenten kennt", löst RAG (Retrieval-Augmented Generation) das günstiger, schneller und mit besserer Aktualisierbarkeit. Das Modell muss Dokumente nicht „kennen" — es reicht, wenn es sie im Moment der Anfrage als Kontext erhält.

Continued Pretraining ist die bessere Wahl, wenn: - Die Domänensprache so spezifisch ist, dass Retrieval nicht ausreicht (das Modell versteht Begriffe nicht, selbst wenn es sie im Kontext erhält) - Niedrige Latenz ohne Retrieval-Schritt benötigt wird (Edge-Deployment, Echtzeit-Prozesse) - Das Modell Inhalte in der Domänensprache generieren soll, nicht nur Fragen beantworten

RAG und Continued Pretraining schließen sich gegenseitig nicht aus — in der Praxis werden die besten Ergebnisse durch eine Kombination erzielt: ein domänenadaptiertes Modell mit RAG über aktuelle Dokumentation. Mehr zur Entscheidung zwischen diesen Ansätzen im Vergleich RAG vs. Fine-Tuning.

Praktischer Entscheidungsrahmen

Wenn ein Kunde mit der Frage kommt „Modell nachtrainieren oder nicht?", gehen wir diese Schritte durch:

1.Was genau funktioniert nicht? — schlechtes Format/Ton → SFT; Modell versteht Begriffe nicht → Continued Pretraining; Modell zitiert veraltete Informationen → RAG; Modell halluziniert Fakten → Kombination
2.Wie viel nicht annotierter Text liegt vor? — weniger als 10 Millionen Tokens? Continued Pretraining lohnt sich wahrscheinlich nicht; 100 Mio.+ Tokens? Sinnvoll zu erwägen
3.Wie hoch ist Ihr Rechenbudget? — ohne Zugang zu A100+ oder Cloud-GPU mit SFT beginnen; Continued Pretraining ist für Teams mit etablierter ML-Infrastruktur
4.Ist die Domäne wirklich spezifisch? — wenn Ihre Fachsprache auch in gewöhnlichem Web-Text zu finden ist, genügt SFT auf guten Beispielen

Häufige Fragen

Ist Continued Pretraining dasselbe wie Domain-Adaptive Pretraining?

Im Wesentlichen ja — die Begriffe werden synonym verwendet. „Domain-Adaptive Pretraining" (DAPT) ist der akademische Begriff aus der Forschungsgemeinschaft, „Continued Pretraining" ist in der Industrie gebräuchlicher. Beide beschreiben dasselbe: die Fortsetzung des Pretrainings auf einem domänenspezifischen Korpus nicht annotierter Texte.

Kann ich Continued Pretraining über LoRA durchführen, oder ist vollständiges Parameter-Update nötig?

LoRA (und QLoRA) funktioniert beim Continued Pretraining, und die meisten Teams bevorzugen es genau wegen der Speicherersparnis. Vollständiges Parameter-Update liefert geringfügig bessere Ergebnisse, aber der Unterschied ist in der Regel kleiner als der Kostenunterschied. Für die meisten Domänenadaptionen ist LoRA ausreichend.

Wie viel Text brauche ich für einen merklichen Effekt?

Aus der Praxis: Unter 50 Millionen Tokens ist der Effekt meist marginal. Eine deutliche Domänenadaption beginnt sich ab Hunderten von Millionen Tokens zu zeigen. Haben Sie weniger, investieren Sie lieber in die Qualität der SFT-Daten — Sie erhalten wahrscheinlich ein besseres Ergebnis zu niedrigeren Kosten.

Verliert das Modell nach Continued Pretraining die Fähigkeit, Anweisungen zu befolgen?

Ja — das ist eine häufige Falle. Continued Pretraining wird typischerweise auf einem *Base*-Modell durchgeführt (nicht der instruction-getunten Variante), oder bei einem instruction-getunten Modell riskiert man die Abschwächung eingebauter Verhaltensweisen. Deshalb folgt nach Continued Pretraining SFT (und ggf. DPO) als Pflichtphase. Niemals ein continued-pretrainiertes Modell ohne Instruction-Fine-Tuning-Schicht in die Produktion bringen.

Ist Continued Pretraining auch für kleine Modelle (1B–4B) geeignet?

Ja, manchmal sogar effektiver. Kleine Modelle haben eine begrenzte Kapazität für allgemeines Wissen, sodass die domänenspezifische „Überschreibung" relativ größer ist. Ein fein abgestimmtes 4B-Modell auf einer engen Domäne kann innerhalb dieser Domäne ein generisches Modell übertreffen, das um Größenordnungen größer ist. Mehr zu diesem Thema im Vergleich kleines fine-getuntes Modell vs. großes Base-Modell.

Fazit

Continued Pretraining ist keine universelle Antwort auf Probleme mit domänenspezifischen LLMs — aber für Unternehmen mit umfangreicher technischer Dokumentation, spezifischer Fachsprache oder dem Bedarf an tiefer Sprachadaption ist es ein Werkzeug, das SFT schlicht nicht ersetzen kann. Entscheidend ist zu wissen, wann man es einsetzt: wenn das Modell die Domäne auf fundamentaler Ebene nicht versteht — nicht nur wenn es Antworten falsch formatiert.

*Wenn Sie erwägen, ob Continued Pretraining für Ihren Fall geeignet ist, oder einen Entscheidungsrahmen zwischen RAG, SFT und Domänenadaption suchen, gehen wir das gerne gemeinsam durch. MP Industrial Solutions hat Erfahrung mit dem Einsatz lokaler LLMs in industriellen Umgebungen — einschließlich Fällen, in denen wir von Continued Pretraining abgeraten und eine einfachere Lösung empfohlen haben.*

Was Continued Pretraining ist — und was nicht

Der Unterschied zu klassischem Fine-Tuning (SFT) ist grundlegend:

SFT trainiert das Modell auf annotierten Eingabe-Ausgabe-Paaren (Frage–Antwort, Anweisung–Ergebnis). Es lehrt das Modell, *wie es sich verhalten* und *wie es antworten* soll. Es erfordert verhältnismäßig kleine, aber sorgfältig annotierte Datensätze.
Continued Pretraining trainiert das Modell auf Rohtexten ohne strukturierte Antworten. Es lehrt das Modell, *was es weiß* — die Sprachverteilung, Begriffe, Muster und Fakten einer bestimmten Domäne. Es erfordert große Textmengen, aber ohne manuelle Annotation.

Wann Continued Pretraining sinnvoll ist

Nicht jedes Domänenproblem erfordert Continued Pretraining. Aus der Praxis sehen wir drei Hauptszenarien, in denen es Sinn ergibt:

1. Neue Domäne mit hoher technischer Dichte und eigenem Vokabular

2. Mangel an annotierten Daten, aber ausreichend Rohtext

3. Andere Sprache oder Sprachmischung

Typische Pipeline: wie es in der Praxis aussieht

Wenn man sich für Continued Pretraining entscheidet, ist es ein mehrstufiger Prozess. Abkürzungen führen nicht zum Ziel.

Phase 1 — Korpusvorbereitung

Phase 2 — Trainingskonfiguration

Phase 3 — SFT als Finalisierung

Kosten und Hardwareanforderungen

Hier muss man ehrlich sein: Continued Pretraining ist *teurer* als SFT — und das spürbar.

Risiken, die wir in der Praxis sehen

Weitere Gründe, warum Domänenadaption scheitert, behandeln wir ausführlicher im Artikel über die häufigsten Ursachen für fehlgeschlagenes Fine-Tuning.

Alternative: wann RAG Continued Pretraining ersetzt

Praktischer Entscheidungsrahmen

Wenn ein Kunde mit der Frage kommt „Modell nachtrainieren oder nicht?", gehen wir diese Schritte durch:

1.Was genau funktioniert nicht? — schlechtes Format/Ton → SFT; Modell versteht Begriffe nicht → Continued Pretraining; Modell zitiert veraltete Informationen → RAG; Modell halluziniert Fakten → Kombination
2.Wie viel nicht annotierter Text liegt vor? — weniger als 10 Millionen Tokens? Continued Pretraining lohnt sich wahrscheinlich nicht; 100 Mio.+ Tokens? Sinnvoll zu erwägen
3.Wie hoch ist Ihr Rechenbudget? — ohne Zugang zu A100+ oder Cloud-GPU mit SFT beginnen; Continued Pretraining ist für Teams mit etablierter ML-Infrastruktur
4.Ist die Domäne wirklich spezifisch? — wenn Ihre Fachsprache auch in gewöhnlichem Web-Text zu finden ist, genügt SFT auf guten Beispielen

Sechs Säulen,eine Lieferung.

Industrie & Maschinenbau

Elektroinstallation & Automatisierung

Automation & Steuerung

Rechenzentren & Serverräume

KI, Software & Cloud

Smart Home & IoT

Continued Pretraining vs. Fine-Tuning: wann die Domäne tiefer eintrainieren

Was Continued Pretraining ist — und was nicht

Wann Continued Pretraining sinnvoll ist

Typische Pipeline: wie es in der Praxis aussieht

Kosten und Hardwareanforderungen

Risiken, die wir in der Praxis sehen

Alternative: wann RAG Continued Pretraining ersetzt

Praktischer Entscheidungsrahmen

Häufige Fragen

Ist Continued Pretraining dasselbe wie Domain-Adaptive Pretraining?

Kann ich Continued Pretraining über LoRA durchführen, oder ist vollständiges Parameter-Update nötig?

Wie viel Text brauche ich für einen merklichen Effekt?

Verliert das Modell nach Continued Pretraining die Fähigkeit, Anweisungen zu befolgen?

Ist Continued Pretraining auch für kleine Modelle (1B–4B) geeignet?

Fazit

Continued Pretraining vs. Fine-Tuning: wann die Domäne tiefer eintrainieren

Was Continued Pretraining ist — und was nicht

Wann Continued Pretraining sinnvoll ist

Typische Pipeline: wie es in der Praxis aussieht

Kosten und Hardwareanforderungen

Risiken, die wir in der Praxis sehen

Alternative: wann RAG Continued Pretraining ersetzt

Praktischer Entscheidungsrahmen

Häufige Fragen

Ist Continued Pretraining dasselbe wie Domain-Adaptive Pretraining?

Kann ich Continued Pretraining über LoRA durchführen, oder ist vollständiges Parameter-Update nötig?

Wie viel Text brauche ich für einen merklichen Effekt?

Verliert das Modell nach Continued Pretraining die Fähigkeit, Anweisungen zu befolgen?

Ist Continued Pretraining auch für kleine Modelle (1B–4B) geeignet?

Fazit