Een bedrijf zet RAG op interne documentatie, de resultaten zijn acceptabel, maar het model blijft vreemde fouten maken — het begrijpt afkortingen niet, verwart vakbegrippen, en formuleert antwoorden op een generieke manier. Het team probeert SFT (supervised fine-tuning) op een paar honderd voorbeelden. Enige verbetering, maar de diepere domeinkennis ontbreekt nog altijd. Iemand stelt voor: "Wat als we het model bijtrainen op de volledige bedrijfsdocumentatie? Al die 800 pdf's?"
Dat is precies de situatie waarin continued pretraining in beeld komt — een methode die ergens tussen trainen vanaf nul en klassieke domein-fine-tuning in zit. Krachtiger, duurder en minder verkend dan SFT. Juist daarom loont het de moeite om het te begrijpen vóórdat u het inzet of afwijst.
Wat continued pretraining is — en wat niet
Continued pretraining (ook wel domain-adaptive pretraining, DAPT of second-stage pretraining genoemd) is het proces waarbij u een kant-en-klaar pretrained model neemt en verder traint op de manier van pretraining — dus op een grote corpus ongelabelde teksten, via causal language modeling (voorspelling van het volgende token).
Het verschil met klassieke fine-tuning (SFT) is fundamenteel:
- SFT traint het model op gelabelde invoer-uitvoerparen (vraag–antwoord, instructie–resultaat). Het leert het model *hoe te gedragen* en *hoe te antwoorden*. Vereist relatief kleine maar zorgvuldig gelabelde datasets.
- Continued pretraining traint het model op ruwe teksten zonder gestructureerde antwoorden. Het leert het model *wat het weet* — de taaldistributie, begrippen, patronen en feitelijke kennis van een specifiek domein. Vereist grote hoeveelheden tekst, maar zonder manuele labeling.
Een andere veelgemaakte verwarring: continued pretraining is niet hetzelfde als full fine-tuning. Full fine-tuning beschrijft *hoeveel gewichten er worden getraind* (alle, in tegenstelling tot LoRA). Continued pretraining beschrijft *welk type training* er plaatsvindt (verdere pretraining vs. instructie-fine-tuning). U kunt continued pretraining doen via LoRA, QLoRA of via een volledige parameterupdate — het zijn orthogonale dimensies.
Wanneer continued pretraining zinvol is
Niet elk domeinprobleem vraagt om continued pretraining. In de praktijk zien we drie hoofdscenario's waarin het zinvol is:
1. Een nieuw domein met hoge technische dichtheid en eigen taalgebruik
Wanneer uw domein terminologie, afkortingen en uitdrukkingen gebruikt die zeldzaam of afwezig zijn in standaard trainingstekst. Voorbeelden: industriële documentatie met tienduizenden afkortingen, specifieke medische subdisciplines, bedrijfsspecifiek regelgevingstaalgebruik, technische normen. Een model dat SFT heeft ondergaan weet antwoorden te *formatteren*, maar begrijpt de begrippen niet in de diepte — en dat wordt zichtbaar bij concrete vragen.
2. Onvoldoende gelabelde data, maar genoeg ruwe tekst
Het labelen van data voor SFT is duur en tijdrovend. Als u 500 GB aan technische documentatie hebt maar slechts 500 kwalitatieve gelabelde Q&A-voorbeelden, laat continued pretraining u de volledige tekstcorpus benutten zonder labeling. Daarna volgt SFT als "gedragsafstemming" op die nieuwe kennisbasis.
3. Een andere taal of taalmenging
De meeste populaire open-weight modellen zijn overwegend Engelstalig. Als u sterke capaciteiten nodig hebt in het Nederlands, Duits, Tsjechisch of andere talen die ondervertegenwoordigd zijn in de originele pretraining, zal continued pretraining op een grote taaldatacorpus de capaciteiten in die taal aanzienlijk verbeteren — inclusief grammatica, idioom en culturele context.
Omgekeerd is continued pretraining *niet zinvol* wanneer: - U voldoende kwalitatieve Q&A-voorbeelden hebt en het domein niet radicaal verschilt van de originele pretraining - Uw voornaamste behoefte is *gedragsverandering* (formaat, toon, weigering, antwoordstructuur) — dat is werk voor SFT of DPO - U een beperkt rekenbudget hebt en een snel resultaat nodig hebt
Typische pipeline: hoe het er in de praktijk uitziet
Wanneer u voor continued pretraining kiest, is het een meerfasig proces. Shortcuts werken niet.
Fase 1 — Corpusvoorbereiding
Dit is de langste en belangrijkste fase. De brontekst moet schoongemaakt zijn: geen duplicaten, geen OCR-artefacten, geen irrelevante inhoud (voetteksten, navigatie, formuliervelden). Aanbevolen is ook deduplicatie op n-gram-niveau — het model mag dezelfde zin niet honderd keer zien, omdat dat leidt tot memorisatie in plaats van generalisatie.
Corpusomvang: voor een betekenisvol effect praten we in de praktijk over *honderden miljoenen tokens*, bij voorkeur *miljarden*. Een standaard technisch document in pdf-formaat bevat na verwerking ruwweg 50.000 tot 200.000 tokens. Vijfhonderd van zulke documenten zijn dus ruwweg 25 tot 100 miljoen tokens — wat aan de ondergrens zit van zinvolle continued pretraining.
Een belangrijk detail: mixed pretraining werkt beter dan louter domeinspecifiek. Als u alleen op domeinspecifieke teksten traint, vergeet het model algemene capaciteiten en raakt zijn taalgebruik "verstard" op één register. Een goed recept is een mix van 80–90 % domeindata en 10–20 % algemene tekst (bijv. een kwalitatieve webcorpus). Dit beperkt catastrofaal vergeten.
Fase 2 — Trainingsconfiguratie
Het cruciale verschil met SFT: de learning rate moet aanzienlijk lager zijn dan bij pretraining vanaf nul. Gangbaar is een waarde in de orde van 1e-5 tot 1e-4, wat doorgaans 10 tot 100 keer lager is dan bij de originele pretraining. Een te hoge learning rate: het model "vergeet" wat het wist. Een te lage: geen domeinadaptatie.
Voor de trainingsarchitectuur: de meeste teams kiezen in de praktijk ook bij continued pretraining voor LoRA of QLoRA, omdat een volledige parameterupdate extreem kostbaar is. LoRA werkt bij continued pretraining — niet zo goed als volledige gewichten, maar in de praktijk voldoende voor de meeste domeinadaptaties.
Fase 3 — SFT als finalisatie
Continued pretraining alleen levert geen "chatbaar" model op. Het levert een model dat het domein diep begrijpt, maar alleen vrije tekst kan genereren. Daarom wordt na continued pretraining bijna altijd SFT gedaan (en soms DPO), zodat het model leert correct te reageren op instructies, vragen te beantwoorden en formaat te respecteren. Meer over deze pipeline vindt u in het artikel over kiezen tussen SFT, DPO en GRPO.
Kosten en hardwarevereisten
Hier is eerlijkheid geboden: continued pretraining is *duurder* dan SFT — en dat merkbaar.
Bij SFT op 10.000 voorbeelden praten we over uren training op één A100, ruwweg tientallen dollars. Continued pretraining op 500 miljoen tokens kan dagen duren, ook op meerdere GPU's — en dat zelfs bij LoRA. Een volledige parameterupdate op een miljardencorpus kan tientallen A100-uren vereisen, wat in de cloud neerkomt op kosten in de honderden tot duizenden euro's.
Ter oriëntatie vanuit de praktijk: - LoRA continued pretraining van een 7B-model op ~200M tokens: ruwweg 10–30 uur op één A100 80 GB - QLoRA 4-bit continued pretraining van een 7B-model op dezelfde corpus: langer (dequantisatie vertraagt), maar mogelijk op een consument-GPU met 24 GB VRAM - Volledige parameter continued pretraining van een 13B-model: meerdere GPU's vrijwel onvermijdelijk
A100-prijzen in de cloud liggen vandaag ruwweg van ~$0,60/uur (spotprijzen bij kleinere aanbieders) tot ~$3–4/uur bij grote hyperscalers. Plan een buffer in — de eerste run legt doorgaans dataproblemen bloot en de training moet opnieuw worden gestart.
Risico's die we in de praktijk zien
Catastrofisch vergeten is een reëel risico. Een model dat te agressief continued pretraining heeft ondergaan, kan achteruitgaan op algemene capaciteiten — slechter Engels, slechtere instructieopvolging, zwakkere redenering. Oplossingen: lage learning rate, mixed training (zie boven), eventueel regularisatie. Evalueer niet alleen domeenprestaties, maar ook algemene benchmarks vóór en na de training.
"Het model memoriseert alleen" — als de corpus klein is en veel herhalende documenten bevat, leert het model teksten te citeren in plaats van ze te begrijpen. Deduplicatie en datadiversiteit zijn verplicht.
Naïeve data = naïef model — in 2026 is een aanzienlijk deel van nieuwe webtekst AI-gegenereerd, wat bij webcrawling het risico met zich meebrengt van trainen op synthetische, gedistribueerde generatie. Voor industriële bedrijfsdocumenten is dit doorgaans geen probleem, maar wees voorzichtig bij het verzamelen van externe bronnen.
Regulatorische en datarisico's — continued pretraining op bedrijfsdocumentatie kan onbedoeld de guardrails van het originele instruction-tuned model "overschrijven". Na continued pretraining volgt SFT en alignment fine-tuning (DPO of GRPO), die deze mechanismen herstellen. Slaat u deze stap over, dan hebt u een model zonder ingebouwd veiligheidsgedrag. Voor gereguleerde sectoren is dit kritisch.
Over andere redenen waarom domeinadaptatie mislukt, leest u uitgebreider in het artikel over de meest voorkomende oorzaken van mislukte fine-tuning.
Alternatief: wanneer RAG continued pretraining vervangt
Voor veel bedrijven is continued pretraining het verkeerde antwoord op de juiste vraag. Wanneer het doel is dat het model "de inhoud van documenten kent", lost RAG (Retrieval-Augmented Generation) dit goedkoper, sneller en met betere actualiseerbaarheid op. Het model hoeft de documenten niet te "kennen" — het volstaat dat ze op het moment van de zoekvraag in de context worden aangeboden.
Continued pretraining is de betere keuze wanneer: - Het domeintaalgebruik zo specifiek is dat retrieval niet volstaat (het model begrijpt begrippen niet eens wanneer ze in de context staan) - U lage latentie nodig hebt zonder retrieval-stap (edge-implementatie, real-time processen) - U wilt dat het model domeinspecifieke inhoud *genereert*, niet alleen vragen beantwoordt
RAG en continued pretraining sluiten elkaar niet uit — de beste resultaten in de praktijk worden bereikt met een combinatie: een domeinadaptief model met RAG over actuele documentatie. Meer over de keuze tussen deze benaderingen vindt u in de vergelijking van RAG vs fine-tuning.
Praktisch beslissingskader
Wanneer een klant de vraag stelt "model bijtrainen of niet", doorlopen we deze stappen:
- 1.Wat werkt er precies niet? — slecht formaat/toon → SFT; model begrijpt begrippen niet → continued pretraining; model citeert verouderde informatie → RAG; model hallucineert feiten → combinatie
- 2.Hoeveel ongelabelde tekst hebt u? — minder dan 10 miljoen tokens? Continued pretraining loont waarschijnlijk niet; 100M+? Het heeft zin om het te overwegen
- 3.Wat is uw rekenbudget? — geen toegang tot A100+ of cloud-GPU? Begin met SFT; continued pretraining is voor teams met een gevestigde ML-infrastructuur
- 4.Is het domein echt specifiek? — als uw vakjargon ook in gewone webtekst voorkomt, volstaat SFT op goede voorbeelden
Veelgestelde vragen
Is continued pretraining hetzelfde als domain-adaptive pretraining?
In wezen wel — de termen worden door elkaar gebruikt. "Domain-adaptive pretraining" (DAPT) is de academische term uit de onderzoeksgemeenschap, "continued pretraining" is gangbaarder in de industrie. Beide beschrijven hetzelfde: verdere pretraining op een domeinspecifieke corpus van ongelabelde teksten.
Kan ik continued pretraining doen via LoRA, of is een volledige parameterupdate vereist?
LoRA (ook QLoRA) werkt bij continued pretraining en de meeste teams geven er de voorkeur aan vanwege de geheugenefficiëntie. Een volledige parameterupdate geeft iets betere resultaten, maar het verschil is doorgaans kleiner dan het kostenverschil. Voor de meeste domeinadaptaties volstaat LoRA.
Hoeveel tekst heb ik nodig voor een betekenisvol effect?
Uit de praktijk: onder 50 miljoen tokens is het effect doorgaans marginaal. Duidelijke domeinadaptatie begint zich te manifesteren vanaf honderden miljoenen tokens. Hebt u minder, investeer dan liever in de kwaliteit van SFT-data — u behaalt waarschijnlijk een beter resultaat voor een lagere prijs.
Verliest het model na continued pretraining het vermogen om instructies op te volgen?
Ja — en dat is een veelvoorkomende valkuil. Continued pretraining doet u doorgaans op een *base* model (niet de instruction-tuned variant), of als u het wél op een instruction-tuned model doet, riskeert u verzwakking van het ingebouwde gedrag. Daarom volgt na continued pretraining SFT (en eventueel DPO) als verplichte fase. Zet een continued-pretrained model nooit rechtstreeks in productie zonder een instruction-fine-tuning-laag.
Is continued pretraining ook geschikt voor kleine modellen (1B–4B)?
Ja, en soms zelfs effectiever. Kleine modellen hebben beperkte capaciteit voor algemene kennis, waardoor domein-"overschrijving" relatief groter is. Een fine-getuned 4B-model voor een smal domein kan binnen dat domein een generiek model van aanzienlijk grotere omvang overtreffen. Meer hierover vindt u in de vergelijking van een klein fine-getuned model versus een groot basismodel.
Conclusie
Continued pretraining is geen universeel antwoord op problemen met domein-LLM's — maar voor bedrijven met uitgebreide technische documentatie, specifiek vakjargon of een behoefte aan diepgaande taalaanpassing is het een instrument dat SFT simpelweg niet kan vervangen. Het gaat erom te weten wanneer u het inzet: wanneer het model het domein niet begrijpt op fundamenteel niveau, niet alleen wanneer het antwoorden niet correct weet te formatteren.
*Overweegt u of continued pretraining geschikt is voor uw situatie, of zoekt u een kader voor de keuze tussen RAG, SFT en domeinadaptatie, dan bespreken we dat graag samen. MP Industrial Solutions heeft ervaring met de implementatie van lokale LLM's in industriële omgevingen — inclusief gevallen waarin we continued pretraining hebben afgeraden en voor een eenvoudigere oplossing hebben gekozen.*
