Citaties en grounding in RAG: bewijs waar een antwoord vandaan komt

Twee jaar geleden implementeerden we een RAG-systeem voor een productiebedrijf dat een uitgebreide bibliotheek van technische richtlijnen en servicehandleidingen beheert. Het systeem antwoordde vloeiend, klonk zelfverzekerd en operators raakten er snel mee vertrouwd. Het probleem deed zich voor tijdens de eerste interne audit: een veiligheidsingenieur vroeg uit welk concreet document de procedure voor het stilleggen van de lijn afkomstig was. Het systeem gaf een antwoord — maar niemand in de ruimte kon verifiëren of het klopte of slechts een overtuigend klinkende hallucinatie was. De audit eindigde met de aanbeveling het systeem tijdelijk buiten gebruik te stellen.

Dit scenario is geen uitzondering. Voor iedereen die RAG inzet in een gereguleerde of verantwoordelijkheidsgedreven omgeving — productie, energie, bouw, juridisch, zorg — is grounding (het verankeren van een antwoord in concrete bronnen) en attribution (het koppelen van een antwoord aan een citeerbare bron) even belangrijk als de nauwkeurigheid van het antwoord zelf. Dit artikel legt uit waarom dat zo is, welke technieken er bestaan en waar hun grenzen liggen.

Citaties zijn geen UX-detail

De meeste teams pakken citaties laat aan — als laatste stap voor productie, wanneer blijkt dat "er een referentie bij moet". Dat is een vergissing. Grounding en attribution zijn architectuurbeslissingen, geen cosmetische laag.

Drie redenen waarom het ertoe doet:

Compliance en auditbaarheid. In gereguleerde sectoren (ISO-normen, REACH, de Machinerichtlijn, medische documentatie) geldt dat elke output die een beslissing beïnvloedt, achteraf traceerbaar moet zijn. Een systeem dat zegt "handel conform norm EN ISO 13849" zonder verwijzing naar een specifieke sectie en documentversie, voldoet niet aan de eisen van een auditor.

Vertrouwen en onboarding. Een nieuwe operator die de citatie "Veiligheidsrichtlijn BS-2024, sectie 4.3, pagina 12" ziet, kan het antwoord verifiëren. Een antwoord zonder citatie vereist blind vertrouwen in het systeem — en dat weigeren de meeste professionals terecht.

Foutdiagnose. Wanneer een antwoord niet klopt, laat de citatie meteen zien waar in de pipeline het fout ging: retrieval laadde het verkeerde document, of de generatie citeerde het niet correct. Zonder citatie verloopt debuggen veel trager. (Meer over pipeline-diagnose in RAG evalueren: RAGAS, faithfulness, context precision.)

Wat "grounding" precies betekent

Grounding is een eigenschap van het antwoord: elke bewering erin is onderbouwd door een concrete passage uit de opgehaalde context. Het tegendeel is een gehallucineerd of vrij geïnterpoleerd antwoord dat het model genereerde uit zijn eigen parametrische kennis in plaats van uit de aangeleverde documenten.

Attribution is de operationele uitvoering van grounding: het toewijzen van een concreet identificator (bestandsnaam, document-ID, URL, paginanummer, sectienummer) aan elke bewering of aan het gehele antwoord.

Belangrijk onderscheid: grounding en attribution zijn niet hetzelfde als feitelijke juistheid. Een antwoord kan volledig gegrond zijn — elke bewering is afkomstig uit de aangeleverde context — en toch onjuist zijn als retrieval een fout of verouderd document ophaalde. Faithfulness (consistentie met de context) is niet hetzelfde als accuracy (feitelijke juistheid). Dit onderscheid wordt ook gemaakt door het RAGAS-framework.

Technieken om grounding te bereiken

1. Systeem-prompt met expliciete instructie

De eenvoudigste techniek: verbied het model in de systeem-prompt uitdrukkelijk om te antwoorden vanuit eigen kennis en geef opdracht te citeren.

Voorbeeldsysteem-prompt:

Odpovedaj výhradne na základe poskytnutého kontextu.
Ak odpoveď v kontexte nie je, povedz: "Túto informáciu som v dostupných dokumentoch nenašiel."
Každé tvrdenie uvádzaj vo formáte: [Zdroj: {doc_id}, strana {page}].
Nevymýšľaj obsah, ktorý nie je v kontexte.

Voordelen: eenvoudig, snel, nul infrastructuurkosten.

Beperkingen: modellen houden deze regel niet altijd betrouwbaar aan — met name bij lange contexten, waar een relevante passage verloren gaat tussen andere documenten. Position bias (het model geeft de voorkeur aan het begin of het einde van de context) is een reëel probleem dat gedocumenteerd is bij alle frontier-modellen.

2. Gestructureerde output met referentie per bewering

In plaats van vrije tekst vraagt u het model om een gestructureerde output (structured outputs / JSON mode), waarbij elke bewering een verwijzing naar de bron bevat:

{
  "answer": "Maximálna prevádzková teplota je 85 °C.",
  "citations": [
    {
      "claim": "Maximálna prevádzková teplota je 85 °C.",
      "source_id": "manual-v3.2.pdf",
      "page": 47,
      "section": "4.2 Teplotné limity",
      "quote": "Operating temperature must not exceed 85 °C under continuous load."
    }
  ]
}

Deze aanpak maakt automatische verificatie mogelijk: na de generatie kunt u programmatisch controleren of het geciteerde quote daadwerkelijk in het document staat op de aangegeven pagina. Als dat niet zo is, markeert u het antwoord als niet-verifieerbaar.

Voordelen: citatie is machineleesbaar en automatisch verifieerbaar.

Beperkingen: vergroot de outputlengte en de belasting van het context window; bij sommige modellen neemt de citeerprecisie af bij complexere vragen.

3. Post-generatie verificatie (grounding check)

Een robuustere aanpak scheidt generatie van verificatie. Na het genereren van het antwoord start u een tweede LLM-call die zowel de oorspronkelijke context als het gegenereerde antwoord ontvangt en elke bewering verifieert:

Pre každé tvrdenie v odpovedi uveď:
- claim: citát tvrdenia
- supported: true/false
- evidence: pasáž z kontextu, ktorá tvrdenie podporuje (alebo null)

Het resultaat gebruikt u voor filtering: beweringen gemarkeerd als supported: false verwijdert u of markeert u met een rode vlag in de UI.

Dit is de gedachte achter de faithfulness-metriek in RAGAS — gemeten wordt welk aandeel van de beweringen in het antwoord wordt ondersteund door de opgehaalde context.

Voordelen: citaties worden onafhankelijk geverifieerd, niet alleen door het model gegenereerd; verlaagt significant het aandeel niet-verifieerbare beweringen.

Beperkingen: dubbele LLM-kosten per antwoord; latency neemt toe. Voor real-time toepassingen is het compromis: online generatie, asynchrone verificatie met markering in het log.

4. Multi-vector retrieval en grounding op passageniveau

Geavanceerde techniek: in plaats van volledige documenten op te halen, geeft retrieval specifieke passages terug met hun identificatoren. Het model ontvangt niet alleen tekst, maar ook de metadata van elke chunk:

[DOC: safety-manual-v2.pdf | SEC: 4.3 | PAGE: 31 | CHUNK_ID: sm-v2-431]
Zariadenie nesmie byť spustené pri teplote pod -10 °C...

[DOC: iso-13849-2023.pdf | SEC: 6.1.2 | PAGE: 88 | CHUNK_ID: iso-13849-612]
Kategória bezpečnostnej funkcie sa určuje podľa...

Het model heeft de identificatoren direct beschikbaar in de context en heeft een veel eenvoudigere taak: bij het beantwoorden verwijst het alleen naar de CHUNK_ID die de betreffende informatie bevat. De backend vertaalt de CHUNK_ID vervolgens naar een volledige verwijzing.

Voordelen: grounding is intrinsiek eenvoudiger, omdat het model identificatoren citeert in plaats van de weg naar het document te reconstrueren.

Beperkingen: vereist zorgvuldige metadataverrijking in de ingestion-pipeline; bij slechte chunking kan een chunk_id misleidend zijn. Meer over ingestion en chunking in RAG-pipeline — 3 kwaliteitsinstellingen.

Waar grounding toch faalt ondanks RAG

RAG vermindert hallucinaties aanzienlijk, maar elimineert ze niet. In de praktijk zien we vier faalpatronen die ook optreden bij correct ingestelde grounding:

Position bias. Modellen besteden meer aandacht aan het begin en het einde van het contextvenster. Een relevante passage in het midden tussen tientallen andere documenten kan genegeerd worden, zelfs als retrieval hem correct ophaalde. Oplossing: een reranker verschuift de meest relevante chunks naar het begin van de context.

Token-level interpolatie. Het model combineert soms informatie uit meerdere passages en maakt een bewering die letterlijk in geen van beide staat — ook al is elke helft van de bewering afkomstig uit een ander document. Dit is een subtiele vorm van hallucinatie die een grounding check alleen detecteert als hij werkelijk granulair is.

Citaat van een bestaande maar irrelevante bron. Het model kan een document citeren dat wel in de context staat, maar waarin de specifieke informatie niet voorkomt. Als u alleen een oppervlakkige controle doet (bestaat de bron in de context?), gaat dit onopgemerkt voorbij. Diepere verificatie moet controleren of het geciteerde quote daadwerkelijk in het document staat.

Verouderd document in de knowledge base. Grounding is consistent met de context — maar als de knowledge base niet actueel is, zal het antwoord gegrond én feitelijk onjuist zijn. Dit is geen fout van het model of de pipeline — het is een beheerprobleem van de knowledge base. Oplossing: documenten moeten versies en geldigheidsdata hebben; bij het zoeken filteren op actualiteit.

Grounding in gereguleerde sectoren

Voor bedrijven waarbij de outputs van AI-systemen worden gebruikt bij beslissingen met veiligheids- of juridische gevolgen, volstaat technische grounding niet — er is een auditeerbaar dossier vereist.

In de praktijk betekent dit:

Elk antwoord wordt opgeslagen met een volledige citatiespoor (document-ID, documentversie, paginanummer, tijdstempel).
De knowledge base heeft versiebeheer — u kunt aantonen welke versie van een norm actief was op de dag dat het systeem het antwoord genereerde.
Een documentwijziging in de knowledge base invalideert afhankelijke gecachede antwoorden — nieuw document, nieuw antwoord.
Geweigerde antwoorden worden gelogd — wanneer het systeem zegt "ik heb de informatie niet gevonden", worden de vraag én de reden van weigering vastgelegd.

De EU AI Act vereist voor high-risk AI-systemen (bijvoorbeeld systemen ingezet in industriële veiligheid) logging, traceerbaarheid en de mogelijkheid van menselijk toezicht. Een citatiespoor is een van de concrete manieren om aan deze vereisten te voldoen. Meer over de verplichtingen voor bedrijven in EU AI Act — verplichtingen voor bedrijven.

Praktische implementatie — waar te beginnen

Als u een RAG-systeem van de grond af opbouwt of een bestaand systeem refactort, stellen we een driestapsvolgorde voor:

1.Begin met metadata bij ingestion. Elk document krijgt bij het uploaden een doc_id, version, valid_from, section_path. Zonder deze gegevens zijn latere citaties slechts volledige bestandsnamen zonder structuur.

1.Verwerk identificatoren in de promptsjabloon. Retrieval geeft chunks terug met metadata; de promptsjabloon formatteert deze in de voor het model zichtbare context. Het model heeft de identificatoren daardoor direct beschikbaar.

1.Voeg een asynchrone grounding check toe. In de eerste iteratie hoeft deze niet synchroon te zijn — een asynchrone verificatie na de generatie volstaat; log het resultaat en markeer het in een monitoringdashboard. Voeg een synchrone grounding check toe wanneer compliance dat expliciet vereist.

Hulpmiddelen die we in de praktijk gebruiken: LlamaIndex voor de retrieval-pipeline met metadataverrijking, Qdrant als vectordatabase met payload-filters (waarmee u kunt filteren op documentversie of geldigheidsdatum), RAGAS voor periodieke offline meting van faithfulness. Voor de orkestratie van meerstaps-verificatie: LangGraph.

Veelgestelde vragen

Is grounding hetzelfde als feitelijke juistheid van het antwoord?

Nee. Grounding betekent dat het antwoord consistent is met de opgehaalde context — elke bewering is afkomstig uit de aangeleverde documenten. Feitelijke juistheid hangt ook af van de kwaliteit van de knowledge base zelf. Als de knowledge base een verouderd of onjuist document bevat, kan het antwoord volledig gegrond én feitelijk onjuist zijn. Dat is de reden waarom het beheer van de knowledge base (versies, geldigheidsdata, updates) even belangrijk is als de RAG-pipeline zelf.

Welk model volgt citatierichtlijnen het best op?

Frontier-modellen (Claude 4 Sonnet/Opus, GPT-4.1, Gemini 2.5 Pro) hebben beduidend betere instruction following dan kleinere modellen. Bij open-weight modellen (Llama, Qwen3, Mistral) is de betrouwbaarheid van het opvolgen van citatie-instructies lager, met name bij lange contexten. Voor productiesystemen met compliancevereisten adviseren we een combinatie: een kleiner model voor generatie plus een post-generatie verificatiecall. Meer over modelkeuze in Hoe een LLM-model kiezen in 2026.

Vertraagt een post-generatie grounding check de systeemrespons?

Ja — een synchrone verificatiecall verdubbelt de latency van de generatie. Voor real-time UI is het standaardcompromis asynchrone verificatie: het antwoord verschijnt onmiddellijk, de verificatie verloopt op de achtergrond en het resultaat wordt weergegeven als een "geverifieerd / niet-geverifieerd" badge of gelogd voor audit. Voor batchverwerking of rapportagesystemen (waarbij latency niet kritiek is) heeft een synchrone grounding check de voorkeur.

Hoe bepaalt u de faithfulness van ons RAG-systeem?

De eenvoudigste manier: maak een golden set — een verzameling vragen met referentieantwoorden en documenten — en voer een RAGAS-evaluatie uit. De faithfulness-score geeft aan welk aandeel van de beweringen in de antwoorden consistent is met de opgehaalde context. Voor continue monitoring in productie maakt integratie met Langfuse of LangSmith het mogelijk faithfulness te meten op een steekproef van echte queries. Gedetailleerde werkwijze in RAG evalueren: RAGAS, faithfulness, context precision.

Moet elke chunk geciteerd worden, of volstaat één bron per antwoord?

Dat hangt af van de use case. Voor eenvoudige feitelijke vragen (één antwoord afkomstig uit één locatie) volstaat één bron. Voor complexe vragen waarbij het antwoord meerdere passages uit verschillende documenten synthetiseert, is granulaire citatie per bewering nauwkeuriger en auditbaarder. Systemen voor gereguleerde omgevingen zouden standaard op beweringsniveau moeten citeren — ook al vergroot dat de output.

*Als u werkt aan een RAG-systeem waarbij u niet alleen wilt weten wat het model antwoordde, maar ook waarop het zijn antwoord baseert, kijken we graag naar uw concrete situatie. Grounding en citatiearchitectuur maken deel uit van elke implementatie die we uitvoeren bij MP Industrial Solutions — neem contact op voor een eerste beoordeling.*