Citácie a grounding v RAG: ako dokázať, odkiaľ odpoveď pochádza

Pred dvoma rokmi sme nasadzovali RAG systém pre výrobný podnik, ktorý spravuje rozsiahlu knižnicu technických smerníc a servisných manuálov. Systém odpovedal plynule, znel sebaisto a operátori si ho rýchlo obľúbili. Problém prišiel pri prvom internom audite: bezpečnostný inžinier sa spýtal, z ktorého konkrétneho dokumentu pochádza postup pre odstavenie linky. Systém odpovedal — ale nikto v miestnosti nevedel overiť, či je to pravda, alebo len presvedčivo znejúca halucinácia. Audit skončil odporúčaním systém dočasne stiahnuť.

Tento scenár nie je výnimočný. Pre každého, kto nasadzuje RAG v regulovanom alebo zodpovednostne citlivom prostredí — výroba, energetika, stavebníctvo, právo, zdravotníctvo — je grounding (ukotvenie odpovede v konkrétnych zdrojoch) a attribution (priradenie odpovede k citovateľnému zdroju) rovnako dôležitý ako samotná presnosť odpovede. Tento článok vysvetľuje, prečo to tak je, aké techniky existujú a kde sú ich limity.

Prečo citácie nie sú len UX detail

Väčšina tímov rieši citácie neskoro — ako posledný krok pred produkciou, keď sa ukáže, že „treba nejakú referenciu". To je chyba. Grounding a attribution sú architektonické rozhodnutia, nie kozmetická vrstva.

Tri dôvody, prečo na tom záleží:

Compliance a auditovateľnosť. V regulovaných odvetviach (ISO normy, REACH, strojová smernica, medicínska dokumentácia) platí, že každý výstup, ktorý ovplyvňuje rozhodnutie, musí byť spätne dohľadateľný. Systém, ktorý povie „postupujte podľa normy EN ISO 13849" bez odkazu na konkrétnu sekciu a verziu dokumentu, neplní požiadavky auditora.

Dôvera a onboarding. Nový operátor, ktorý vidí citáciu „Bezpečnostná smernica BS-2024, sekcia 4.3, strana 12", si môže odpoveď overiť. Odpoveď bez citácie vyžaduje slepo dôverovať systému — a to väčšina odborníkov odmieta, správne.

Diagnostika chýb. Keď odpoveď nie je správna, citácia okamžite ukáže, kde v pipeline nastal problém: retrieval načítal zlý dokument, alebo generácia ho správne necitovala. Bez citácie je debugovanie oveľa pomalšie. (Viac o diagnostike pipeline nájdeš v Ako evaluovať RAG: RAGAS, faithfulness, context precision.)

Čo presne znamená „grounding"

Grounding je vlastnosť odpovede: každé tvrdenie v nej je podložené konkrétnym pasážom z načítaného kontextu. Protikladom je halucinovaná alebo voľne interpolovaná odpoveď, ktorú model vygeneroval z vlastných parametrických vedomostí namiesto z poskytnutých dokumentov.

Attribution je operačná realizácia groundingu: pridelenie konkrétneho identifikátora (názov súboru, ID dokumentu, URL, číslo strany, číslo sekcie) každému tvrdeniu alebo celej odpovedi.

Dôležité rozlíšenie: grounding a attribution sú rôzne od faktickej správnosti. Odpoveď môže byť plne groundovaná — každé tvrdenie pochádza z poskytnutého kontextu — a pritom nesprávna, ak retrieval načítal zlý alebo zastaraný dokument. Faithfulness (konzistencia s kontextom) nie je to isté ako accuracy (faktická správnosť). Na tento rozdiel upozorňuje aj RAGAS framework.

Techniky na dosiahnutie groundingu

1. Systémový prompt s explicitným zákazom

Najjednoduchšia technika: v systémovom prompte explicitne zakázať modelu odpovedať z vlastných vedomostí a nariadiť mu citovať.

Vzorový systémový prompt:

Odpovedaj výhradne na základe poskytnutého kontextu.
Ak odpoveď v kontexte nie je, povedz: "Túto informáciu som v dostupných dokumentoch nenašiel."
Každé tvrdenie uvádzaj vo formáte: [Zdroj: {doc_id}, strana {page}].
Nevymýšľaj obsah, ktorý nie je v kontexte.

Výhody: jednoduché, rýchle, nulové infraštruktúrne náklady.

Limity: modely toto pravidlo nedodržia vždy spoľahlivo — najmä pri dlhých kontextoch, kde sa relevantný pasáž stratí medzi ostatnými dokumentmi. Position bias (model preferuje začiatok alebo koniec kontextu) je reálny problém, dokumentovaný pri všetkých frontier modeloch.

2. Štruktúrovaný výstup s referencie per tvrdenie

Namiesto voľného textu požiadaš model o štruktúrovaný výstup (structured outputs / JSON mode), kde každé tvrdenie obsahuje referenciu na zdroj:

{
  "answer": "Maximálna prevádzková teplota je 85 °C.",
  "citations": [
    {
      "claim": "Maximálna prevádzková teplota je 85 °C.",
      "source_id": "manual-v3.2.pdf",
      "page": 47,
      "section": "4.2 Teplotné limity",
      "quote": "Operating temperature must not exceed 85 °C under continuous load."
    }
  ]
}

Tento prístup umožňuje automatickú verifikáciu: po generácii môžeš programovo skontrolovať, či citovaný quote skutočne existuje v dokumente na uvedenej strane. Ak nie, odpoveď označíš ako neoveriteľnú.

Výhody: citácia je strojovo čitateľná, automaticky verifikovateľná.

Limity: zvyšuje dĺžku výstupu a nároky na context window; pri niektorých modeloch sa presnosť citovania znižuje pri komplexnejších otázkach.

3. Post-generation verifikácia (grounding check)

Robustnejší prístup oddeľuje generáciu od verifikácie. Po vygenerovaní odpovede spustíš druhý LLM call, ktorý dostane pôvodný kontext aj vygenerovanú odpoveď a overí každé tvrdenie:

Pre každé tvrdenie v odpovedi uveď:
- claim: citát tvrdenia
- supported: true/false
- evidence: pasáž z kontextu, ktorá tvrdenie podporuje (alebo null)

Výsledok použiješ na filtrovanie: tvrdenia označené supported: false buď odstrániš, alebo označíš červenou vlajkou v UI.

Toto je myšlienkový základ za faithfulness metrikou v RAGAS — meria sa, aký podiel tvrdení v odpovedi je podporený načítaným kontextom.

Výhody: citácie sú nezávisle overené, nie len vygenerované modelom; výrazne znižuje mieru neoverovateľných tvrdení.

Limity: dvojnásobné LLM náklady na každú odpoveď; latencia rastie. Pre real-time aplikácie je kompromis: online generácia, asynchrónna verifikácia s flagovaním v logu.

4. Multi-vector retrieval a grounding na úrovni pasáže

Pokročilá technika: namiesto načítania celých dokumentov retrieval vráti konkrétne pasáže s ich identifikátormi. Model dostane nielen text, ale aj metadata každého chunky:

[DOC: safety-manual-v2.pdf | SEC: 4.3 | PAGE: 31 | CHUNK_ID: sm-v2-431]
Zariadenie nesmie byť spustené pri teplote pod -10 °C...

[DOC: iso-13849-2023.pdf | SEC: 6.1.2 | PAGE: 88 | CHUNK_ID: iso-13849-612]
Kategória bezpečnostnej funkcie sa určuje podľa...

Model má v kontexte priamo identifikátory a má omnoho jednoduchšiu úlohu: pri odpovedaní len odkáže na CHUNK_ID, ktorý príslušnú informáciu obsahuje. Backend potom CHUNK_ID preloží na plný odkaz.

Výhody: grounding je intrinsicky jednoduchší, pretože model cituje identifikátory, nie rekonštruuje cestu k dokumentu.

Limity: vyžaduje dôkladné metadatové obohatenie pri ingestion pipeline; pri zlom chunkovaní môže byť chunk_id zavadzajúci. Viac o ingestion a chunkovaní v RAG pipeline — 3 nastavenia kvality.

Kde grounding zlyháva napriek RAG

RAG výrazne znižuje halucinácie, ale neeliminuje ich. V praxi vidíme štyri vzory zlyhania, ktoré sa objavujú aj pri správne nastavenom groundingu:

Position bias. Modely venujú väčšiu pozornosť začiatku a koncu kontextového okna. Relevantný pasáž v strede medzi desiatkami iných dokumentov môže byť ignorovaný, aj keď retrieval ho správne načítal. Riešenie: reranker presunie najrelevantnejšie chunky na začiatok kontextu.

Token-level interpolation. Model niekedy zlúči informácie z viacerých pasáží a vytvorí tvrdenie, ktoré doslova nie je v žiadnom z nich — aj keď každá polovica tvrdenia pochádza z iného dokumentu. Toto je subtílna forma halucinácie, ktorú grounding check odhalí iba ak je naozaj granulárny.

Citácia existujúceho, ale nerelevantného zdroja. Model môže citovať dokument, ktorý v kontexte existuje, ale daná konkrétna informácia v ňom nie je. Ak robíš len surface-level kontrolu (existuje zdroj v kontexte?), toto prejde. Hlbšia verifikácia musí kontrolovať, či citovaný quote skutočne v dokumente je.

Zastaraný dokument v knowledge base. Grounding je konzistentný s kontextom — ale ak je knowledge base neaktuálna, odpoveď bude groundovaná a zároveň fakticky nesprávna. Toto nie je chyba modelu ani pipeline — je to problém správy knowledge base. Riešenie: dokumenty musia mať verzie a dátumy platnosti; pri vyhľadávaní filtrovať podľa aktuálnosti.

Grounding v regulovaných odvetviach

Pre firmy, kde sa výstupy AI systémov používajú pri rozhodnutiach s bezpečnostným alebo právnym dosahom, nestačí technický grounding — je potrebný auditovateľný záznam.

V praxi to znamená:

Každá odpoveď sa ukladá s plnou citačnou stopou (document ID, verzia dokumentu, číslo strany, timestamp).
Knowledge base má verzionované záznamy — vieš povedať, ktorá verzia normy bola aktívna v deň, keď systém odpovede vygeneroval.
Zmena dokumentu v knowledge base invaliduje závislé cached odpovede — nový dokument, nová odpoveď.
Odmietnuté odpovede sú loggované — keď systém povie „informáciu som nenašiel", zaznamená sa otázka aj dôvod odmietnutia.

EU AI Act v kontexte high-risk AI systémov (napr. systémy používané v priemyselnej bezpečnosti) vyžaduje logging, traceability a možnosť humánneho dohľadu. Citačná stopa je jedným z konkrétnych spôsobov, ako tieto požiadavky splniť. Viac o povinnostiach firiem v EU AI Act — povinnosti firmy.

Praktická implementácia — kde začať

Ak budujete RAG systém od nuly alebo refaktorujete existujúci, navrhujeme trojkrokovú postupnosť:

1.Začni s metadatami pri ingestion. Každý dokument pri nahrávaní dostane doc_id, version, valid_from, section_path. Bez toho sú neskoršie citácie len plné názvy súborov bez štruktúry.

1.Zapracuj identifikátory do prompt šablóny. Retrieval vráti chunky s metadatami; prompt šablóna ich formátuje do kontextu viditeľného pre model. Model má tým pádom identifikátory priamo dostupné.

1.Pridaj asynchrónny grounding check. V prvej iterácii nemusí byť synchronný — postačí asynchronná verifikácia po generácii, výsledok logguj a vlajkuj v monitorovacom dashboarde. Synchronný grounding check pridaj vtedy, keď compliance to explicitne vyžaduje.

Nástroje, ktoré v praxi používame: LlamaIndex na retrieval pipeline s metadatovým obohatením, Qdrant ako vektorová databáza s payload filtermi (čo umožňuje filtrovať podľa verzie dokumentu alebo dátumu platnosti), RAGAS na pravidelné offline meranie faithfulness. Pre orchestráciu multi-step verifikácie LangGraph.

Časté otázky

Je grounding to isté ako faktická správnosť odpovede?

Nie. Grounding znamená, že odpoveď je konzistentná s načítaným kontextom — každé tvrdenie pochádza z poskytnutých dokumentov. Faktická správnosť závisí aj od kvality samotnej knowledge base. Ak je v knowledge base neaktuálny alebo nesprávny dokument, odpoveď môže byť plne groundovaná a súčasne fakticky chybná. To je dôvod, prečo správa knowledge base (verzie, dátumy platnosti, aktualizácie) je rovnako dôležitá ako samotná RAG pipeline.

Aký model najlepšie dodržuje inštrukcie na citovanie?

Frontier modely (Claude 4 Sonnet/Opus, GPT-4.1, Gemini 2.5 Pro) majú výrazne lepšiu instruction following ako menšie modely. Pri open-weight modeloch (Llama, Qwen3, Mistral) je spoľahlivosť dodržania citačných inštrukcií nižšia, najmä pri dlhých kontextoch. Pre produkčné systémy s compliance požiadavkami odporúčame kombináciu: menší model na generáciu + post-generation verifikačný call. Viac o výbere modelu v Ako vybrať LLM model v 2026.

Spomaľuje post-generation grounding check odozvu systému?

Áno — synchronný verifikačný call zdvojnásobuje latency generácie. Pre real-time UI je štandardným kompromis asynchrónna verifikácia: odpoveď sa zobrazí okamžite, verifikácia prebehne na pozadí a výsledok sa zobrazí ako „overené / neoverené" badge alebo sa zaloguje pre audit. Pre batch processing alebo reportingové systémy (kde latency nie je kritická) je synchronný grounding check preferovaný.

Ako zistiť, akú faithfulness má náš RAG systém?

Najjednoduchší spôsob: vytvor golden set — zbierku otázok s referenčnými odpoveďami a dokumentmi — a spusti RAGAS evaluáciu. Faithfulness skóre ti povie, aký podiel tvrdení v odpovediach je konzistentný s načítaným kontextom. Pre kontinuálne monitorovanie v produkcii integrácia s Langfuse alebo LangSmith umožňuje merať faithfulness na vzorke reálnych dopytov. Detailný postup v Ako evaluovať RAG: RAGAS, faithfulness, context precision.

Musí citovať každý chunk, alebo stačí jeden zdroj na odpoveď?

Závisí od use case. Pre jednoduché faktické otázky (jedna odpoveď pochádza z jedného miesta) stačí jeden zdroj. Pre komplexné otázky, kde odpoveď syntetizuje viacero pasáží z rôznych dokumentov, je granulárna citácia per tvrdenie presnejšia a auditovateľnejšia. Systémy pre regulované prostredia by mali defaultne citovať na úrovni tvrdenia — aj keď to zvyšuje výstup.

*Ak riešite RAG systém, pri ktorom musíte vedieť nielen to, čo model odpovedal, ale aj odkiaľ to vie, radi sa pozrieme na vašu konkrétnu situáciu. Grounding a citačná architektúra sú súčasťou každého nasadenia, ktoré robíme v MP Industrial Solutions — kontaktujte nás pre úvodné posúdenie.*