Firma sa rozhodne nasadiť LLM nad internými dokumentmi. IT nastaví API kľúč, vývojár napíše wrapper, ľudia začnú vkladať do modelu ponuky, zmluvy, záznamy zo stretnutí. Prvý týždeň to vyzerá skvele. Potom príde DPO a spýta sa jednu otázku: „Kde skončia tieto dáta?" A nikto nevie odpovedať.
Tento scenár nie je výnimka — je to pravidlo v mnohých EU firmách. GDPR pri LLM nasadeniach nie je akademický problém. Je to konkrétny checklist, ktorý buď máte, alebo nemáte. Tento článok ho rozkladá prakticky: kde presne tečú dáta, čo musíte mať podpísané, kedy je na mieste DPIA, a ako sa rozhodovateľ môže oprieť o štruktúrovaný rámec namiesto pocitu.
Kde tečú dáta — mapa tokov
Predtým, ako riešite čokoľvek právne, musíte vedieť, čo sa deje technicky. LLM v produkcii nie je jeden systém — je to reťazec komponentov, kde každý je potenciálnym miestom úniku.
Typický tok pri cloudovom LLM vyzerá takto:
- Vstupný dokument (zmluva, email, správa) → chunking → embedding → vektorová databáza
- Query používateľa → retrieval z vektorovej DB → kontext + query sa odošlú do LLM API
- LLM API (napr. OpenAI, Anthropic, Google) → spracuje prompt → vráti odpoveď
- Logy a traces → observabilita (Langfuse, LangSmith, vlastný logging) → možné ďalšie úložisko
Každý z týchto krokov môže obsahovať osobné dáta (Personal Identifiable Information — PII): meno zákazníka v zmluve, email kontaktnej osoby, zdravotné informácie v správe, IBAN v platobnom doklade. Ak tieto dáta opustia váš perimeter — a pri cloudovom API opustia — ste spracovateľom osobných údajov s konkrétnymi povinnosťami.
Ďalší tok, na ktorý sa zabúda: tréning a fine-tuning. Niektorí cloud provideri explicitne uvádzajú, že dáta odoslané cez API nepoužívajú na tréning (OpenAI pri enterprise tieri, Anthropic pri API). Ale predvolené nastavenia sa líšia — a to, čo platí dnes, sa môže zmeniť pri aktualizácii podmienok. Vždy overiť aktuálne Terms of Service a zmluvne to zakotviť.
Cloud API vs. on-prem — rozhodnutie s GDPR dosahom
Toto je najdôležitejšia architektúrna voľba z pohľadu compliance.
Cloud API (OpenAI, Anthropic, Gemini, Azure OpenAI...)
Výhody sú zrejmé: najsilnejšie modely, nulová infraštruktúra, rýchly štart. GDPR problémy:
- Dáta opúšťajú váš perimeter — ste povinní mať Data Processing Agreement (DPA) s providerom ako spracovateľom
- Pri prenose mimo EEA (napr. dáta na US serveroch) potrebujete mechanizmus prenosu — štandardné zmluvné doložky (SCC) alebo ekvivalentný právny základ
- Musíte vedieť, kde fyzicky sú servery; odpoveď „v cloude" nestačí DPO ani dozornému orgánu
Väčšina veľkých providerov DPA ponúka — ale musíte ho aktívne uzatvoriť, nie len kliknúť na checkbox. Azure OpenAI má európske regióny, čo prenos dát mimo EEA zjednodušuje. Pozrite aktuálne podmienky priamo u každého providera.
On-prem / self-hosted LLM
Dáta neopúšťajú váš perimeter. Ak beží model na vašich serveroch (alebo na serveroch v EEA s jasnou zmluvou), GDPR expozícia je podstatne menšia. Táto voľba dáva zmysel najmä pre regulované odvetvia — zdravotníctvo, právo, financie — kde sa spracúvajú citlivé osobné údaje. Podrobnejší pohľad na túto tému nájdete v on-prem LLM pre regulované odvetvia.
Trade-off je kvalita a náklady: self-hosted open-weight modely (Llama, Qwen, Mistral, DeepSeek vo svojich open-weight variantoch) dnes dosahujú produkčnú kvalitu pre väčšinu firemných use-casov, ale vyžadujú GPU infraštruktúru a inžiniersku kapacitu na správu. Na inferenciu 7B–14B modelu s rozumnou latenciou stačí rádovo jeden server s GPU s dostatočnou VRAM; väčšie modely si vyžadujú viac.
DPA — čo musí obsahovať a prečo nestačí klik
Data Processing Agreement je zákonná požiadavka podľa článku 28 GDPR, keď odovzdávate osobné dáta externej strane na spracovanie. LLM provider, ktorému posielate dokumenty s osobnými údajmi, je spracovateľ. Vy ste prevádzkovateľ. Bez DPA ste v rozpore so zákonom.
Čo musí DPA obsahovať (podľa čl. 28 ods. 3 GDPR):
- Predmet a trvanie spracovania — konkrétne, nie vágne
- Povaha a účel spracovania — „inference pre interný chatbot" je konkrétnejší ako „AI služby"
- Typ osobných údajov a kategórie dotknutých osôb — zákazníci? zamestnanci? pacienti?
- Povinnosti a práva prevádzkovateľa — vrátane práva na audit
- Technické a organizačné opatrenia (TOO) — šifrovanie, prístupová kontrola, incident response
- Zákaz ďalšieho sub-spracovateľa bez súhlasu alebo generálne povolenie so zákonným mechanizmom
Pozor na jeden detail, ktorý firmy podceňujú: DPA musí pokrývať aj sub-spracovateľov providera — cloud infraštruktúru, logging service, monitoring nástroje. Väčší provideri zverejňujú zoznamy sub-spracovateľov; skontrolujte ich.
Legal basis — na akom právnom základe spracúvate
GDPR vyžaduje, aby malo každé spracovanie osobných údajov právny základ (čl. 6). Pri firemnom LLM nasadení sa najčastejšie stretávame s:
- Oprávnený záujem (čl. 6 ods. 1 písm. f) — najčastejší základ pre interné firemné nástroje; vyžaduje LIA (Legitimate Interest Assessment), kde zdokumentujete, že záujem firmy prevyšuje práva dotknutých osôb
- Plnenie zmluvy (čl. 6 ods. 1 písm. b) — relevantné ak LLM priamo slúži plneniu zmluvy so zákazníkom
- Súhlas (čl. 6 ods. 1 písm. a) — pre väčšinu interných nástrojov nepraktický; súhlas musí byť slobodný, informovaný, odvolateľný
Ak spracúvate osobitné kategórie dát (zdravotné, genetické, biometrické, politické, náboženské, odborové, sexuálnu orientáciu) — čl. 9 GDPR — právny základ je prísnejší a súhlas je takmer nevyhnutný, alebo musíte preukázať iný základ z taxatívneho zoznamu v čl. 9 ods. 2.
Prakticky: pri LLM nad HR dokumentáciou, zdravotnými správami alebo súdnymi podaniami sa bez právnika nepohnete. Inak riskujete nielen pokutu, ale aj to, že celý projekt musíte zastaviť a zbúrať.
PII scrubbing — kedy a ako
PII scrubbing (čistenie osobných údajov pred poslaním do LLM) je technické opatrenie, ktoré znižuje expozíciu. Nie je to náhrada za správny právny základ alebo DPA, ale výrazne zužuje plochu rizika.
Kde má zmysel:
- Dokumenty, kde LLM nepotrebuje poznať konkrétne meno — potrebuje pochopiť kontext, štruktúru, obsah
- Logové záznamy — PII nikdy nemá byť v logoch; to je zákonná požiadavka aj technická hygiena
- Tréningové datasety — ak fine-tuníte model na interných dátach, PII v tréningových dátach môže model „zapamätať" (memorization problem) a neskôr vypustiť
Ako to funguje technicky:
- Regex-based detektory — emaily, telefónne čísla, IBAN, rodné čísla, IP adresy; rýchle, deterministické, nízke false negative pre štruktúrované formáty
- NER-based detektory (Named Entity Recognition) — mená osôb, firmy, adresy; zachytia neštruktúrované texty; vyžadujú model, majú vyššiu mieru chybovosti
- Kombinácia — regex pre štruktúrované formáty + NER pre voľný text; produkčný štandard
Dôležité upozornenie: pseudonymizácia nie je anonymizácia podľa GDPR. Ak dátu nahradíte tokenom, ale existuje kľúč na rekonštrukciu, stále ide o osobné údaje. EDPB (Európsky výbor pre ochranu údajov) opakovane potvrdil, že LLM zriedkakedy dosahujú štandard skutočnej anonymizácie. Scrubbing znižuje riziko — neeliminuje ho.
Pre inšpiráciu pri implementácii čistiaceho pipeline si môžete pozrieť, ako túto vrstvu rieši napríklad guardrails pre AI agentov, kde je vstupná validácia a PII detekcia prvou vrstvou obrany pred LLM.
Data minimization — nič navyše
Data minimization je jeden z kľúčových princípov GDPR (čl. 5 ods. 1 písm. c): spracúvajte iba tie osobné údaje, ktoré sú nevyhnutné na daný účel.
Pri LLM to znamená v praxi:
- Do promptu chodia iba relevantné chunky, nie celé dokumenty — RAG pipeline správne nastavený na presné vyhľadávanie je priamo aj compliance nástroj
- Retenčná politika pre logy a traces — koľko dlho uchovávate historiu konverzácií? 30 dní? 90 dní? Bez definovanej politiky to trvá „navždy"
- Embedding vektory — aj vektorová reprezentácia dokumentu môže byť osobný údaj, ak je z nej možné rekonštruovať originál alebo identifikovať osobu; ošetrujte ich rovnako ako zdrojové dáta
- Systémové logy inferencie — ak logujete celý prompt vrátane používateľského dopytu, logujete potenciálne osobné dáta; zaveďte selektívne logovanie alebo log scrubbing
DPIA — kedy je povinná a čo obsahuje
Data Protection Impact Assessment (DPIA) je povinná pri spracovaní, ktoré „pravdepodobne vyústi vo vysoké riziko pre práva a slobody fyzických osôb" (čl. 35 GDPR). Pre LLM nasadenia to typicky znamená:
- Systematické a rozsiahle spracovanie osobitných kategórií dát (zdravotné, finančné, HR)
- Automatizované rozhodovanie s právnym alebo podobným dosahom na osoby
- Rozsiahle monitorovanie verejne dostupného priestoru
Prakticky: ak váš LLM pomáha rozhodovať o zamestnancoch, zákazníkoch alebo pacientoch, DPIA je na mieste. Ak ide o interný chatbot nad technickou dokumentáciou bez osobitných kategórií dát, DPIA pravdepodobne nie je povinná — ale odporúčame urobiť aspoň interné posúdenie rizík.
Čo DPIA musí obsahovať:
- Opis spracovateľskej operácie — čo, prečo, kto, kde
- Posúdenie nevyhnutnosti a proporcionality — dá sa cieľ dosiahnuť s menším zásahom do súkromia?
- Posúdenie rizík pre práva a slobody dotknutých osôb
- Opatrenia na zvládnutie rizík — technické aj organizačné
- Ak zostatkové riziko je stále vysoké → konzultácia s dozorným orgánom (napr. Úrad na ochranu osobných údajov SR)
EU AI Act a GDPR — dve compliance vrstvy
Od augusta 2025 vstúpili do platnosti povinnosti pre GPAI (General Purpose AI) modely v rámci EU AI Act. Pre nasadzujúce firmy (deployers) platia povinnosti podľa článku 26 — najmä pri high-risk AI systémoch.
Dôležitý bod: EU AI Act a GDPR sa navzájom neduplikujú, ale dopĺňajú. GDPR rieši ochranu osobných údajov. EU AI Act rieši riziká AI systémov — vrátane situácií, kde AI robí alebo ovplyvňuje rozhodnutia o ľuďoch. Ak váš LLM systém pomáha rozhodovať o HR, úveroch, prístupu k službám alebo bezpečnostnej klasifikácii, môže byť klasifikovaný ako high-risk AI — a potom máte povinnosti z oboch nariadení súčasne.
Hlbší pohľad na konkrétne povinnosti pre firmy nájdete v článku o EU AI Act a povinnostiach firmy.
Praktický compliance checklist
Zhrnutie do kontrolného zoznamu pred nasadením LLM nad firemnými dátami:
- DPA s každým LLM providerom — podpísaná, nie len odkliknutá; pokrýva aj sub-spracovateľov
- Právny základ zdokumentovaný — LIA pre oprávnený záujem, súhlas ak treba; uložené, nie v hlave
- Prenos dát mimo EEA ošetrený — SCC alebo ekvivalent, pokiaľ provider beží na US serveroch
- PII scrubbing — nasadený aspoň pre logy; pre dokumenty kde je technicky možné
- Data minimization policy — retenčné doby pre logy, konverzácie, embeddingy definované a vynucované
- DPIA — urobená pre high-risk use-casy; výsledky zdokumentované
- Technické a organizačné opatrenia — šifrovanie v prenose aj v pokoji, prístupová kontrola, incident response plán
- Záznamy o spracovaní (čl. 30 GDPR) — LLM systém musí byť zahrnutý v Records of Processing Activities
- EU AI Act posúdenie — je váš systém high-risk? ak áno, povinnosti podľa čl. 26
Časté otázky
Je na to potrebný advokát, alebo to zvládneme interne?
Závisí od rozsahu. Pre jednoduchý interný chatbot nad verejnou technickou dokumentáciou bez osobných dát stačí interné posúdenie s DPO. Keď spracúvate osobitné kategórie dát, riešite prenos mimo EEA alebo váš systém ovplyvňuje rozhodnutia o ľuďoch, externý právnik so zameraním na data privacy a AI sa vypláca — pokuty za porušenie GDPR dosahujú až 4 % globálneho obratu alebo 20 miliónov eur.
Môžem použiť anonymizované dáta a vyhnúť sa GDPR?
Ak ste dosiahli skutočnú anonymizáciu — teda dáta nie je možné priradiť fyzickej osobe ani nepriamo — GDPR sa na ne nevzťahuje. V praxi to je ťažké. LLM zriedkakedy dosahujú štandard skutočnej anonymizácie; pseudonymizácia (náhrada tokenom, ktorý možno rekonštruovať) nestačí. Poraďte sa s DPO, či vaša metóda skutočne spĺňa štandard anonymizácie.
Musíme robiť DPIA pre každý LLM projekt?
Nie pre každý. DPIA je povinná pri vysokom riziku pre práva osôb — typicky pri osobitných kategóriách dát, automatizovanom rozhodovaní s dosahom na ľudí, alebo rozsiahlom monitorovaní. Pre interný helpdesk nad technickými manuálmi bez osobných dát DPIA povinná nie je. Odporúčame urobiť aspoň krátke interné rizikové posúdenie a rozhodnutie zdokumentovať.
Čo sa stane, ak LLM provider zmení podmienky a začne trénovať na našich dátach?
To je reálne riziko. Preto DPA musí obsahovať zákaz použitia vašich dát na tréning a právo na audit. Sledujte zmeny v Terms of Service a nastavte process review aspoň raz za rok. Ak provider zmení podmienky v rozpore s DPA, máte právo odstúpiť od zmluvy a žiadať vymazanie dát.
Je on-prem LLM automaticky GDPR-compliant?
Nie automaticky. On-prem odstraňuje riziko prenosu dát k tretiemu spracovateľovi, ale stále musíte mať definovaný právny základ, data minimization politiku, retenčné doby a technické opatrenia. Rozdiel je, že problémy riešite interne — nie cez DPA s externým providerom.
*GDPR a LLM nad firemnými dátami nie je projekt na jeden víkend, ale ani nemôže byť dôvod na zablokovaný rozbeh. Väčšina firiem, s ktorými pracujeme, potrebuje predovšetkým štruktúrovaný prehľad toho, čo majú ošetrené a čo nie — nie desiatky hodín právnych konzultácií. Ak chcete prejsť tento checklist na konkrétnom nasadení vo vašej firme, sme k dispozícii na úvodnú konzultáciu.*
