LLM v zákazníckej podpore: kde pomáha a kde naštve zákazníka

Q: Ako zabrániť tomu, aby chatbot halucinoval firemné informácie?

Základom je [RAG pipeline](/sk/blog/rag-pipeline-kvalita) nad aktuálnou firemnou dokumentáciou — cenníkmi, smernicami, produktovými špecifikáciami. Samotný RAG halucinovanie znižuje, ale neodstraňuje. Doplnkovými opatreniami sú explicitný prah konfidencie (ak je istota nízka, systém odpovie „neviem" namiesto halucinovania), pravidelná evaluácia faithfulness metriky a quality gates v produkčnom monitoringu.

Zákaznícka podpora je jedno z prvých miest, kde firmy skúšajú LLM v praxi. Dôvody sú pochopiteľné: veľký objem opakujúcich sa dopytov, jasne merateľné náklady, relatívne štruktúrovaný obsah. Výsledky sú ale veľmi rôznorodé — a rozdiel medzi „zákazníci si pochvaľujú" a „zákazníci sú nahnevaní" nie je v tom, ktorý model ste vybrali, ale v tom, kde ste systému povolili odpovedať samostatne a kde ste ho nechali odovzdať loptu človeku.

Tento článok nie je o tom, ako si predať chatbot projekt. Je o tom, kde LLM v zákazníckej podpore reálne pomáha, kde sú konkrétne pasce a ako nastaviť systém, aby zákazníci neodchádzali frustrovaní. Skúsenosti z vlastných nasadení, nie z marketingových prezentácií.

Kde LLM skutočne pomáha

FAQ a deflekcia opakujúcich sa dopytov

Najsilnejší prípad použitia LLM v podpore je aj ten najmenej atraktívny: odpovedanie na stále rovnaké otázky. „Aká je dodacia doba?" „Ako vrátiť tovar?" „Kde je moja objednávka?" V mnohých B2B firmách tvoria takéto dopyty 40–60 % celkového objemu tiketov.

LLM s RAG pipeline — teda s grounding nad aktuálnou dokumentáciou — odpovedá na tieto otázky rýchlejšie ako ľudský agent, je dostupný 24/7 a nevyhorí po tridsiatom rovnakom dopyte za deň. Merateľný efekt: skrátenie priemernej doby riešenia, nižší backlog tiketov, dostupnosť mimo pracovného času.

Kľúčové slovo je grounding: chatbot nesmie odpovedať z parametrov tréningu. Musí odpovedať z vašej aktuálnej dokumentácie — cenníkov, smerníc, produktových špecifikácií. Bez toho si s vysokou pravdepodobnosťou vymýšľa.

Triage a klasifikácia tiketov

LLM dokáže spoľahlivo klasifikovať prichádzajúce tikety podľa témy, naliehavosti a oddelenia ešte pred tým, ako sa k nim dostane ľudský agent. To nie je dramatická funkcia, ale v praxi šetrí čas a znižuje chyby pri ručnom triedení.

Systém prečíta text tiketu, priradí kategóriu (technická porucha, faktúra, servisná požiadavka) a odošle ho na správnu frontu. Pri správne natrénovanom klasifikátore sa presnosť pohybuje vysoko — a chyba v klasifikácii má nízke náklady, pretože agent môže tiketu zmeniť kategóriu manuálne.

Príprava návrhov odpovedí (draft mode)

Namiesto toho, aby LLM odpovedal zákazníkovi priamo, navrhuje znenie agentovi. Agent odpoveď schváli, upraví, alebo prepíše — a odošle pod vlastným menom.

Tento vzor — nazývaný aj copilot mode — je v zákazníckej podpore veľmi silný. Rýchlosť písania odpovedí sa zvyšuje, konzistencia sa zlepšuje, agent sa naďalej zodpovedá za každú odpoveď. Halucinovanie modelu je podchytené ľudskou kontrolou predtým, než odpoveď opustí systém.

Pre firmy, kde zákazníci píšu v cudzích jazykoch, copilot mode tiež umožňuje agentom odpovedať v jazykoch, v ktorých nie sú natívne zdatní — LLM preloží aj navrhne, agent skontroluje tón a vecnosť.

Zhrnutie histórie konverzácie pred eskaláciou

Keď zákazník po troch správach s chatbotom chce hovoriť s človekom, agent by mal dostať kontext — čo zákazník chcel, čo systém odpovedal, prečo to nestačilo. Bez toho zákazník začína od nuly a frustrácia narastá.

LLM dokáže priebežne generovať zhrnutie konverzácie a odovzdať ho ľudskému agentovi ako štruktúrovaný handoff. Zákazník nemusí opakovať, čo hovoril. Toto je jedna z tých funkcií, ktoré nezlepšia úspešnosť chatbota — zlepšujú zážitok zákazníka pri každom prechode na človeka.

Kde LLM naštve zákazníka

Slepé uličky bez eskalácie

Najčastejší problém v produkčných nasadeniach: chatbot nedokáže pomôcť, ale zákazníkovi to jasne nepovie. Namiesto toho generuje stále dlhšie odpovede, pýta sa na upresnenie, alebo opakuje tú istú odpoveď rôznymi slovami.

Zákazník vie, že sa nikam nedostáva, ale systém ho drží v slučke. Po piatej iterácii odchádza nahnevaný — nie nevyhnutne preto, že problém nebol vyriešený, ale preto, že stratil čas a bol ignorovaný.

Riešenie je jednoduché, ale vyžaduje disciplínu pri návrhu: každý chatbot musí mať explicitnú eskalačnú podmienku. Ak zákazník dvakrát nepotvrdil, že odpoveď pomohla — ponúknuť ľudského agenta alebo callback. Bez ospravedlňovania, bez ďalšej otázky.

Halucinovanie špecifických firemných informácií

LLM bez RAG alebo so slabo nastaveným RAG si bude vymýšľať fakty o vašej firme — ceny, termíny, podmienky záruky, servisné plány. V zákazníckej podpore toto nie je akademický problém. Zákazník dostane nesprávnu informáciu, koná podľa nej a neskôr zistí, že to tak nie je.

Výskumy ukazujú, že enterprise chatboty v live produkčných nasadeniach stále vykazujú halucinačnú mieru okolo 18 %. Správne implementovaný RAG toto číslo výrazne znižuje — o 60–71 % oproti čistému LLM. Ale neodstraňuje problém úplne. Zlyháva na dvoch miestach: retrieval vráti irelevantný dokument, alebo model ignoruje retrieved kontext a odpovedá z parametrov.

Zaznamenali sme viacero verejných prípadov, kde podnikový chatbot vymyslel pravidlá a politiky, ktoré neexistujú — zákazníci si na základe toho uplatnili nároky, ktoré firma odmietla splniť. Poškodenie dôvery je v takýchto prípadoch dlhodobé.

Konfidencia bez pokrytia

LLM sa vyjadruje s rovnakou istotou, či odpovedá z overených dokumentov alebo si veci vymýšľa. Pre zákazníka sú tieto dve situácie nerozoznateľné. Tón odpovedí je zdvorilý, štruktúrovaný, presvedčivý — bez ohľadu na to, či odpoveď je správna.

Tento problém nenastáva len pri halucinovaní faktov. Nastáva aj pri nejednoznačných otázkach, kde by správna odpoveď bola „závisí od vašej konkrétnej zmluvy" — a chatbot namiesto toho dodá zdanlivo presnú odpoveď, ktorá nemusí platiť pre daného zákazníka.

Technické otázky za hranicou chatbotu

V B2B zákazníckej podpore majú technickí zákazníci komplexné otázky o konfigurácii, integrácii, špecifických parametroch zariadení. Chatbot nad FAQ dokumentáciou na tieto otázky odpovie — ale nie nevyhnutne správne. Odpoveď môže byť gramaticky dokonalá a vecne neúplná, čo v technickej oblasti spôsobuje viac škody ako úprimné „neviem".

Realistický cieľ pre rok 2026: automatizovať 40–60 % L1 dopytov (jednoduché FAQ, statusy, štandardné postupy). Komplexné B2B technické otázky a zákaznícky citlivé situácie vyžadujú human-in-the-loop bez výnimky.

HITL: kedy nechať rozhodovať človeka

Human-in-the-loop (HITL) nie je priznaním slabosti systému — je to architektonické rozhodnutie o tom, kde je riziko chyby neprijateľné. V zákazníckej podpore existujú jasné kategórie:

Vždy eskalovať na človeka: - Zákazník je viditeľne frustrovaný (tri alebo viac neúspešných odpovedí) - Otázka sa týka kompenzácie, záruky, reklamácie alebo právnych nárokov - Zákazník explicitne pýta ľudského agenta - Technická otázka presahuje dokumentáciu (nasadenie, integrácia, nestandardná konfigurácia) - Chatbot sám vyhodnotí nízku istotu odpovede

Môže automatizovať: - Stavový dopyt (kde je objednávka, termín dodávky) - Bežný FAQ s jasnou odpoveďou v dokumentácii - Nasmeranie zákazníka na správny formulár, postup, dokument - Klasifikácia a prioritizácia tiketu

Architektonicky: eskalácia sa nesmie schovávať za ďalší formulár alebo čakaciu dobu. Zákazník musí vedieť, že ho niekto preberá — a kedy. Najlepšia prax je odovzdanie s kontextom: agent dostane zhrnutie konverzácie automaticky, zákazník nemusí nič opakovať.

Ako merať, či to funguje

Bez meraní je každý chatbot projekt presvedčenie, nie poznanie. Kľúčové metriky pre LLM v zákazníckej podpore:

Technické metriky (pravidelne kontrolovať): - Deflection rate — podiel dopytov vyriešených bez ľudského agenta - Faithfulness score — miera, do akej sú odpovede pokryté zdrojovými dokumentmi (cieľ ≥ 95 %) - Hallucination rate — podiel odpovedí s faktickými chybami (cieľ ≤ 2 %) - Eskalačná miera — koľko percent konverzácií končí eskaláciou (sleduj trend, nie len absolútne číslo)

Zákaznícke metriky (viažu sa na skutočný efekt): - CSAT po chatbot interakcii verzus po ľudskej interakcii — rozdiel povie pravdu o tom, ako zákazníci vnímajú systém - Repeat contact rate — zákazník, ktorý sa musí vrátiť s tou istou otázkou, nebol vyriešený - Priemerná doba riešenia pred a po nasadení

Operačné metriky: - Podiel tiketov správne klasifikovaných automaticky - Čas na eskaláciu (od detekcie potreby po odovzdanie agentovi)

Pokiaľ nie sú nastavené quality gates — napríklad automatické upozornenie keď faithfulness klesne pod 90 % — nebudete vedieť, kedy systém začal halucinovať viac, ako ste akceptovali pri nasadení. Modely sa menia, dokumentácia sa mení, distribúcia dopytov sa mení.

Architektúra, nie produkt

LLM v zákazníckej podpore nefunguje ako produkt, ktorý „len nasadíte". Funguje ako vrstva v systéme, ktorá závisí od kvality podkladov a pravidiel, kedy konať a kedy odovzdať.

Systémy, ktoré v praxi fungujú, majú niekoľko spoločných vlastností:

Grounding je povinný. Chatbot odpovedá z dokumentov, nie z parametrov modelu. Aktualizácia produktovej dokumentácie sa automaticky premieta do znalostnej bázy.
Konfidencia je explicitná. Systém má prah — keď nie je istý odpoveďou, povie to namiesto toho, aby generoval zdanlivo istú odpoveď.
Eskalácia je prvotriedna funkcia. Nie záchranná sieť. Je navrhnutá, testovaná a merateľná rovnako ako samotné odpovedanie.
Handoff nesie kontext. Agent dostane zhrnutie, nie prázdny tiket s menom zákazníka.

Výber medzi chatbotom, copilotom a agentom závisí od toho, aká autonómnosť je v danom kontexte bezpečná. Pre väčšinu B2B firiem začínajúcich v zákazníckej podpore je copilot mode — kde LLM navrhuje a agent schvaľuje — najlepší pomer medzi rýchlosťou a kontrolou. Plne autonómny chatbot dáva zmysel iba pre dáta úzko obmedzené, dobre pokryté dokumentáciou a s nízkym rizikom pri chybnej odpovedi.

Pre firmy v regulovaných odvetviach (poisťovníctvo, zdravotníctvo, finančné služby) odporúčame pozrieť sa aj na agent guardrails — nastavenie explicitných hraníc toho, čo systém smie a nesmie povedať.

Časté otázky

Môže LLM chatbot nahradiť celý support tím?

Realistický cieľ je automatizácia 40–60 % L1 dopytov — opakujúce sa FAQ, statusy objednávok, štandardné procedúry. Komplexné B2B technické otázky, situácie s kompenzáciou alebo zárukou a zákazníci, ktorí explicitne chcú hovoriť s človekom, zostávajú v rukách ľudských agentov. Chatbot, ktorý sa snaží nahradiť všetko, zvyčajne pohorí na tých prípadoch, kde na tom zákazníkovi najviac záleží.

Ako zabrániť tomu, aby chatbot halucinoval firemné informácie?

Základom je RAG pipeline nad aktuálnou firemnou dokumentáciou — cenníkmi, smernicami, produktovými špecifikáciami. Samotný RAG halucinovanie znižuje, ale neodstraňuje. Doplnkovými opatreniami sú explicitný prah konfidencie (ak je istota nízka, systém odpovie „neviem" namiesto halucinovania), pravidelná evaluácia faithfulness metriky a quality gates v produkčnom monitoringu.

Kedy je copilot mode lepší ako plne autonómny chatbot?

Copilot mode — kde LLM navrhuje odpoveď a agent ju schváli pred odoslaním — je lepší vždy, keď chyba v odpovedi má nezanedbateľné následky: zákazník koná podľa nesprávnej informácie, vyvoláva záručné nároky, alebo si buduje nesprávne očakávania. Copilot mode dramaticky znižuje viditeľné halucinovanie na zákazníckej strane pri zachovaní prínosu pre rýchlosť práce agentov.

Ako nastaviť eskaláciu, aby zákazníkov nenaštívala?

Eskalácia by mala byť ponúknutá proaktívne — nie až keď zákazník požiada po viacerých neúspešných pokusoch. Systém by mal po druhej neúspešnej odpovedi automaticky ponúknuť ľudského agenta alebo callback. Handoff musí niesť kontext: agent dostane zhrnutie konverzácie, zákazník nemusí opakovať históriu. Čakaciu dobu komunikovať transparentne.

Čo je faithfulness score a ako ho merať?

Faithfulness score meria, nakoľko je odpoveď chatbota podložená zdrojovými dokumentmi v znalostnej báze — teda či chatbot odpovedá z retrieved obsahu, alebo generuje z vlastných parametrov. Meria sa automatizovanými evaluačnými frameworkmi (napr. RAGAS), ktoré porovnávajú generovanú odpoveď s retrieved kontextom. Produkčný cieľ je ≥ 95 %. Pokles pod 90 % je signál na preverenie kvality dokumentov v RAG alebo nastavenia retrieval vrstvy.

---

*Ak zvažujete nasadenie LLM do zákazníckej podpory alebo chcete nezávislé posúdenie existujúceho riešenia — kde sú skutočné medzery a čo by prinieslo najrýchlejší merateľný efekt — radi sa pozrieme na váš konkrétny prípad. MP Industrial Solutions pomáha firmám navrhnúť systémy, ktoré zákazníkom skutočne pomáhajú, nie len vyzerajú ako AI.*