Klient povie: „Chceme nahrať našu firemnú dokumentáciu do GPT-5 / Claude / Llama, aby odpovedal na otázky našich zamestnancov / klientov / partnerov." Polovica si predstavuje fine-tuning, druhá polovica RAG, a tretia polovica neistú miešaninu oboch. Tento článok je rozhodovací rámec pre prvý workshop: kedy RAG, kedy fine-tuning, kedy kombinácia, a kedy by ste mali počkať pol roka a nasadiť nič.
Dva svety, dva ciele
**RAG (Retrieval-Augmented Generation):** - Dáta sú externe, model ich neuvidí pri tréningu - Pri inference model dostane otázku + relevantné kúsky dát ako kontext - „Daj mi 5 najrelevantnejších odsekov z dokumentácie, ktoré odpovedajú na otázku X" → posielame modelu - Model odpovedá s ohľadom na presnú dokumentáciu, môže citovať zdroj
**Fine-tuning:** - Dáta sú zapečené do váh modelu počas tréningu - Pri inference model „pamätá" dáta (alebo aspoň ich štatistický odraz) - Model odpovedá so štýlom / formátom / doménovou znalosťou, ktorú sme ho učili - Pôvodný zdroj dát NIE JE prístupný pri inference, len jeho parametrická reprezentácia
Tieto dva svety **neriešia ten istý problém.** Najčastejšia chyba klientov: rozhodnú sa pre fine-tuning, keď ich reálny problém vyžaduje RAG.
Test: ktorá je vaša úloha?
Odpovedzte na tieto štyri otázky:
1. Hľadáte v dátach FAKTY, alebo učíte ŠTÝL?
- **Fakty** („Aká je naša cena za hodinu pre zákazníka X?", „Aké sú parametre stroja Y?") → **RAG**. Fakt sa musí presne načítať z autoritatívneho zdroja. Fine-tunovaný model si fakt vymýšľa (hallucination je nepredvídateľná funkcia tréningových dát).
- **Štýl** („Píš formálnym právnickým jazykom", „Odpovedaj v štruktúrovanom formáte našich technických správ") → **fine-tuning** môže pomôcť. RAG so správnym system prompts často dosiahne 80–90 % rovnakého výsledku.
2. Ako často sa dáta menia?
- **Denne / týždenne** → **RAG**. Re-trénovať model pri každej zmene dát stojí $50–500 a 2–8 hodín. Re-indexovať RAG knowledge base = 5 minút, 0,5 EUR.
- **Mesačne / štvrťročne** → buď. RAG je rovnako pohodlný.
- **Raz za 2+ rokov** → fine-tuning sa dá zvážiť, ak je stable doménová znalosť (medicínske protokoly, právne kódexy, technické normy).
3. Musí byť odpoveď audit-ovateľná?
- **Áno (regulované odvetvia)** → **RAG je takmer povinný**. Klient sa musí dať preukázať: „Model povedal X, lebo videl Y v dokumente Z." Fine-tuned model „povedal X" bez možnosti dokázať, odkiaľ to vie.
- **Nie** → fine-tuning prichádza do hry.
4. Aký objem dát máte?
- **< 100 k tokenov** → ani RAG ani fine-tuning. Vložte ich priamo do system promptu modelu s 200k context window (Claude Sonnet 4.6, Gemini 2.5 Pro). Najjednoduchšie, najrýchlejšie.
- **100 k – 10 M tokenov** → **RAG** je optimálne. Vektorový index nad 1–10 M tokenmi je 200 MB pamäte, sub-100ms latencia.
- **10 M – 1 B tokenov** → RAG funguje, ale potrebuje sofistikovanejšiu architektúru (multi-stage retrieval, hybrid search, reranking). Fine-tuning ako pomoc, nie ako náhrada.
- **> 1 B tokenov** → fine-tuning ako pre-training step + RAG na vrcholeku.
Kedy fine-tuning jednoznačne vyhrá
1. Doménový jazyk / terminológia
Slovenská judikatúra, medicínska latinčina, technické skratky vo vašej firme („PVRZ" = názov výrobného protokolu, ktorý ani Google neuhádne). Bázový model nepozná. Fine-tuning ho naučí.
Príklad: Mistral 7B fine-tunovaný na 5 000 príkladoch slovenskej právnickej dokumentácie → odpovedá v správnom právnickom jazyku, pozná terminológiu „odporca", „navrhovateľ", „dohodárenstvo", „zmiernenie sankcie" v správnom kontexte. Bázový model píše štýlom Wikipédie.
Náklad: SFT na 5 000 príkladoch, RTX 4090, ~6 hodín, ~10 EUR elektrina. Reálne v praxi.
2. Štruktúrované výstupy s prísnym formátom
„Vždy odpovedaj JSON s tymto schema." System prompt to dosiahne 95 % presnosti. Fine-tuning to dosiahne 99,5+ % presnosti. V production systémoch je rozdiel 95 % vs. 99,5 % životne dôležitý — pri 95 % máte 5 % parse errors, ktoré preteká celá downstream pipeline.
3. Rýchlosť (latencia + cost) v high-throughput
RAG = embedding (50 ms) + retrieval (100 ms) + LLM s rozšíreným promptom (8 000 tokenov × 100 RPS = expensive). Fine-tuned model = LLM s krátkym promptom (500 tokenov × 100 RPS).
Pri >100 RPS workloads je fine-tuning 5–10× lacnejší. Pri <10 RPS nezáleží.
4. Off-line / on-device nasadenie
Mobilný klient nemôže volať RAG knowledge base. Fine-tuned 1B–4B model bežiaci na zariadení (CoreML, ExecuTorch, llama.cpp) — má všetky doménové znalosti zapečené, žiadny internet potrebný.
Kedy RAG jednoznačne vyhrá
1. Dáta sa menia rýchlo
Customer support knowledge base, FAQ, product documentation, internal wikis. Pridanie nového dokumentu = re-index (sekundy). Fine-tuning by znamenal nový tréning každý deň.
2. Citácie sú povinné
Compliance, právo, medicína, finančné poradenstvo. Klient musí vidieť: „Model si myslí X, lebo článok 12 paragraf 3 zákona Y to tak hovorí." Fine-tuning nevyrobí citácie — vyrobí parafrázovanú odpoveď bez audit trail.
3. Personalizácia per-user
User A vidí svoje dáta, user B vidí svoje. Model je rovnaký, ale knowledge base sa filtruje per-user. Fine-tuned model nemôže meniť čo vie podľa user-a.
4. Multi-language / multi-domain
Klient má dokumentáciu v SK, EN, DE a chce odpovedať v jazyku otázky. RAG: jeden model, 3 knowledge bases (alebo 1 base s metadátami jazyka). Fine-tuning: 3 modely, alebo zložitejšie multi-task training.
Hybridný prístup — najčastejšia produkčná realita
V skutočných nasadeniach v 2026 sa typicky kombinuje:
1. **Bázový model:** Claude Sonnet 4.6 alebo Llama 3.3 70B (open-weight) 2. **Light fine-tuning (LoRA):** na 1–5 k príkladoch domain-specific Q&A, naučí model „ako odpovedať" v štýle a formáte vašej firmy 3. **RAG:** nad živými dátami (dokumenty, databáza, ticket system) 4. **System prompt:** zhrnie kontext, identity, guardrails 5. **Reranker:** BGE-Reranker, Cohere Rerank — po retrieval-i preusporiada kúsky, aby najrelevantnejšie boli najvyššie
Tento stack rieši: model pozná „ako odpovedať" (fine-tune), pozná „aktuálne dáta" (RAG), pozná „kto sme a aké sú pravidlá" (system prompt). Plus citácie zdrojov, plus auditovateľnosť.
Konkrétne tooling 2026
RAG stack — naša default voľba
- **Vektorová DB:** Qdrant (self-hosted) alebo Weaviate. PostgreSQL + pgvector pre malé use-cases (< 1 M vektorov).
- **Embedding model:** BGE-M3 (open, SK/EN/DE multilingual) alebo OpenAI text-embedding-3-large pre cloud-only setups.
- **Reranker:** BGE-Reranker-Large alebo Cohere Rerank 3.
- **Orchestration:** LangChain alebo LlamaIndex pre quick PoC, vlastný Python kód pre production (LangChain layer of abstraction sa stáva tax pri väčších systémoch).
- **Document parsing:** Docling (IBM, open) alebo Unstructured.io pre PDF/DOCX/HTML.
- **Chunking strategy:** semantic chunking (250–500 tokens per chunk), 10–20 % overlap, metadata-rich.
Fine-tuning stack — kedy ho používame
- **Framework:** Unsloth (2–5× rýchlejší ako vanilla TRL), HuggingFace TRL pre štandardné workflows.
- **Method:** LoRA (rank 16–32) alebo QLoRA pre VRAM-constrained setupy. Full fine-tuning len pri >100 k príkladoch.
- **Base model:** Llama 3.3 70B, Mistral Small 3 (22B), Qwen 2.5 32B podľa licencie + jazyka.
- **Eval:** Custom eval set s 200+ otázkami + standard benchmarks (MMLU, HellaSwag) na detekciu regression.
- **Serving:** vLLM alebo SGLang pre throughput, llama.cpp pre lokálne / on-device.
Náklady — reálne čísla 2026
RAG nasadenie (typický B2B knowledge base)
- 50 k dokumentov, 10 M tokenov, 500 RPS peak
- Vektorová DB: Qdrant na 32GB VPS, $80/mesiac
- Embedding (BGE-M3 self-hosted): RTX 4090 server, $200/mesiac amortizácia
- LLM (Claude Sonnet 4.6): ~$3/M input tokens, ~$15/M output tokens. Pri 500 RPS s priemerne 8 k input + 500 output → **$4 500–6 000 mesačne**
- Total: **~$5 500–6 500/mesiac** plus jednorázová inicializácia $5–15 k
Alebo plne lokálny stack s Llama 3.3 70B na 2× H100: hardware $80–120 k jednorázovo, prevádzka $300/mesiac elektrina + údržba. Návratnosť oproti cloud-only: 12–18 mesiacov.
Fine-tuning nasadenie
- Jednorázový tréning (LoRA, 5 000 príkladov, Llama 3.3 70B): $30–80 cloud GPU, alebo $5 elektriny na RTX 4090 ak máte vlastný
- Eval + iteration cycle: 3–6 iterations × $50 = $150–300
- Hosting fine-tuned modelu: rovnaký ako bázový (LoRA prirážka je nula pri merged weights)
- Údržba: re-trénovať každé 3–6 mesiacov keď sa zmení doména
Reálny náklad fine-tuningu pri produkčnom systéme: **< $1 000 ročne**, ak máte tím schopný ho udržiavať. Hidden cost je „človeka kto vie urobiť eval a interpret-uje výsledky" — nie GPU.
Kedy nenasadiť ani jedno
- Dáta sú malé (< 50 dokumentov) → použite cloud LLM (Claude Project, GPT Custom GPT, Gemini Workspace) priamo, žiadny custom infra.
- Tím nemá MLOps kapacitu a nie ste ochotní investovať do data engineera na 6+ mesiacov.
- Doména sa rapídne mení (start-up MVP, experimentovanie s produktom) → počkajte, kým sa dáta stabilizujú.
- Klientske dáta sú vysoko regulované a nemáte hotové DPIA (GDPR impact assessment) — najprv vyriešte compliance, potom nasadzujte.
---
*Robíme RAG aj fine-tuning ako súčasť AI integrácií. Ak rozmýšľate o nasadení LLM nad firemnou bázou, prvá konzultácia (90 minút) prejde tieto štyri rozhodovacie otázky na vašom skutočnom use-case a dá vám orientačnú architektúru a rozpočet skôr, ako sa zaviažete k jednej alebo druhej ceste.*