Klient pyta: „Który model jest najlepszy dla naszego use-case?" To nie jest pożyteczne pytanie. Najlepszy model do Państwa zadania nazywa się tak, jak go nazywa to, co jeszcze udźwignie dla Państwa oprócz surowej wydajności — gdzie działa, kto ma dostęp do logu, ile kosztuje eksploatacja.
Trzy pytania przed którymkolwiek modelem
1. Czy Państwa prompty (a tym samym Państwa dane) mogą opuścić Państwa infrastrukturę?
To pytanie technologiczno-prawne. Trzy możliwości:
- **Tak, gdziekolwiek.** Tu pomaga Anthropic Claude, OpenAI GPT, Google Gemini, Mistral. Najniższy koszt operacyjny, najwyższa wydajność we wszystkich benchmarkach.
- **Tak, ale tylko w UE.** Tu pomaga zlokalizowany cloud (Azure OpenAI EU region, Anthropic Sovereign EU, OVH AI Endpoints). Nieznacznie wyższa latencja, nieznacznie wolniejsze tempo wydawania feature, wyższy cennik.
- **Nie.** Lokalne wdrożenie. vLLM / SGLang / llama.cpp na własnym sprzęcie. Jednorazowa inwestycja w GPU, eksploatacja w energii elektrycznej.
Trzeci wybór wygląda najmniej komfortowo. W regulowanych branżach (prawo, ochrona zdrowia, finanse) bywa jedynym, który zapłaci Państwu audyt compliance.
2. Jakie jest oczekiwane dzienne zużycie (tokeny + zapytania)?
Cloud staje się drogi, gdy zapytania działają ciągle. Cena cloud LLM to $5–25 za milion tokenów; jeśli Państwa system przetwarza 200 milionów tokenów dziennie (zdecydowanie nie jest to niemożliwe), to $1 000–5 000 dziennie. Miesięcznie $30k–150k.
Wdrożenie lokalne (Llama 3.1 70B AWQ na 2× RTX A6000): jednorazowy sprzęt ~$15k, miesięczne zużycie ~$200, utrzymanie ~$500 miesięcznie. Zwrot liczy się w tygodniach, nie w latach.
Na odwrót — jeśli Państwa use-case jest sporadyczny (50 zapytań dziennie, peak 500 w tygodniu), cloud nigdy się nie zwróci. Lokalny serwer będzie działał na 1 % wykorzystaniu i niepotrzebnie się amortyzował.
3. Jaka jest maksymalna dopuszczalna latencja odpowiedzi?
- < 1 s do pierwszych tokenów? **Lokalnie z warm cache** lub cloud blisko endpointu (cloud nigdy nie zbliży się do własnego GPU z hit-em prompt-cache).
- 1–3 s? Jedno albo drugie.
- > 3 s? Cloud bez zmiany.
Kiedy lokalnie (jednoznacznie)
- Dane mają regulację compliance (MiCA, GDPR art. 9, HIPAA, ISO 27001 z explicit data residency).
- Dzienne zużycie > 50 mln tokenów / dzień, stabilne przewidywane obciążenie.
- Istniejące dane NIE MOGĄ być wysyłane dostawcy modelu, nawet jeśli twierdzi, że nie użyje ich do treningu. Ryzyko polityczne vs. komfort operacyjny — zależy od zapisu w umowie, nie od komunikatu PR.
- Domain-specific fine-tune trzeba ostatecznie dystrybuować — przy lokalnym modelu oznacza to skopiować plik, przy cloud-hosted custom modelu oznacza vendor-lock.
Kiedy cloud (jednoznacznie)
- Sporadyczne użycie, dzienne objętości < 10 mln tokenów, brak regulacji.
- Potrzebują Państwo najnowszych zdolności (Claude Opus 4.5, GPT-5, Gemini Ultra 2 nie da się lokalnie zreplikować — a zanim modele otwarte to dogonią, mają Państwo 6–12 miesięcy do tyłu).
- Zespół nie ma kapacity na MLOps / dedykowanego AI engineera; cloud sprzedaje także i to.
Kiedy hybrydowo
Najczęstszy realny scenariusz. Lokalny model dla 80 % zapytań (rutynowe, wrażliwe na compliance). Cloud dla 20 % (złożone, gdzie lokalny model nie wystarczy, a dane są mniej wrażliwe). Router przed obydwoma decyduje per-request, dokąd wysłać.
To wymaga: - Router z rule-based + LLM-as-router do decydowania, dokąd kierować - Audit log per-request, dokąd poszedł i dlaczego - Failover (jeśli cloud zawiedzie, lokalny model przejmuje — ale jeśli zapytanie jest jakościowo ponad lokalny, kierować na inną cloud route)
Koszt, którego nikt nie podaje w decku
Cena eksploatacji LLM to nie tylko cena tokenów. To: - Cena `prompt-engineering` rounds. Ktoś musi stroić prompty pod model — a model się czasem zmienia (cloud upgrade), prompty trzeba stroić znowu. - Cena `fine-tune`, gdy własne prompty nie wystarczają. Lokalnie $200–2000 za training run; cloud-hosted ~$10k+ za vendor-specific fine-tune. - Cena `eval set + testy regresyjne`. Przy każdym upgrade modelu mogą się zmienić odpowiedzi na 5–15 % pytań. Ktoś musi mieć eval set z 200+ pytaniami, który wykryje drift. - Cena `incident response`, gdy vendor obniży kapacity (obniżony rate limit, podwyższona latencja) bez ogłoszenia. Lokalny model eliminuje tę kategorię ryzyk całkowicie.
Realny benchmark: po 18 miesiącach eksploatacji systemu AI z 5 inżynierami TCO lokalnego hybrydowego wdrożenia jest o ~40 % niższe niż czystego cloud-only wdrożenia tej samej wydajności.
Jakie jest nasze ustawienie domyślne
Dla małych klientów (< 5 mln tokenów/dzień, niska regulacja) — cloud przez OpenAI / Anthropic API bezpośrednio. Tanio, szybko, żadnego MLOps.
Dla średnich (5–100 mln tokenów/dzień, prosta compliance) — hybrydowo. vLLM lokalnie dla podstawy, cloud fallback dla przypadków brzegowych.
Dla dużych (> 100 mln tokenów/dzień, sektor regulowany) — pełne lokalnie. SGLang lub vLLM + 2–4× serwer GPU, fine-tune przez Unsloth, monitoring przez Trackio.
To nie jest uniwersalny wzór. To punkt startowy. Realny wybór przechodzi przez dane, regulacje i zespół, który już Państwo mają.
---
*Piszemy to jako partner techniczny, nie jako sprzedawca konkretnego stacku. Jeśli interesuje Państwa konkretny use-case, przejdziemy liczby na 30-minutowej rozmowie.*