Der Kunde fragt: „Welches Modell ist das beste für unseren Use-Case?" Das ist keine nützliche Frage. Das beste Modell für Ihre Aufgabe heißt so nach dem, was es noch außer reiner Leistung für Sie tragen kann — wo es läuft, wer Zugriff auf die Logs hat, wie viel der Betrieb kostet.
Drei Fragen vor jedem Modell
1. Dürfen Ihre Prompts (und damit Ihre Daten) Ihre eigene Infrastruktur verlassen?
Das ist eine technisch-rechtliche Frage. Drei Möglichkeiten:
- **Ja, überallhin.** Hier helfen Anthropic Claude, OpenAI GPT, Google Gemini, Mistral. Niedrigster operativer Overhead, höchste Performance in allen Benchmarks.
- **Ja, aber nur in der EU.** Hier helfen lokalisierte Clouds (Azure OpenAI EU Region, Anthropic Sovereign EU, OVH AI Endpoints). Leicht höhere Latenz, leicht langsamere Feature-Releases, höhere Preisliste.
- **Nein.** Lokales Deployment. vLLM / SGLang / llama.cpp auf eigener Hardware. Einmalinvestition in GPU, Betrieb über Strom.
Die dritte Wahl wirkt am wenigsten bequem. In regulierten Branchen (Recht, Gesundheitswesen, Finanzen) ist sie oft die einzige, die Ihnen den Compliance-Audit besteht.
2. Wie hoch ist der erwartete tägliche Verbrauch (Tokens + Requests)?
Cloud wird teuer, wenn Requests kontinuierlich laufen. Der Preis für Cloud LLMs liegt bei $5–25 pro Million Tokens; wenn Ihr System 200 Millionen Tokens täglich verarbeitet (durchaus nicht unmöglich), sind das $1.000–5.000 täglich. Monatlich $30k–150k.
Lokales Deployment (Llama 3.1 70B AWQ auf 2× RTX A6000): einmalige Hardware ~$15k, monatlicher Stromverbrauch ~$200, Wartung ~$500 monatlich. Die Amortisation rechnet sich in Wochen, nicht in Jahren.
Umgekehrt — wenn Ihr Use-Case sporadisch ist (50 Anfragen täglich, Peak 500 pro Woche), amortisiert sich Cloud nie. Der lokale Server läuft auf 1 % Auslastung und schreibt sich unnötig ab.
3. Was ist die maximal zulässige Antwortlatenz?
- < 1 s auf die ersten Tokens? **Lokal mit Warm Cache** oder Cloud nahe am Endpoint (Cloud kommt nie an eigene GPU mit Prompt-Cache-Hit heran).
- 1–3 s? Beides.
- > 3 s? Cloud ohne Diskussion.
Wann lokal (eindeutig)
- Daten haben Compliance-Regulierung (MiCA, DSGVO Artikel 9, HIPAA, ISO 27001 mit expliziter Data Residency).
- Täglicher Verbrauch > 50 Mio. Tokens/Tag, stabile vorhersagbare Last.
- Bestehende Daten DÜRFEN NICHT an den Modellanbieter geschickt werden, auch wenn dieser behauptet, sie nicht zum Training zu verwenden. Politisches Risiko vs. operative Bequemlichkeit — kommt auf die Klausel im Vertrag an, nicht auf die PR-Mitteilung.
- Domain-spezifische Fine-Tunes müssen Sie letztlich verteilen — beim lokalen Modell bedeutet das eine Datei kopieren, beim Cloud-hosted Custom Model bedeutet das Vendor-Lock.
Wann Cloud (eindeutig)
- Sporadische Nutzung, tägliche Volumina < 10 Mio. Tokens, keine Regulierung.
- Sie brauchen die neuesten Fähigkeiten (Claude Opus 4.5, GPT-5, Gemini Ultra 2 lassen sich lokal nicht replizieren — und bis Open-Weight-Modelle aufholen, sind Sie 6–12 Monate hinten).
- Das Team hat keine Kapazität für MLOps / dedizierten AI-Engineer; Cloud verkauft auch das mit.
Wann hybrid
Das häufigste reale Szenario. Lokales Modell für 80 % der Requests (Routine, Compliance-sensitiv). Cloud für 20 % (komplex, wo das lokale Modell nicht reicht und die Daten weniger sensitiv sind). Ein Router vor beiden entscheidet per Request, wohin gesendet wird.
Das erfordert: - Router mit Rule-Based + LLM-as-Router für Routing-Entscheidungen - Audit-Log per Request, wohin und warum - Failover (wenn Cloud ausfällt, übernimmt das lokale Modell — wenn der Request qualitativ über das lokale Modell hinausgeht, auf eine andere Cloud-Route routen)
Die Kosten, die niemand im Deck erwähnt
Der Preis des LLM-Betriebs ist nicht nur der Tokenpreis. Es sind: - Kosten der `Prompt-Engineering`-Runden. Jemand muss Prompts auf das Modell tunen — und das Modell ändert sich gelegentlich (Cloud-Upgrade), Prompts müssen neu getunt werden. - Kosten des `Fine-Tunes`, wenn eigene Prompts nicht reichen. Lokal $200–2.000 pro Training Run; Cloud-hosted ~$10k+ für vendor-spezifischen Fine-Tune. - Kosten des `Eval Sets + Regressionstests`. Bei jedem Modell-Upgrade können sich Antworten auf 5–15 % der Fragen ändern. Jemand muss ein Eval Set mit 200+ Fragen haben, das Drift aufdeckt. - Kosten des `Incident Response`, wenn der Vendor ohne Ankündigung die Kapazität senkt (reduziertes Rate-Limit, erhöhte Latenz). Das lokale Modell eliminiert diese Risikokategorie vollständig.
Reales Benchmark: Nach 18 Monaten Betrieb eines KI-Systems mit 5 Engineers ist das TCO eines lokalen Hybrid-Deployments um ~40 % niedriger als das eines reinen Cloud-Only-Deployments derselben Leistung.
Was ist unser Standard
Für kleine Kunden (< 5 Mio. Tokens/Tag, niedrige Regulierung) — Cloud über OpenAI / Anthropic API direkt. Günstig, schnell, keine MLOps.
Für mittlere (5–100 Mio. Tokens/Tag, einfache Compliance) — hybrid. vLLM lokal für die Basis, Cloud-Fallback für Randfälle.
Für große (> 100 Mio. Tokens/Tag, regulierter Sektor) — voll lokal. SGLang oder vLLM + 2–4× GPU-Server, Fine-Tune über Unsloth, Monitoring über Trackio.
Das ist keine universelle Formel. Es ist ein Startpunkt. Die reale Wahl geht durch Ihre Daten, Regulierungen und das, was Sie bereits haben.
---
*Wir schreiben dies als technischer Partner, nicht als Verkäufer eines konkreten Stacks. Wenn Sie ein konkreter Use-Case interessiert, gehen wir die Zahlen in einem 30-Minuten-Call durch.*