Een klant vraagt: "Welk model is het beste voor onze use-case?" Dat is geen nuttige vraag. Het beste model voor uw taak heet anders, afhankelijk van wat het naast pure prestaties nog voor u kan dragen — waar het draait, wie toegang heeft tot de logs, hoeveel het kost om te draaien.
Drie vragen voor welk model dan ook
1. Mogen uw prompts (en dus uw data) uw eigen infrastructuur verlaten?
Dat is een technologisch-juridische vraag. Drie opties:
- **Ja, waar dan ook.** Hier helpen Anthropic Claude, OpenAI GPT, Google Gemini, Mistral. Laagste operationele overhead, hoogste prestaties in alle benchmarks.
- **Ja, maar alleen binnen de EU.** Hier helpt gelokaliseerde cloud (Azure OpenAI EU region, Anthropic Sovereign EU, OVH AI Endpoints). Iets hogere latency, iets tragere feature-releases, hogere prijslijst.
- **Nee.** Lokale deployment. vLLM / SGLang / llama.cpp op eigen hardware. Eenmalige investering in GPU, draaien op elektriciteit.
De derde optie lijkt het minst comfortabel. In gereguleerde sectoren (recht, gezondheidszorg, financiën) is het vaak de enige die u door een compliance-audit krijgt.
2. Wat is het verwachte dagelijkse verbruik (tokens + requests)?
Cloud wordt duur wanneer requests continu draaien. De prijs voor cloud-LLM ligt op $5–25 per miljoen tokens; als uw systeem 200 miljoen tokens per dag verwerkt (zeker niet onmogelijk), is dat $1.000–5.000 per dag. Maandelijks $30k–150k.
Lokale deployment (Llama 3.1 70B AWQ op 2× RTX A6000): eenmalige hardware ~$15k, maandelijks verbruik ~$200, onderhoud ~$500/maand. Terugverdientijd in weken, niet jaren.
Andersom — als uw use-case sporadisch is (50 queries per dag, piek 500 per week), verdient cloud zich nooit terug. Een lokale server zou op 1% benutting draaien en onnodig afschrijven.
3. Wat is de maximaal aanvaardbare antwoordlatency?
- < 1 s tot eerste tokens? **Lokaal met warm cache** of cloud dicht bij het endpoint (cloud nadert nooit een eigen GPU met prompt-cache hit).
- 1–3 s? Beide.
- > 3 s? Cloud zonder voorbehoud.
Wanneer lokaal (eenduidig)
- Data hebben compliance-regulering (MiCA, GDPR artikel 9, HIPAA, ISO 27001 met expliciete data residency).
- Dagelijks verbruik > 50 miljoen tokens/dag, stabiele verwachte belasting.
- Bestaande data MAG NIET aan de modelprovider gestuurd worden, ook als die beweert ze niet voor training te gebruiken. Politiek risico vs. operationeel gemak — afhankelijk van een clausule in het contract, niet van een PR-aankondiging.
- Domain-specific fine-tune die u uiteindelijk moet kunnen distribueren — bij een lokaal model betekent dat een bestand kopiëren, bij een cloud-hosted custom model betekent dat vendor-lock.
Wanneer cloud (eenduidig)
- Sporadisch gebruik, dagelijkse volumes < 10 miljoen tokens, geen regulering.
- U hebt de nieuwste capabilities nodig (Claude Opus 4.5, GPT-5, Gemini Ultra 2 zijn niet lokaal te repliceren — en tegen de tijd dat open modellen het inhalen, loopt u 6–12 maanden achter).
- Het team heeft geen capaciteit voor MLOps / een dedicated AI-engineer; dat ook is wat cloud verkoopt.
Wanneer hybride
Het meest voorkomende reële scenario. Lokaal model voor 80% van de requests (routine, compliance-gevoelig). Cloud voor 20% (complex, waar het lokale model niet volstaat, en waar data minder gevoelig zijn). Een router voor beide beslist per request waar het naartoe wordt gestuurd.
Dit vereist: - Router met rule-based + LLM-as-router voor beslissing waar te routeren - Auditlog per request waarheen, én waarom - Failover (als cloud uitvalt, neemt het lokale model over — maar als de request kwalitatief boven het lokale niveau ligt, routeren naar een andere cloud route)
Kosten die niemand in de deck noemt
De kostprijs van LLM-operatie is niet alleen de tokenprijs. Het is: - De prijs van `prompt-engineering rounds`. Iemand moet prompts afstemmen op het model — en het model verandert af en toe (cloud-upgrade), de prompts moeten opnieuw afgestemd worden. - De prijs van `fine-tune` als eigen prompts niet volstaan. Lokaal $200–2.000 per training run; cloud-hosted ~$10k+ voor een vendor-specifieke fine-tune. - De prijs van `eval set + regressietests`. Bij elke modelupgrade kunnen antwoorden op 5–15% van de vragen veranderen. Iemand moet een eval set met 200+ vragen hebben die drift detecteert. - De prijs van `incident response` wanneer de vendor capaciteit verlaagt (verlaagde rate limit, verhoogde latency) zonder aankondiging. Een lokaal model elimineert deze risicocategorie volledig.
Echte benchmark: na 18 maanden operatie van een AI-systeem met 5 engineers is de TCO van een lokale hybride deployment ~40% lager dan een puur cloud-only deployment met dezelfde prestaties.
Wat onze default is
Voor kleine klanten (< 5 miljoen tokens/dag, lage regulering) — cloud via OpenAI/Anthropic API direct. Goedkoop, snel, geen MLOps.
Voor middelgrote (5–100 miljoen tokens/dag, eenvoudige compliance) — hybride. vLLM lokaal als basis, cloud-fallback voor randgevallen.
Voor grote (> 100 miljoen tokens/dag, gereguleerde sector) — volledig lokaal. SGLang of vLLM + 2–4× GPU-server, fine-tune via Unsloth, monitoring via Trackio.
Dit is geen universele formule. Het is een startpunt. De werkelijke keuze gaat door data, regelgeving en het team dat u al hebt.
---
*We schrijven dit als technische partner, niet als verkoper van een specifieke stack. Bent u geïnteresseerd in een concrete use-case, dan lopen we de cijfers door in een gesprek van 30 minuten.*