El cliente pregunta: "¿Qué modelo es el mejor para nuestro caso de uso?". Esta no es una pregunta útil. El mejor modelo para su tarea se llama según lo que aguante para usted aparte del rendimiento puro — dónde se ejecuta, quién accede al log, cuánto cuesta la operativa.
Tres preguntas antes que cualquier modelo
1. ¿Pueden sus prompts (y por tanto sus datos) salir de su propia infraestructura?
Esta es una pregunta tecnológico-jurídica. Tres posibilidades:
- **Sí, a cualquier sitio.** Aquí ayuda Anthropic Claude, OpenAI GPT, Google Gemini, Mistral. La menor sobrecarga operativa, el mayor rendimiento en todos los benchmarks.
- **Sí, pero solo en la UE.** Aquí ayuda el cloud localizado (Azure OpenAI EU region, Anthropic Sovereign EU, OVH AI Endpoints). Latencia ligeramente mayor, ritmo ligeramente menor de feature releases, tarifa mayor.
- **No.** Despliegue local. vLLM / SGLang / llama.cpp en hardware propio. Inversión única en GPU, operativa en energía eléctrica.
La tercera opción parece la menos cómoda. En sectores regulados (derecho, sanidad, finanzas) suele ser la única que le pasará la auditoría de compliance.
2. ¿Cuál es el consumo diario esperado (tokens + peticiones)?
El cloud se vuelve caro cuando las peticiones corren continuamente. El precio para cloud LLM es $5-25 por millón de tokens; si su sistema procesa 200 millones de tokens al día (en absoluto imposible), eso son $1.000-5.000 diarios. Al mes $30k-150k.
Despliegue local (Llama 3.1 70B AWQ en 2× RTX A6000): hardware único ~$15k, consumo mensual ~$200, mantenimiento ~$500 mensuales. El retorno se cuenta en semanas, no en años.
Al contrario — si su caso de uso es esporádico (50 consultas diarias, peak 500 por semana), el cloud nunca se amortiza. El servidor local correrá al 1% de utilización y se amortizará en vano.
3. ¿Cuál es la latencia máxima admisible de respuesta?
- < 1 s para primeros tokens? **Local con warm cache** o cloud cerca del endpoint (el cloud nunca se acercará a una GPU propia con prompt-cache hit).
- 1-3 s? Cualquiera.
- > 3 s? Cloud sin debate.
Cuándo local (sin duda)
- Los datos tienen regulación de compliance (MiCA, GDPR artículo 9, HIPAA, ISO 27001 con explicit data residency).
- Consumo diario > 50 mill. tokens / día, carga prevista estable.
- Los datos existentes NO PUEDEN enviarse al proveedor del modelo, aunque este afirme que no los usará para training. Riesgo político vs. comodidad operativa — depende de la cláusula del contrato, no del comunicado de prensa.
- Necesita acabar distribuyendo un fine-tune domain-specific — en modelo local eso es copiar un archivo, en custom modelo cloud-hosted es vendor lock-in.
Cuándo cloud (sin duda)
- Uso esporádico, volúmenes diarios < 10 mill. tokens, ninguna regulación.
- Necesita las capacidades más recientes (Claude Opus 4.5, GPT-5, Gemini Ultra 2 no se pueden replicar localmente — y mientras los modelos abiertos se ponen al día, lleva 6-12 meses de retraso).
- El equipo no tiene capacidad para MLOps / un AI engineer dedicado; el cloud vende también esto.
Cuándo híbrido
El escenario real más común. Modelo local para el 80% de peticiones (rutinarias, sensibles a compliance). Cloud para el 20% (complejas, donde el modelo local no llega, y donde los datos son menos sensibles). Un router delante decide per-request hacia dónde envía.
Esto requiere: - Router con rule-based + LLM-as-router para decidir hacia dónde encaminar - Audit log per-request hacia dónde fue, y por qué - Failover (si el cloud falla, el modelo local toma el relevo — pero si la petición es cualitativamente superior al local, se enruta a otra cloud route)
Coste que nadie menciona en el deck
El precio de la operativa LLM no es solo el precio de los tokens. Es: - Coste de `prompt-engineering` rounds. Alguien debe ajustar prompts al modelo — y el modelo a veces cambia (cloud upgrade), los prompts hay que reajustarlos. - Coste de `fine-tune` cuando los prompts propios no bastan. Local $200-2000 por training run; cloud-hosted ~$10k+ por vendor-specific fine-tune. - Coste de `eval set + tests de regresión`. En cada upgrade del modelo pueden cambiar las respuestas en un 5-15% de las preguntas. Alguien debe tener un eval set con 200+ preguntas, que detecte drift. - Coste de `incident response` cuando el proveedor reduce capacidad (rate limit menor, latencia mayor) sin avisar. El modelo local elimina por completo esta categoría de riesgos.
Benchmark real: tras 18 meses de operativa de un sistema IA con 5 ingenieros, el TCO de un despliegue local híbrido es ~40% menor que el de un despliegue cloud-only puro del mismo rendimiento.
Cuál es nuestro default
Para clientes pequeños (< 5 mill. tokens/día, baja regulación) — cloud vía OpenAI / Anthropic API directamente. Barato, rápido, ningún MLOps.
Para medianos (5-100 mill. tokens/día, compliance simple) — híbrido. vLLM local para la base, fallback cloud para casos límite.
Para grandes (> 100 mill. tokens/día, sector regulado) — local completo. SGLang o vLLM + servidor de 2-4× GPU, fine-tune vía Unsloth, monitoring vía Trackio.
Esta no es una fórmula universal. Es un punto de partida. La elección real pasa por los datos, las regulaciones y el equipo que ya tiene.
---
*Lo escribimos como socio técnico, no como vendedor de un stack concreto. Si le interesa un caso de uso concreto, repasamos los números en una llamada de 30 minutos.*