Una workstation LLM local es otro tipo de ordenador que un PC gaming. Otros perfiles de carga, otra refrigeración, otra forma de decidir sobre RAM/CPU/PSU. Los clientes que construyen su "PC para IA" a través de un catálogo gaming a menudo obtienen una máquina que no rinde lo que debería.
Error 1 — RAM demasiado pequeña, pero rápida
Para una workstation LLM necesita RAM como buffer para KV-cache, overflow de pesos del modelo, pipelines de embedding. 32 GB es poco. 64 GB suele ser el mínimo. 128 GB es un punto de partida razonable si planea hacer también fine-tuning e inferencia en paralelo.
¿Frecuencia? Secundaria. La diferencia entre DDR5-4800 y DDR5-6400 es del 2-4% en cargas LLM reales. La diferencia entre 64 GB y 128 GB es la diferencia entre "funciona" y "no funciona" al cargar un modelo 70B con contexto de 32k.
Regla: capacidad > frecuencia. Siempre.
Error 2 — PSU dimensionada "al límite"
Una GPU para inferencia IA (RTX 4090, A6000, A100, H100) tiene un TDP de 350-700 W. Un PC completo bajo carga LLM total consume 600-1200 W. El cliente compra una PSU de 850 W, porque "en la calculadora salieron 800 W".
Una PSU tiene su mayor eficiencia al 50% de carga. Al 95% de carga la eficiencia es menor, la temperatura de la PSU mayor, la vida útil más corta. Una PSU al 95% de carga le molestará 24/7 con los ventiladores y al cabo de dos años le llamará con un fallo.
Regla: dimensione la PSU al 130% del peak draw previsto. Calculadora 850 W → PSU de 1200 W. Diferencia menor en precio, diferencia notable en vida útil.
Error 3 — Refrigeración por aire en una GPU que queda en operación 24/7
Una RTX 4090 en uso gaming funciona 2 horas al día, el 95% del tiempo está en idle. La refrigeración por aire es suficiente.
Una RTX 4090 como endpoint de inferencia LLM local funciona 24/7, a menudo con utilización GPU del 60-90%. La refrigeración por aire con este perfil significa: - Temperaturas operativas más altas (>80 °C continuo) - Ruido de 50-60 dB (= molesto en open-office) - Throttling con ambiente > 28 °C
La refrigeración líquida (AIO 360 mm como mínimo, idealmente custom loop) en cargas LLM 24/7 reduce temperaturas a 60-70 °C, el ruido a 35-40 dB y elimina el throttling.
Regla: si la GPU se planea para > 8 h diarias, refrigeración líquida. Siempre.
Error 4 — NVMe como disco de arranque, pero datos en HDD
Los pesos del modelo para un modelo 70B = 40-140 GB. La carga desde HDD tarda 5-10 minutos. La carga desde NVMe (Gen 4) tarda 30 segundos.
Durante el desarrollo, cuando reinicia el servidor muchas veces al día, 9 minutos × 5 = 45 minutos diarios perdidos. Al mes ~15 horas. Un NVMe de 2 TB cuesta en 2026 unos 130 €. Retorno en 2 días de trabajo.
Regla: los pesos del modelo DEBEN estar en NVMe Gen 4 o mejor. El HDD es solo para archivo offline-backup del modelo.
Error 5 — GPU única, single point of failure
Para una carga LLM seria no se dimensiona con una sola GPU. Razones: - Si la GPU falla = todo el servidor cae. El reemplazo tarda días en llegar. - Durante una actualización de firmware/driver = todo el servidor cae durante las pruebas. - Modelos > 13B no pueden hostearse con velocidad aceptable en una sola GPU consumer.
Un setup dual GPU (2× RTX 4090 o 2× A6000 vía NVLink) permite: - Tensor parallelism para modelos más grandes - Hot-failover si falla una de las tarjetas - A/B testing continuo de distintos modelos
Coste: ~2× GPU + mejor placa base con 2× PCIe 4.0 x16. Diferencial ~3000-5000 €. Para una operación que depende de la disponibilidad, se amortiza en semanas.
Conclusión
Una workstation LLM no es "un PC gaming con mejor GPU". Es un servidor de carga dedicado, que merece una especificación dedicada — capacidad de RAM antes que frecuencia, PSU con margen, refrigeración líquida, NVMe para datos, dual GPU para resiliencia.
Si construye su propio stack, que estas 5 cosas entren en el primer diseño. Si las añade después, cuesta el doble.
---
*Aplicamos esta disciplina en cada build de hardware IA que entregamos. La lista de especificaciones de hardware para un caso de uso concreto la repasamos en 30 min por llamada — normalmente basta una frase sobre el objetivo (inferencia local, fine-tune, o ambos) y decidimos entre 3 configuraciones de referencia.*