Cada vez más empresas llegan a la misma situación: el modelo frontier funciona muy bien, pero en producción resulta demasiado caro o lento. Una latencia de 3–5 segundos es inaceptable en recomendaciones inline dentro de un sistema MES. El coste de mil llamadas a un API de modelo grande se acumula mes a mes en cifras que el controller no aprueba. Y desplegar en un dispositivo edge con VRAM limitada sencillamente no es viable.
Aquí entra en juego la destilación de modelos (knowledge distillation). No es una técnica nueva — nació en el contexto de las redes de clasificación hace más de una década — pero en la era de los grandes modelos de lenguaje vive un renacimiento y se ha convertido en una de las herramientas clave del despliegue en producción. Este artículo explica cómo funciona la destilación, en qué se diferencia de la cuantización, cuándo merece la pena y qué esperar de ella de forma realista.
Qué es la destilación y qué no es
La destilación es una transferencia de conocimiento de un modelo (teacher) a otro más pequeño (student). El teacher fue entrenado durante mucho tiempo y con grandes volúmenes de datos — tiene representaciones internas desarrolladas y capacidades que no se pueden extraer directamente de los datos de entrenamiento. El student aprende no solo de las respuestas finales, sino también de *cómo* razona el teacher.
Una distinción importante que en la práctica se confunde con frecuencia:
Destilación ≠ cuantización. La cuantización es una técnica de compresión — se representan los pesos originales con menor precisión numérica (por ejemplo, de FP16 a entero de 4 bits mediante el formato .gguf). El modelo sigue siendo el mismo, solo ocupa menos espacio e infiere más rápido, perdiendo típicamente ~1–3 % de calidad en benchmarks. La cuantización no cambia la arquitectura ni el número de parámetros.
La destilación cambia ambas cosas. El student es un modelo diferente con menos parámetros y, potencialmente, una arquitectura distinta. El objetivo no es comprimir al teacher, sino transferir sus capacidades a una estructura más pequeña.
Destilación ≠ datos sintéticos. Cuando se usa un modelo frontier para generar ejemplos de entrenamiento para un modelo más pequeño, se trata de generación de datos sintéticos, no de destilación clásica en sentido técnico. En la práctica ambos enfoques se combinan, pero el mecanismo es diferente — lo tratamos con más detalle en el artículo sobre datos sintéticos para fine-tuning.
Los dos tipos básicos de destilación
Destilación basada en respuestas (response-based)
El enfoque más sencillo. El student se entrena sobre soft labels — las distribuciones de probabilidad completas que produce el teacher en la salida (logits o distribuciones softmax), no solo la respuesta dura «correcto/incorrecto».
¿Por qué son más valiosas las soft labels que las etiquetas duras? Cuando el teacher ve una pregunta sobre el diagnóstico de un problema técnico, su distribución de salida puede decir: «60 % de probabilidad A, 25 % de probabilidad B, 15 % de probabilidad C». Eso refleja incertidumbre y relación entre opciones. La etiqueta dura sería solo «A». El student entrenado con soft labels recibe una señal más densa.
En la práctica para LLM esto significa que el student ve token a token cómo el teacher distribuye las probabilidades, e intenta imitar esas distribuciones — no solo reproducir el texto final.
Destilación basada en características (feature-based)
Un enfoque más sofisticado. El student intenta reproducir no solo las salidas, sino también los estados internos del teacher — activaciones de capas ocultas, patrones de atención (attention patterns), representaciones en el espacio de embeddings.
Ventaja: transfiere una estructura de conocimiento más profunda. Desventaja: requiere que teacher y student tengan una arquitectura suficientemente compatible, lo que complica la implementación cuando la diferencia de tamaño es muy grande. En la práctica, la destilación feature-based se usa con mayor frecuencia cuando se entrenan modelos de arquitectura similar y el teacher es entre 2 y 4 veces más grande.
Las bibliotecas modernas combinan ambos enfoques. El objeto de entrenamiento estándar para destilación en TRL o Axolotl suele incluir una combinación de pérdida sobre logits (divergencia KL entre las distribuciones del teacher y el student) y pérdida sobre las etiquetas ground-truth (cross-entropy clásica).
Cuándo merece la pena la destilación
La destilación no es adecuada para todos los casos. Hemos visto proyectos donde se ahorraron meses de trabajo eligiendo bien el enfoque desde el principio. Tres situaciones donde la destilación gana claramente:
Latencia y despliegue en edge. Si el modelo debe ejecutarse localmente en un dispositivo con 4–8 GB de VRAM — terminal industrial, controlador embebido, aplicación móvil — un modelo frontier sencillamente no es viable. Un modelo correctamente destilado de entre 1B y 4B de parámetros puede alcanzar, en un dominio estrecho, resultados suficientes para el caso de uso. Ejemplo: un modelo de lenguaje para clasificar mensajes de error de sistemas SCADA no necesita el conocimiento general de un modelo de 70B, pero debe ser rápido y preciso en ese dominio concreto.
Costes con alto volumen de llamadas. Si la aplicación llama al LLM miles o decenas de miles de veces al día, la diferencia de precio entre una llamada a una API frontier y la inferencia de un modelo propio de 7B es de un orden de magnitud. La destilación de un teacher frontier caro a un student barato de inferir es aquí el patrón estándar en producción.
Entornos regulados o air-gapped. Los datos que no pueden salir del perímetro requieren un modelo local. Si el experto de dominio es un modelo frontier con API cloud (por ejemplo, para anotar datos de entrenamiento), la destilación transfiere su conocimiento a un modelo que se puede desplegar on-prem. Más sobre los requisitos de entornos regulados en el artículo LLM on-prem para sectores regulados.
Cuándo la destilación no es suficiente: si el caso de uso requiere razonamiento general, multi-step reasoning complejo o trabajo con contexto largo, un student pequeño no competirá con un modelo grande independientemente de la calidad de la destilación. La destilación transfiere capacidades, pero no convierte al student en una arquitectura diferente.
Expectativas de calidad realistas
Aquí es donde vemos la mayor diferencia entre las afirmaciones de marketing y la práctica en producción.
Lo que la destilación puede lograr de forma realista:
Un student bien destilado en un dominio estrecho (documentación técnica, clasificación, extracción de datos estructurados) puede alcanzar el 85–95 % de la calidad del teacher en ese dominio concreto, con un tamaño entre 5 y 20 veces menor. A principios de 2025, DeepSeek publicó una serie de modelos destilados (incluidas versiones de 1,5B a 8B) a partir de su modelo de razonamiento mayor, en los que se logró transferir el chain-of-thought reasoning a arquitecturas significativamente más pequeñas conservando la mayor parte del rendimiento en tareas matemáticas y de codificación.
Lo que la destilación no conserva:
Las capacidades generales del teacher se transfieren de forma deficiente. Un student destilado sobre documentación técnica redactará peor textos de marketing o resolverá dilemas éticos con menor solvencia. Esto es una característica, no un defecto — la especialización es el objetivo — pero hay que tenerlo en cuenta al diseñar el sistema.
El contexto largo y el razonamiento complejo son otra área donde el student pequeño pierde. Un teacher con contexto de 1M de tokens transfiere solo una fracción de esa capacidad a un student con 128K de contexto y menos parámetros.
Regla práctica: se puede destilar de forma que el student sea notablemente mejor que el modelo base de ese tamaño — pero no de forma que el student sea igual de bueno que el teacher en general. El objetivo es la excelencia dirigida, no la equivalencia general.
Relación con el fine-tuning y los datos sintéticos
La destilación, el fine-tuning y los datos sintéticos son técnicas complementarias, no alternativas. Un pipeline típico de producción tiene esta forma:
- 1.El teacher genera datos de entrenamiento — el modelo frontier anota, responde y evalúa en el dominio objetivo. Esto es una combinación de destilación (el teacher produce logits o soft labels) y generación de datos sintéticos (el teacher genera textos que se convierten en ejemplos de entrenamiento).
- 2.El student se entrena sobre esos datos — mediante SFT estándar (Supervised Fine-Tuning) o con una función de pérdida de destilación explícita, donde el student imita las distribuciones del teacher.
- 3.Opcionalmente: alignment — DPO o GRPO sobre el student destilado, si se necesita ajustar su comportamiento según preferencias.
Un detalle importante: si el teacher genera respuestas y el student se entrena solo sobre los textos finales (sin acceso a los logits), técnicamente estamos hablando de entrenamiento sobre datos sintéticos, no de destilación en sentido estricto. Los resultados pueden ser similares, pero el mecanismo es diferente. La destilación clásica con logits transfiere típicamente una señal más rica.
A la hora de crear el dataset para destilación rigen los mismos principios que para el fine-tuning en general — lo tratamos con más detalle en el artículo Dataset para fine-tuning — cuánto y con qué calidad.
Pasos prácticos hacia un modelo destilado propio
Si quiere probar la destilación en la práctica, este pipeline funciona para la mayoría de los casos de uso de dominio:
Paso 1 — Defina el dominio y la tarea. Cuanto más estrecho sea el dominio, mejor aprenderá el student. «Clasificación de códigos de error de máquinas CNC Fanuc» es un scope mejor que «documentación industrial».
Paso 2 — Prepare los datos semilla (seed data). Aproximadamente 150–300 ejemplos verificados manualmente (pregunta/respuesta, entrada/salida) de su dominio. Esta es la base de la calidad — garbage in, garbage out se aplica con doble fuerza.
Paso 3 — El teacher genera datos ampliados. Ejecute el modelo frontier sobre sus ejemplos semilla, déjelo generar variaciones, responder preguntas relacionadas y producir explicaciones de chain-of-thought. El volumen objetivo para un SFT funcional es típicamente del orden de miles de ejemplos.
Paso 4 — Entrenamiento del student. Para la mayoría de los casos de dominio, un SFT estándar con Unsloth o Axolotl sobre un modelo de entre 1B y 8B es suficiente. Si tiene acceso a los logits del teacher (modelo abierto), añada la pérdida de destilación (divergencia KL) — TRL tiene soporte directo para ello. Para un pipeline de producción y la elección del método, recomiendo revisar también el resumen SFT, DPO, GRPO — qué método y cuándo.
Paso 5 — Evaluación y comparación. Mida el student en un holdout set de su dominio, compárelo con el teacher y con el modelo base sin destilación. Lo que interesa es el delta — cuánto se ha acercado el student al teacher respecto al baseline. Si el delta es inferior al 5–10 % relativo, la destilación ha tenido éxito.
Paso 6 — Despliegue. El student destilado se puede cuantizar (por ejemplo, al formato .gguf mediante llama.cpp) para reducir aún más los requisitos de memoria en inferencia. vLLM u Ollama gestionan el serving incluso para equipos pequeños sin infraestructura DevOps.
Errores frecuentes
Student demasiado grande. Si quiere un modelo que quepa en una GPU de 8 GB, no empiece con un student de 13B. La destilación no reescribe la física — el hardware más pequeño requiere un modelo más pequeño.
Teacher y student de dominios incompatibles. Un teacher entrenado exclusivamente en código en inglés será un mal teacher para la atención al cliente en español. El teacher debe ser competente en el dominio objetivo — de lo contrario se destila el comportamiento equivocado.
Ignorar la puntuación en otras tareas. La destilación puede degradar las capacidades del student en tareas fuera de la distribución de entrenamiento. Si el student tiene otras tareas además del dominio destilado, hay que medirlas también. El olvido catastrófico (catastrophic forgetting) es real también en destilación — no solo en fine-tuning.
Esperar que el student pequeño alcance el rendimiento del grande en todo. La concepción errónea más habitual. La destilación es una optimización para una porción concreta de capacidades, no una clonación del teacher.
Preguntas frecuentes
¿La destilación es lo mismo que la cuantización?
No. La cuantización comprime un modelo existente reduciendo la precisión numérica de sus pesos — el modelo sigue siendo el mismo, solo ocupa menos espacio. La destilación crea un modelo nuevo y más pequeño que se entrena para imitar el comportamiento del mayor. Ambos enfoques se suelen combinar: primero se destila y luego se cuantiza el modelo student resultante.
¿Cuántos datos necesito para la destilación?
Depende del caso de uso y de si se usan los logits del teacher o solo sus salidas (datos sintéticos). Para una destilación de dominio estrecho mediante SFT, se obtienen resultados con tan solo miles de ejemplos — si son de calidad. Para un modelo de producción robusto sin regresiones, cuente con decenas de miles de ejemplos. Con 150–300 datos semilla verificados manualmente es suficiente; el resto puede generarlo el teacher.
¿Puedo destilar desde un API cerrado al que no tengo acceso a los logits?
Sí, pero se trata de una destilación incompleta — o, más exactamente, de entrenamiento sobre datos sintéticos. El modelo frontier genera respuestas y usted entrena al student sobre esos textos mediante SFT estándar. Los resultados pueden ser buenos para la mayoría de las tareas de dominio, pero no obtendrá la señal más rica de las soft labels. Compruebe las condiciones de uso de la API del proveedor concreto antes de proceder — algunos prohíben expresamente el entrenamiento sobre sus salidas.
¿Cuándo es mejor destilar y cuándo hacer fine-tuning directamente?
Si dispone de un modelo base de calidad del tamaño requerido (por ejemplo, Phi-4, Qwen3 4B, Gemma 3 4B) y tiene datos de dominio de calidad, el fine-tuning directo es más sencillo y rápido. La destilación añade valor cuando el teacher posee capacidades que sus datos existentes no capturan — por ejemplo, razonamiento complejo, chain-of-thought largo o incertidumbre matizada en las distribuciones.
¿Qué hardware necesito para entrenar al student?
El mismo que para un fine-tuning LoRA o QLoRA estándar del modelo de ese tamaño. Un student de 1B–3B se entrena sin problemas en una RTX 3060 de 12 GB o una tarjeta superior. Un student de 7B–8B con QLoRA funciona en una RTX 3090/4090. El entrenamiento suele ser más corto que el preentrenamiento completo — del orden de horas, no de días.
*En MP Industrial Solutions ayudamos a las empresas a pasar de un piloto prometedor a un despliegue sólido en producción — incluida la elección del modelo y la técnica adecuados. Si está evaluando si para su caso de uso es mejor la destilación, el fine-tuning directo o la combinación con RAG, estaremos encantados de analizar la situación concreta.*
