Knowledge Distillation (дистилляция знаний)
Knowledge Distillation — техника, при которой большая 'учительская' модель (teacher) обучает маленькую 'ученическую' (student). Ученик учится не только на правильных ответах, но и на распределении вероятностей учителя. Так получают компактные модели сравнимого качества.
Идея Hinton et al. (2015): мягкие метки (soft labels) от учителя содержат больше информации, чем жёсткие (hard labels). Например, на задаче 'котёнок vs щенок' учитель скажет: 'котёнок 0.85, щенок 0.13, тигр 0.02' — ученик узнаёт, что котёнок похож на тигра больше, чем на щенка. Это знание помогает ученику.
В 2026 году distillation широко применяется для LLM: маленькие модели вроде Claude Haiku 4.5, GPT-5 Mini, Gemini 3 Flash архитектурно близки к дистилляциям своих старших аналогов (Sonnet 4.6, GPT-5.2, Gemini 3.1 Pro). Такие компактные модели сохраняют 80-95% качества учителя при 5-10x меньшем размере и 3-5x скорости.
Варианты: 1) Logit distillation (классика); 2) Feature distillation (промежуточные слои); 3) Self-distillation (модель учит сама себя); 4) Instruction distillation для LLM — обучение на ответах GPT-4 для open-source моделей.
Примеры
- →Claude Haiku 4.5 — компактный аналог Sonnet 4.6
- →GPT-5 Mini — компактный аналог GPT-5.2
- →Gemini 3 Flash — компактный аналог Gemini 3.1 Pro
- →DistilBERT — дистилляция BERT (классика)
Связанные термины
Часто задаваемые вопросы
Чем distillation отличается от quantization?
Quantization уменьшает разрядность весов (FP16 → INT4) — изменяет существующую модель. Distillation создаёт новую меньшую модель, обучая её на ответах большой.
Сохраняет ли студент все возможности учителя?
Нет, обычно 80-95% качества. Edge-кейсы и сложные reasoning хуже. Зато скорость и стоимость в разы лучше.
Можно ли дистиллировать GPT-5.4 в свою модель?
Технически — да (instruction distillation). Юридически — Terms of Service OpenAI запрещают использование выходов GPT для обучения конкурирующих моделей.
Open-source примеры?
Llama 3 8B — instruction-distilled, Phi-3 — полностью distilled, Mistral 7B — train + distill подходы. Доступны на Hugging Face.
Попробуйте нейросети на практике
30₽ при регистрации, без VPN, оплата в рублях.
Зарегистрироваться