Knowledge Distillation (дистилляция знаний)

distillationдистилляцияknowledge distillationmodel distillation
Кратко

Knowledge Distillation — техника, при которой большая 'учительская' модель (teacher) обучает маленькую 'ученическую' (student). Ученик учится не только на правильных ответах, но и на распределении вероятностей учителя. Так получают компактные модели сравнимого качества.

Идея Hinton et al. (2015): мягкие метки (soft labels) от учителя содержат больше информации, чем жёсткие (hard labels). Например, на задаче 'котёнок vs щенок' учитель скажет: 'котёнок 0.85, щенок 0.13, тигр 0.02' — ученик узнаёт, что котёнок похож на тигра больше, чем на щенка. Это знание помогает ученику.

В 2026 году distillation широко применяется для LLM: маленькие модели вроде Claude Haiku 4.5, GPT-5 Mini, Gemini 3 Flash архитектурно близки к дистилляциям своих старших аналогов (Sonnet 4.6, GPT-5.2, Gemini 3.1 Pro). Такие компактные модели сохраняют 80-95% качества учителя при 5-10x меньшем размере и 3-5x скорости.

Варианты: 1) Logit distillation (классика); 2) Feature distillation (промежуточные слои); 3) Self-distillation (модель учит сама себя); 4) Instruction distillation для LLM — обучение на ответах GPT-4 для open-source моделей.

Примеры

  • Claude Haiku 4.5 — компактный аналог Sonnet 4.6
  • GPT-5 Mini — компактный аналог GPT-5.2
  • Gemini 3 Flash — компактный аналог Gemini 3.1 Pro
  • DistilBERT — дистилляция BERT (классика)

Связанные термины

Часто задаваемые вопросы

Чем distillation отличается от quantization?

Quantization уменьшает разрядность весов (FP16 → INT4) — изменяет существующую модель. Distillation создаёт новую меньшую модель, обучая её на ответах большой.

Сохраняет ли студент все возможности учителя?

Нет, обычно 80-95% качества. Edge-кейсы и сложные reasoning хуже. Зато скорость и стоимость в разы лучше.

Можно ли дистиллировать GPT-5.4 в свою модель?

Технически — да (instruction distillation). Юридически — Terms of Service OpenAI запрещают использование выходов GPT для обучения конкурирующих моделей.

Open-source примеры?

Llama 3 8B — instruction-distilled, Phi-3 — полностью distilled, Mistral 7B — train + distill подходы. Доступны на Hugging Face.

Попробуйте нейросети на практике

30₽ при регистрации, без VPN, оплата в рублях.

Зарегистрироваться