Instruction Tuning (тюнинг инструкций)

instruction tuninginstruct tuningтюнинг инструкцийsupervised fine-tuningSFT
Кратко

Instruction Tuning — этап обучения LLM, на котором модель учится следовать инструкциям пользователя. Pretraining даёт модели знания, instruction tuning превращает её в ассистента, понимающего запросы 'переведи', 'суммируй', 'напиши код'.

После pretraining LLM умеет продолжать тексты, но не понимает явные инструкции. Instruction tuning меняет это: модель обучают на парах [инструкция, ответ] от высококачественных аннотаторов.

Два основных подхода: 1) SFT (Supervised Fine-Tuning) — модель учится копировать ответы экспертов; 2) RLHF (Reinforcement Learning from Human Feedback) — модель учится максимизировать reward на основе предпочтений людей. Современные LLM используют комбинацию: SFT → RLHF → DPO/IPO.

Крупные датасеты: FLAN (Google) — 1800+ задач, Self-Instruct (UW), OpenOrca, Alpaca (Stanford), Dolly. На русском — Saiga, ruInstruct, Vikhr.

Результат: GPT-3 → InstructGPT → ChatGPT после instruction tuning. До тюнинга нужно было хитрить с few-shot prompting; после — модель понимает прямые команды.

Примеры

  • GPT-3 → InstructGPT (2022, классика)
  • FLAN-T5 — Google'овский подход
  • Alpaca — Stanford instruction tuning
  • Saiga — instruction tuning русских моделей

Связанные термины

Часто задаваемые вопросы

Чем отличается от обычного fine-tuning?

Обычный fine-tuning адаптирует модель к узкой задаче (классификация документов). Instruction tuning делает модель универсальным ассистентом, понимающим разные команды.

Нужен ли мне instruction tuning?

Если используете готовую модель (GPT-5.4, Claude, Gemini) — нет, они уже tuned. Если обучаете свою open-source модель под продукт — да, обязательный этап.

Сколько данных нужно?

Минимум — 1000 высококачественных пар [инструкция, ответ]. Промышленные модели — 100K-1M пар, написанных и проверенных экспертами.

Что лучше — SFT или RLHF?

Современные модели используют оба: сначала SFT на массе данных, потом RLHF/DPO на тщательно отобранных предпочтениях. RLHF без SFT работает хуже.

Попробуйте нейросети на практике

30₽ при регистрации, без VPN, оплата в рублях.

Зарегистрироваться