Что такое Instruction Tuning (тюнинг инструкций)
Подробнее
После pretraining LLM умеет продолжать тексты, но не понимает явные инструкции. Instruction tuning меняет это: модель обучают на парах [инструкция, ответ] от высококачественных аннотаторов.
Два основных подхода: 1) SFT (Supervised Fine-Tuning) — модель учится копировать ответы экспертов; 2) RLHF (Reinforcement Learning from Human Feedback) — модель учится максимизировать reward на основе предпочтений людей. Современные LLM используют комбинацию: SFT → RLHF → DPO/IPO.
Крупные датасеты: FLAN (Google) — 1800+ задач, Self-Instruct (UW), OpenOrca, Alpaca (Stanford), Dolly. На русском — Saiga, ruInstruct, Vikhr.
Результат: GPT-3 → InstructGPT → ChatGPT после instruction tuning. До тюнинга нужно было хитрить с few-shot prompting; после — модель понимает прямые команды.
Примеры
- GPT-3 → InstructGPT (2022, классика)
- FLAN-T5 — Google'овский подход
- Alpaca — Stanford instruction tuning
- Saiga — instruction tuning русских моделей
Частые вопросы
Чем отличается от обычного fine-tuning?
Обычный fine-tuning адаптирует модель к узкой задаче (классификация документов). Instruction tuning делает модель универсальным ассистентом, понимающим разные команды.
Нужен ли мне instruction tuning?
Если используете готовую модель (GPT-5.4, Claude, Gemini) — нет, они уже tuned. Если обучаете свою open-source модель под продукт — да, обязательный этап.
Сколько данных нужно?
Минимум — 1000 высококачественных пар [инструкция, ответ]. Промышленные модели — 100K-1M пар, написанных и проверенных экспертами.
Что лучше — SFT или RLHF?
Современные модели используют оба: сначала SFT на массе данных, потом RLHF/DPO на тщательно отобранных предпочтениях. RLHF без SFT работает хуже.