RLHF (Reinforcement Learning from Human Feedback)
RLHF (Reinforcement Learning from Human Feedback) — техника обучения LLM, при которой человек оценивает ответы модели, а модель учится максимизировать оценки. Благодаря RLHF ChatGPT, Claude и Gemini ведут себя как «помощники», а не как механические продолжатели текста.
Базовая LLM после pre-training умеет «продолжать текст» — но не следовать инструкциям, не отказываться от вредных запросов, не говорить «я не знаю». RLHF учит её этим качествам.
Этапы: 1) Supervised fine-tuning — модель учат на примерах «инструкция → хороший ответ»; 2) Reward Modeling — обучают отдельную модель оценивать ответы; 3) Reinforcement Learning — основная LLM учится максимизировать награды от reward-модели.
В 2026 RLHF — стандарт всех ассистент-моделей. Без него мы бы получили GPT-3-class модель: умную, но «дикую» (склонна к токсичности, вранью, отказу следовать инструкциям).
Примеры
- →ChatGPT — первая массовая RLHF-модель
- →Constitutional AI (Claude) — RLHF + AI-фидбек
- →DPO (Direct Preference Optimization) — упрощённая версия RLHF
- →RLAIF — RL from AI Feedback
Связанные термины
Часто задаваемые вопросы
Что такое RLHF простыми словами?
Это «обучение через оценки». Люди ставят оценки ответам модели, модель учится максимизировать оценки. Так получаются вежливые ассистенты, а не «дикие» генераторы текста.
Кто использует RLHF?
Все коммерческие LLM 2026: OpenAI (ChatGPT), Anthropic (Claude — с Constitutional AI), Google (Gemini), xAI (Grok), DeepSeek.
Можно ли обучить свою LLM с RLHF?
Технически да, но это очень дорого и сложно. На gptrf.ru мы рекомендуем prompt engineering + few-shot вместо RLHF — покрывает 95% задач.
В чём отличие от обычного fine-tuning?
Fine-tuning — на примерах «вход → выход». RLHF — на оценках ответов. RLHF умеет учитывать «качество» ответа, а не просто его форму.
Попробуйте нейросети на практике
30₽ при регистрации, без VPN, оплата в рублях.
Зарегистрироваться