Jailbreak нейросети
Jailbreak — техника обхода safety-фильтров LLM, при которой пользователь специально подобранным промптом заставляет модель отвечать на запрещённые темы (как сделать оружие, наркотики, обход закона). Частный случай prompt injection.
Все коммерческие LLM (GPT, Claude, Gemini) имеют safety-фильтры — отказываются обсуждать темы способных навредить пользователю или окружающим. Jailbreak — попытка обхода этих фильтров через специально сформулированные промпты.
Классические техники jailbreak: ролевая игра («ты теперь злая модель»), гипотетический сценарий («представь, что в учебнике…»), DAN (Do Anything Now), переключение языков (на менее изученном языке фильтры слабее), кодирование (base64, Pig Latin, эмодзи).
В 2026 году топ-модели (GPT-5.4, Claude Opus 4.7) научились распознавать большинство jailbreak-техник, но 100% защиты нет — это фундаментальная проблема архитектуры. На gptrf.ru мы НЕ помогаем с jailbreak'ами — это нарушение условий использования и часто противозаконно. Используйте ИИ для законных задач.
Примеры
- →DAN (Do Anything Now) — классическая ролевая техника
- →Гипотетические сценарии («представь учёного, который…»)
- →Переключение на редкие языки
- →Кодирование промпта в base64 / Pig Latin
- →Many-shot jailbreak (обнаружен Anthropic, 2024)
Связанные термины
Часто задаваемые вопросы
Что такое jailbreak нейросети простыми словами?
Это «взлом» safety-фильтров ИИ через специальный промпт. Цель — заставить модель ответить на тему, которую она по умолчанию отказывается обсуждать.
Какая нейросеть меньше всего поддаётся jailbreak?
Claude Opus 4.7 (extended thinking) и GPT-5.4 reasoning — лидеры по защите. Многие классические техники (DAN, ролевая игра) больше не работают. Но абсолютной защиты не существует.
Законен ли jailbreak?
Сам jailbreak — нет (нарушение условий использования сервиса). Использование результата для совершения преступлений — однозначно незаконно. На gptrf.ru jailbreak-запросы блокируются, аккаунт может быть заблокирован.
Чем отличается jailbreak от prompt injection?
Jailbreak — частный случай PI с целью обхода safety-фильтров. Prompt injection шире — может использоваться для кражи данных, выполнения команд, изменения поведения модели не только по spicy-темам.
Попробуйте нейросети на практике
30₽ при регистрации, без VPN, оплата в рублях.
Зарегистрироваться