Attention Mechanism (механизм внимания)
Attention Mechanism — механизм, позволяющий нейросети «обращать внимание» на разные части входа с разным весом. Лежит в основе Transformer-архитектуры (GPT, Claude, Gemini, BERT). Self-attention — вариант, где каждый токен связывается с каждым другим в последовательности.
До 2017 года нейросети обрабатывали последовательности (RNN, LSTM) пошагово, теряя контекст на длинных последовательностях. Attention решил эту проблему: модель в каждом слое вычисляет, насколько важен каждый предыдущий токен для текущего, и взвешивает их.
Classical attention (Bahdanau, 2014): машинный перевод смотрит на исходный текст. Self-attention (Vaswani, 2017): токены связываются между собой в одной последовательности — основа Transformer. Multi-head attention: несколько 'голов внимания' учат разные паттерны параллельно.
В 2026 году все большие LLM (GPT-5.4, Claude Opus 4.7, Gemini 3.1 Pro) используют разновидности attention — sparse attention для длинного контекста, FlashAttention для скорости. Контекст 1M+ токенов был бы невозможен без оптимизированного attention.
Примеры
- →Self-attention в GPT-5.4
- →Multi-head attention в Claude Opus 4.7
- →FlashAttention для скорости
- →Sparse attention для 1M контекста Gemini 3.1 Pro
Связанные термины
Часто задаваемые вопросы
Что такое self-attention?
Вариант attention, где каждый токен последовательности взаимодействует со всеми другими токенами в той же последовательности. Основа Transformer.
Как attention работает с длинным контекстом?
Стандартный attention имеет квадратичную сложность O(n²) от длины. Для 1M токенов используются sparse / FlashAttention варианты — линейная или почти-линейная сложность.
Можно ли визуализировать attention?
Да, attention weights можно отобразить как тепловую карту — какие токены модель связала с какими. Полезно для отладки и интерпретации.
Зачем multi-head attention?
Разные «головы» учатся разным типам зависимостей: одна — на синтаксис, другая — на семантику, третья — на дальние связи. Параллельно — быстро.
Попробуйте нейросети на практике
30₽ при регистрации, без VPN, оплата в рублях.
Зарегистрироваться