Что такое Attention Mechanism (механизм внимания)
Подробнее
До 2017 года нейросети обрабатывали последовательности (RNN, LSTM) пошагово, теряя контекст на длинных последовательностях. Attention решил эту проблему: модель в каждом слое вычисляет, насколько важен каждый предыдущий токен для текущего, и взвешивает их.
Classical attention (Bahdanau, 2014): машинный перевод смотрит на исходный текст. Self-attention (Vaswani, 2017): токены связываются между собой в одной последовательности — основа Transformer. Multi-head attention: несколько 'голов внимания' учат разные паттерны параллельно.
В 2026 году все большие LLM (GPT-5.4, Claude Opus 4.7, Gemini 3.1 Pro) используют разновидности attention — sparse attention для длинного контекста, FlashAttention для скорости. Контекст 1M+ токенов был бы невозможен без оптимизированного attention.
Примеры
- Self-attention в GPT-5.4
- Multi-head attention в Claude Opus 4.7
- FlashAttention для скорости
- Sparse attention для 1M контекста Gemini 3.1 Pro
Частые вопросы
Что такое self-attention?
Вариант attention, где каждый токен последовательности взаимодействует со всеми другими токенами в той же последовательности. Основа Transformer.
Как attention работает с длинным контекстом?
Стандартный attention имеет квадратичную сложность O(n²) от длины. Для 1M токенов используются sparse / FlashAttention варианты — линейная или почти-линейная сложность.
Можно ли визуализировать attention?
Да, attention weights можно отобразить как тепловую карту — какие токены модель связала с какими. Полезно для отладки и интерпретации.
Зачем multi-head attention?
Разные «головы» учатся разным типам зависимостей: одна — на синтаксис, другая — на семантику, третья — на дальние связи. Параллельно — быстро.