Attention Mechanism (механизм внимания)

attentionмеханизм вниманияself-attentionscaled dot-product attention
Кратко

Attention Mechanism — механизм, позволяющий нейросети «обращать внимание» на разные части входа с разным весом. Лежит в основе Transformer-архитектуры (GPT, Claude, Gemini, BERT). Self-attention — вариант, где каждый токен связывается с каждым другим в последовательности.

До 2017 года нейросети обрабатывали последовательности (RNN, LSTM) пошагово, теряя контекст на длинных последовательностях. Attention решил эту проблему: модель в каждом слое вычисляет, насколько важен каждый предыдущий токен для текущего, и взвешивает их.

Classical attention (Bahdanau, 2014): машинный перевод смотрит на исходный текст. Self-attention (Vaswani, 2017): токены связываются между собой в одной последовательности — основа Transformer. Multi-head attention: несколько 'голов внимания' учат разные паттерны параллельно.

В 2026 году все большие LLM (GPT-5.4, Claude Opus 4.7, Gemini 3.1 Pro) используют разновидности attention — sparse attention для длинного контекста, FlashAttention для скорости. Контекст 1M+ токенов был бы невозможен без оптимизированного attention.

Примеры

  • Self-attention в GPT-5.4
  • Multi-head attention в Claude Opus 4.7
  • FlashAttention для скорости
  • Sparse attention для 1M контекста Gemini 3.1 Pro

Связанные термины

Трансформер (transformer)
Трансформер — это архитектура нейронных сетей, представленная Google в 2017 году в статье «Attention Is All You Need». Главное нововведение — механизм внимания (attention), который позволяет модели связывать каждое слово с любым другим в тексте. Все современные большие языковые модели — GPT, Claude, Gemini — построены на трансформерах.
Контекстное окно (context window)
Контекстное окно — это максимальный объём текста, который нейросеть может «удерживать в памяти» в рамках одного диалога. Измеряется в токенах. В 2026 году флагманы (GPT-5.4, Claude Opus 4.7, Gemini 3.1 Pro) имеют около 1 миллиона токенов = целые книги или кодовые базы за раз.
Эмбеддинг (embedding)
Эмбеддинг — это представление текста, изображения или другой сущности в виде числового вектора (например, массив из 1536 чисел). Близкие по смыслу объекты дают близкие векторы. На эмбеддингах работают семантический поиск, RAG, рекомендации и классификация.

Часто задаваемые вопросы

Что такое self-attention?

Вариант attention, где каждый токен последовательности взаимодействует со всеми другими токенами в той же последовательности. Основа Transformer.

Как attention работает с длинным контекстом?

Стандартный attention имеет квадратичную сложность O(n²) от длины. Для 1M токенов используются sparse / FlashAttention варианты — линейная или почти-линейная сложность.

Можно ли визуализировать attention?

Да, attention weights можно отобразить как тепловую карту — какие токены модель связала с какими. Полезно для отладки и интерпретации.

Зачем multi-head attention?

Разные «головы» учатся разным типам зависимостей: одна — на синтаксис, другая — на семантику, третья — на дальние связи. Параллельно — быстро.

Попробуйте нейросети на практике

30₽ при регистрации, без VPN, оплата в рублях.

Зарегистрироваться