Трансформер (transformer)

transformerархитектура трансформер
Кратко

Трансформер — это архитектура нейронных сетей, представленная Google в 2017 году в статье «Attention Is All You Need». Главное нововведение — механизм внимания (attention), который позволяет модели связывать каждое слово с любым другим в тексте. Все современные большие языковые модели — GPT, Claude, Gemini — построены на трансформерах.

До трансформеров языковые модели работали последовательно: чтобы понять смысл слова в конце предложения, модель должна была «помнить» начало через рекуррентную связь. Это было медленно и плохо работало на длинных текстах.

Трансформер решает эту проблему через механизм внимания (attention): для каждого слова модель сразу смотрит на все остальные слова в тексте и решает, какие из них важны для контекста. Это не только быстрее (всё параллельно), но и качественнее — модель видит всё сразу, а не «забывает» начало текста.

В 2026 году все ведущие LLM — это эволюции той самой архитектуры 2017 года: GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Grok-4 — все они трансформеры. Изменилось только количество параметров (с миллионов до триллионов), длина контекста (с тысяч токенов до миллионов) и набор обучающих данных.

Примеры

  • BERT (2018) — первый «понимающий» трансформер для задач классификации
  • GPT-1, GPT-2, GPT-3, ... GPT-5.4 — поколения генеративных трансформеров OpenAI
  • Vision Transformer (ViT) — трансформер для изображений, основа DALL-E и Nano Banana
  • Diffusion Transformers (DiT) — гибрид с диффузионными моделями для image и video gen

Связанные термины

Часто задаваемые вопросы

Что такое трансформер в нейросетях?

Трансформер — это архитектура нейронной сети с механизмом внимания (attention), позволяющим модели одновременно учитывать все слова в тексте. На трансформерах построены все современные LLM (ChatGPT, Claude, Gemini), а также модели для изображений (DALL-E, Nano Banana).

Кто придумал трансформер?

Архитектура была представлена группой исследователей Google в статье «Attention Is All You Need» в 2017 году. С тех пор трансформер стал базовой архитектурой для большинства задач машинного обучения.

Чем трансформер отличается от свёрточной нейросети?

Свёрточные сети (CNN) хорошо работают с локальными признаками (соседние пиксели, соседние слова). Трансформеры через attention учитывают все элементы сразу, что особенно важно для текстов и сложных изображений.

Попробуйте нейросети на практике

30₽ при регистрации, без VPN, оплата в рублях.

Зарегистрироваться