Трансформер (transformer)
Трансформер — это архитектура нейронных сетей, представленная Google в 2017 году в статье «Attention Is All You Need». Главное нововведение — механизм внимания (attention), который позволяет модели связывать каждое слово с любым другим в тексте. Все современные большие языковые модели — GPT, Claude, Gemini — построены на трансформерах.
До трансформеров языковые модели работали последовательно: чтобы понять смысл слова в конце предложения, модель должна была «помнить» начало через рекуррентную связь. Это было медленно и плохо работало на длинных текстах.
Трансформер решает эту проблему через механизм внимания (attention): для каждого слова модель сразу смотрит на все остальные слова в тексте и решает, какие из них важны для контекста. Это не только быстрее (всё параллельно), но и качественнее — модель видит всё сразу, а не «забывает» начало текста.
В 2026 году все ведущие LLM — это эволюции той самой архитектуры 2017 года: GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Grok-4 — все они трансформеры. Изменилось только количество параметров (с миллионов до триллионов), длина контекста (с тысяч токенов до миллионов) и набор обучающих данных.
Примеры
- →BERT (2018) — первый «понимающий» трансформер для задач классификации
- →GPT-1, GPT-2, GPT-3, ... GPT-5.4 — поколения генеративных трансформеров OpenAI
- →Vision Transformer (ViT) — трансформер для изображений, основа DALL-E и Nano Banana
- →Diffusion Transformers (DiT) — гибрид с диффузионными моделями для image и video gen
Связанные термины
Часто задаваемые вопросы
Что такое трансформер в нейросетях?
Трансформер — это архитектура нейронной сети с механизмом внимания (attention), позволяющим модели одновременно учитывать все слова в тексте. На трансформерах построены все современные LLM (ChatGPT, Claude, Gemini), а также модели для изображений (DALL-E, Nano Banana).
Кто придумал трансформер?
Архитектура была представлена группой исследователей Google в статье «Attention Is All You Need» в 2017 году. С тех пор трансформер стал базовой архитектурой для большинства задач машинного обучения.
Чем трансформер отличается от свёрточной нейросети?
Свёрточные сети (CNN) хорошо работают с локальными признаками (соседние пиксели, соседние слова). Трансформеры через attention учитывают все элементы сразу, что особенно важно для текстов и сложных изображений.
Попробуйте нейросети на практике
30₽ при регистрации, без VPN, оплата в рублях.
Зарегистрироваться