Что такое Трансформер (transformer)
Подробнее
До трансформеров языковые модели работали последовательно: чтобы понять смысл слова в конце предложения, модель должна была «помнить» начало через рекуррентную связь. Это было медленно и плохо работало на длинных текстах.
Трансформер решает эту проблему через механизм внимания (attention): для каждого слова модель сразу смотрит на все остальные слова в тексте и решает, какие из них важны для контекста. Это не только быстрее (всё параллельно), но и качественнее — модель видит всё сразу, а не «забывает» начало текста.
В 2026 году все ведущие LLM — это эволюции той самой архитектуры 2017 года: GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Grok-4 — все они трансформеры. Изменилось только количество параметров (с миллионов до триллионов), длина контекста (с тысяч токенов до миллионов) и набор обучающих данных.
Примеры
- BERT (2018) — первый «понимающий» трансформер для задач классификации
- GPT-1, GPT-2, GPT-3, ... GPT-5.4 — поколения генеративных трансформеров OpenAI
- Vision Transformer (ViT) — трансформер для изображений, основа DALL-E и Nano Banana
- Diffusion Transformers (DiT) — гибрид с диффузионными моделями для image и video gen
Частые вопросы
Что такое трансформер в нейросетях?
Трансформер — это архитектура нейронной сети с механизмом внимания (attention), позволяющим модели одновременно учитывать все слова в тексте. На трансформерах построены все современные LLM (ChatGPT, Claude, Gemini), а также модели для изображений (DALL-E, Nano Banana).
Кто придумал трансформер?
Архитектура была представлена группой исследователей Google в статье «Attention Is All You Need» в 2017 году. С тех пор трансформер стал базовой архитектурой для большинства задач машинного обучения.
Чем трансформер отличается от свёрточной нейросети?
Свёрточные сети (CNN) хорошо работают с локальными признаками (соседние пиксели, соседние слова). Трансформеры через attention учитывают все элементы сразу, что особенно важно для текстов и сложных изображений.