Что такое диффузионная модель — простыми словами | ГПТ Россия

Что такое Диффузионная модель (diffusion model)

Диффузионная модель — нейросеть, которая генерирует изображения и видео, постепенно «убирая шум». На ней работают Midjourney, Stable Diffusion, DALL-E, Sora.

Также: diffusion model, диффузия, диффузионная нейросеть3 минуты чтения

Что такое Диффузионная модель (diffusion model)

Кратко. Диффузионная модель — это тип нейросети, которая училась превращать чистый шум в осмысленное изображение, постепенно его «расшумляя». На диффузии построены большинство современных генераторов: Stable Diffusion, DALL-E, Midjourney, Sora, Veo, Nano Banana.

Подробнее

Идея диффузионной модели вдохновлена физикой: представьте, что вы капнули чернила в воду — они постепенно расходятся (диффундируют). Если этот процесс «обратить», то можно из размытого облака собрать чёткую каплю. Диффузионная модель училась именно «обратной диффузии» для пикселей.

Тренировка идёт в две стадии. Первая — модели показывают тысячи изображений и постепенно добавляют к ним шум, пока не остаётся «снежок». Вторая — модель учится повторять этот процесс в обратную сторону: из шума восстанавливать оригинал. После обучения, если задать промпт «кошка в шляпе», модель начинает с чистого шума и за 20-50 шагов выводит результат.

В 2026 году все топ-генераторы изображений и видео — диффузионные: Nano Banana Pro, Seedream 4.5, GPT Image 2, Sora 2, Veo 3.1. Различия — в архитектуре (UNet, Transformer), скорости (Flow Matching, Consistency Models), качестве данных и подсчётах.

Примеры

Stable Diffusion (2022) — первая массовая open-source диффузия
DALL-E 3 / GPT Image — диффузия от OpenAI
Midjourney V6 — закрытая диффузия с упором на эстетику
Sora 2 / Veo 3.1 — видео-диффузии 2026 года
Nano Banana Pro — диффузия 4K с упором на лица и текст

Частые вопросы

Что такое диффузионная модель в нейросетях?

Тип нейросети для генерации изображений и видео, которая работает через постепенное «расшумление» — начинает с чистого шума и за 20-50 шагов превращает его в осмысленный результат. На диффузии работают почти все современные генераторы.

Чем диффузия отличается от GAN?

GAN (Generative Adversarial Network) — старая архитектура из двух сетей-конкурентов: генератор делает фейк, дискриминатор пытается отличить от настоящего. Диффузия одна нейросеть, тренировка стабильнее, качество выше. С 2022 года GAN практически уступили диффузионным моделям в image-gen.

Какие диффузионные модели работают в России?

На gptrf.ru — Nano Banana Pro, Seedream 4.5, GPT Image 2, Sora 2, Veo 3.1, Kling 2.6, Seedance 2 — все без VPN, оплата в рублях. Также есть отечественный Kandinsky 4.0 от Сбера и YandexART.

Попробовать на практике. Зарегистрируйтесь в gptrf.ru — получите 50 ₽ бонусом, без VPN, оплата в рублях. Зарегистрироваться →

Связанные термины

Трансформер (transformer)LLM (большая языковая модель)