Что такое Mixture of Experts (MoE) — простыми словами | ГПТ Россия

Mixture of Experts (MoE)

Опубликовано: 26 апреля 2026 г.

MoEMixture of Expertsсмесь экспертов

Кратко

Mixture of Experts (MoE) — архитектура LLM, в которой модель разделена на множество «экспертов» (sub-моделей), и для каждого запроса роутер активирует только часть из них. Это позволяет иметь огромную модель (671 млрд параметров у DeepSeek V3.1) с активацией только 37 млрд за один запрос.

Классическая «плотная» LLM активирует все параметры на каждом запросе — например, GPT-3.5 (175 млрд) при каждом ответе считает все 175 млрд весов. Это медленно и дорого.

MoE решает проблему: модель разделяется на N «экспертов» (например, 256 экспертов по 5 млрд параметров). На каждом слое маленький роутер выбирает 2-8 экспертов, релевантных текущему токену, и активирует только их. Так общее количество параметров может быть огромным, но активные — только небольшая часть.

В 2026 году все open-source флагманы используют MoE: DeepSeek V3.1 (671B total / 37B active), Mixtral 8x22B, Qwen3-MoE. Это даёт качество близкое к закрытым флагманам при кратно меньшей стоимости inference. На gptrf.ru DeepSeek V3.1 (MoE) — топ-выбор для бюджетных задач.

Примеры

→DeepSeek V3.1 — 671B параметров, 37B активных
→Mixtral 8x22B (Mistral) — 8 экспертов по 22B
→Qwen3-MoE (Alibaba)
→GPT-4 (по слухам — MoE, но не подтверждено)

Часто задаваемые вопросы

Что такое MoE простыми словами?

Это «команда экспертов» внутри одной модели. На каждом запросе роутер выбирает 2-8 самых подходящих экспертов и спрашивает только их. Модель в целом большая, но «работает» только малая часть — это быстрее и дешевле.

Чем MoE лучше плотной модели?

MoE даёт качество как у плотной модели в N раз большего размера, но при стоимости плотной N раз меньшей. Например, DeepSeek V3.1 (37B активных) близок по качеству к плотным 200B моделям, но в разы дешевле.

Какие open-source модели используют MoE в 2026?

DeepSeek V3.1, Mixtral 8x22B, Qwen3-MoE, OLMoE. На gptrf.ru DeepSeek V3.1 (MoE) — топ-выбор для бюджетных задач.

Минусы MoE-архитектуры?

1) Требует больше памяти (все эксперты должны быть в RAM). 2) Сложнее в fine-tuning. 3) Качество на edge cases чуть ниже плотной модели. На большинстве задач это незаметно.

Попробуйте нейросети на практике

30₽ при регистрации, без VPN, оплата в рублях.

Зарегистрироваться

Mixture of Experts (MoE)

Примеры

Связанные термины

Часто задаваемые вопросы

Попробуйте нейросети на практике