Mixture of Experts (MoE)
Mixture of Experts (MoE) — архитектура LLM, в которой модель разделена на множество «экспертов» (sub-моделей), и для каждого запроса роутер активирует только часть из них. Это позволяет иметь огромную модель (671 млрд параметров у DeepSeek V3.1) с активацией только 37 млрд за один запрос.
Классическая «плотная» LLM активирует все параметры на каждом запросе — например, GPT-3.5 (175 млрд) при каждом ответе считает все 175 млрд весов. Это медленно и дорого.
MoE решает проблему: модель разделяется на N «экспертов» (например, 256 экспертов по 5 млрд параметров). На каждом слое маленький роутер выбирает 2-8 экспертов, релевантных текущему токену, и активирует только их. Так общее количество параметров может быть огромным, но активные — только небольшая часть.
В 2026 году все open-source флагманы используют MoE: DeepSeek V3.1 (671B total / 37B active), Mixtral 8x22B, Qwen3-MoE. Это даёт качество близкое к закрытым флагманам при кратно меньшей стоимости inference. На gptrf.ru DeepSeek V3.1 (MoE) — топ-выбор для бюджетных задач.
Примеры
- →DeepSeek V3.1 — 671B параметров, 37B активных
- →Mixtral 8x22B (Mistral) — 8 экспертов по 22B
- →Qwen3-MoE (Alibaba)
- →GPT-4 (по слухам — MoE, но не подтверждено)
Связанные термины
Часто задаваемые вопросы
Что такое MoE простыми словами?
Это «команда экспертов» внутри одной модели. На каждом запросе роутер выбирает 2-8 самых подходящих экспертов и спрашивает только их. Модель в целом большая, но «работает» только малая часть — это быстрее и дешевле.
Чем MoE лучше плотной модели?
MoE даёт качество как у плотной модели в N раз большего размера, но при стоимости плотной N раз меньшей. Например, DeepSeek V3.1 (37B активных) близок по качеству к плотным 200B моделям, но в разы дешевле.
Какие open-source модели используют MoE в 2026?
DeepSeek V3.1, Mixtral 8x22B, Qwen3-MoE, OLMoE. На gptrf.ru DeepSeek V3.1 (MoE) — топ-выбор для бюджетных задач.
Минусы MoE-архитектуры?
1) Требует больше памяти (все эксперты должны быть в RAM). 2) Сложнее в fine-tuning. 3) Качество на edge cases чуть ниже плотной модели. На большинстве задач это незаметно.
Попробуйте нейросети на практике
30₽ при регистрации, без VPN, оплата в рублях.
Зарегистрироваться