Quantization (квантизация)

Q: Что такое квантизация простыми словами?

Это «округление» весов нейросети. Вместо точных дробей FP16 — целые числа INT8 / INT4. Модель становится в 2-4 раза меньше при минимальной потере качества.

Q: Сильно ли падает качество?

INT8 — почти неотличимо от FP16. INT4 — потери 1-5% на сложных задачах. INT2 — слишком много, не для прода.

Q: Нужна ли квантизация на ГПТ Россия?

Нет. Мы используем FP16-веса в облаке. Квантизация нужна только для локального запуска на ограниченной видеокарте.

Q: Какой формат выбрать?

GGUF (Q4_K_M или Q5_K_M) для llama.cpp. AWQ для vLLM. BitsAndBytes для HuggingFace. Все три работают.

Опубликовано: 26 апреля 2026 г.

quantizationквантизацияINT8INT4

Кратко

Quantization — техника уменьшения размера и стоимости inference нейросети через переход с высокой точности (FP16, FP32) на низкую (INT8, INT4). Размер модели уменьшается в 2-8 раз, скорость растёт, качество падает на 1-5%.

Базовая LLM хранит веса в FP16 (16 бит на параметр). Модель 70B параметров занимает 140 GB — не помещается на одной видеокарте.

Квантизация переводит веса в INT8 (1/2 размера) или INT4 (1/4 размера). 70B-модель в INT4 = 35 GB — помещается на RTX 4090 (24 GB не хватит, нужно две).

Качество: INT8 — почти неотличимо от FP16 (потери < 1%). INT4 — потери 1-5% на сложных задачах. INT2 — слишком много потерь, не для прода.

В 2026 для локального запуска DeepSeek V3.1, Llama 4, Qwen3 квантизация — стандарт. Инструменты: GGUF (для llama.cpp), AWQ, GPTQ, BitsAndBytes. На gptrf.ru квантизация не нужна — мы используем FP16-веса в облаке.

Примеры

→INT8 — почти без потерь качества
→INT4 — стандарт для локального запуска
→GGUF — формат для llama.cpp
→Q4_K_M — популярная INT4-схема

Связанные термины

Инференс (inference)

Inference (инференс) — процесс использования уже обученной нейросети для генерации ответа на новый запрос. Это противоположность training (обучения): training — учим модель один раз; inference — используем её миллионы раз.

Open-source LLM

Open-source LLM (открытые языковые модели) — нейросети, веса которых выложены публично и можно скачать, использовать локально и дообучать. В 2026 году топ-open-source: DeepSeek V3.1, Llama 4, Qwen3, Mistral Large 3.

Часто задаваемые вопросы

Что такое квантизация простыми словами?

Это «округление» весов нейросети. Вместо точных дробей FP16 — целые числа INT8 / INT4. Модель становится в 2-4 раза меньше при минимальной потере качества.

Сильно ли падает качество?

INT8 — почти неотличимо от FP16. INT4 — потери 1-5% на сложных задачах. INT2 — слишком много, не для прода.

Нужна ли квантизация на ГПТ Россия?

Нет. Мы используем FP16-веса в облаке. Квантизация нужна только для локального запуска на ограниченной видеокарте.

Какой формат выбрать?

GGUF (Q4_K_M или Q5_K_M) для llama.cpp. AWQ для vLLM. BitsAndBytes для HuggingFace. Все три работают.

Попробуйте нейросети на практике

30₽ при регистрации, без VPN, оплата в рублях.

Зарегистрироваться