Quantization (квантизация)

quantizationквантизацияINT8INT4
Кратко

Quantization — техника уменьшения размера и стоимости inference нейросети через переход с высокой точности (FP16, FP32) на низкую (INT8, INT4). Размер модели уменьшается в 2-8 раз, скорость растёт, качество падает на 1-5%.

Базовая LLM хранит веса в FP16 (16 бит на параметр). Модель 70B параметров занимает 140 GB — не помещается на одной видеокарте.

Квантизация переводит веса в INT8 (1/2 размера) или INT4 (1/4 размера). 70B-модель в INT4 = 35 GB — помещается на RTX 4090 (24 GB не хватит, нужно две).

Качество: INT8 — почти неотличимо от FP16 (потери < 1%). INT4 — потери 1-5% на сложных задачах. INT2 — слишком много потерь, не для прода.

В 2026 для локального запуска DeepSeek V3.1, Llama 4, Qwen3 квантизация — стандарт. Инструменты: GGUF (для llama.cpp), AWQ, GPTQ, BitsAndBytes. На gptrf.ru квантизация не нужна — мы используем FP16-веса в облаке.

Примеры

  • INT8 — почти без потерь качества
  • INT4 — стандарт для локального запуска
  • GGUF — формат для llama.cpp
  • Q4_K_M — популярная INT4-схема

Связанные термины

Часто задаваемые вопросы

Что такое квантизация простыми словами?

Это «округление» весов нейросети. Вместо точных дробей FP16 — целые числа INT8 / INT4. Модель становится в 2-4 раза меньше при минимальной потере качества.

Сильно ли падает качество?

INT8 — почти неотличимо от FP16. INT4 — потери 1-5% на сложных задачах. INT2 — слишком много, не для прода.

Нужна ли квантизация на ГПТ Россия?

Нет. Мы используем FP16-веса в облаке. Квантизация нужна только для локального запуска на ограниченной видеокарте.

Какой формат выбрать?

GGUF (Q4_K_M или Q5_K_M) для llama.cpp. AWQ для vLLM. BitsAndBytes для HuggingFace. Все три работают.

Попробуйте нейросети на практике

30₽ при регистрации, без VPN, оплата в рублях.

Зарегистрироваться