Quantization (квантизация)
Quantization — техника уменьшения размера и стоимости inference нейросети через переход с высокой точности (FP16, FP32) на низкую (INT8, INT4). Размер модели уменьшается в 2-8 раз, скорость растёт, качество падает на 1-5%.
Базовая LLM хранит веса в FP16 (16 бит на параметр). Модель 70B параметров занимает 140 GB — не помещается на одной видеокарте.
Квантизация переводит веса в INT8 (1/2 размера) или INT4 (1/4 размера). 70B-модель в INT4 = 35 GB — помещается на RTX 4090 (24 GB не хватит, нужно две).
Качество: INT8 — почти неотличимо от FP16 (потери < 1%). INT4 — потери 1-5% на сложных задачах. INT2 — слишком много потерь, не для прода.
В 2026 для локального запуска DeepSeek V3.1, Llama 4, Qwen3 квантизация — стандарт. Инструменты: GGUF (для llama.cpp), AWQ, GPTQ, BitsAndBytes. На gptrf.ru квантизация не нужна — мы используем FP16-веса в облаке.
Примеры
- →INT8 — почти без потерь качества
- →INT4 — стандарт для локального запуска
- →GGUF — формат для llama.cpp
- →Q4_K_M — популярная INT4-схема
Связанные термины
Часто задаваемые вопросы
Что такое квантизация простыми словами?
Это «округление» весов нейросети. Вместо точных дробей FP16 — целые числа INT8 / INT4. Модель становится в 2-4 раза меньше при минимальной потере качества.
Сильно ли падает качество?
INT8 — почти неотличимо от FP16. INT4 — потери 1-5% на сложных задачах. INT2 — слишком много, не для прода.
Нужна ли квантизация на ГПТ Россия?
Нет. Мы используем FP16-веса в облаке. Квантизация нужна только для локального запуска на ограниченной видеокарте.
Какой формат выбрать?
GGUF (Q4_K_M или Q5_K_M) для llama.cpp. AWQ для vLLM. BitsAndBytes для HuggingFace. Все три работают.
Попробуйте нейросети на практике
30₽ при регистрации, без VPN, оплата в рублях.
Зарегистрироваться