Что такое Quantization (квантизация)
Подробнее
Базовая LLM хранит веса в FP16 (16 бит на параметр). Модель 70B параметров занимает 140 GB — не помещается на одной видеокарте.
Квантизация переводит веса в INT8 (1/2 размера) или INT4 (1/4 размера). 70B-модель в INT4 = 35 GB — помещается на RTX 4090 (24 GB не хватит, нужно две).
Качество: INT8 — почти неотличимо от FP16 (потери < 1%). INT4 — потери 1-5% на сложных задачах. INT2 — слишком много потерь, не для прода.
В 2026 для локального запуска DeepSeek V3.1, Llama 4, Qwen3 квантизация — стандарт. Инструменты: GGUF (для llama.cpp), AWQ, GPTQ, BitsAndBytes. На gptrf.ru квантизация не нужна — мы используем FP16-веса в облаке.
Примеры
- INT8 — почти без потерь качества
- INT4 — стандарт для локального запуска
- GGUF — формат для llama.cpp
- Q4_K_M — популярная INT4-схема
Частые вопросы
Что такое квантизация простыми словами?
Это «округление» весов нейросети. Вместо точных дробей FP16 — целые числа INT8 / INT4. Модель становится в 2-4 раза меньше при минимальной потере качества.
Сильно ли падает качество?
INT8 — почти неотличимо от FP16. INT4 — потери 1-5% на сложных задачах. INT2 — слишком много, не для прода.
Нужна ли квантизация на ГПТ Россия?
Нет. Мы используем FP16-веса в облаке. Квантизация нужна только для локального запуска на ограниченной видеокарте.
Какой формат выбрать?
GGUF (Q4_K_M или Q5_K_M) для llama.cpp. AWQ для vLLM. BitsAndBytes для HuggingFace. Все три работают.