Что такое Инференс (inference)
Подробнее
Жизнь LLM состоит из двух фаз. Training (обучение) — модель «учится» на терабайтах данных, занимает недели и стоит десятки миллионов долларов на тысячах GPU. Это происходит один раз. Inference (использование) — модель применяется к запросу пользователя, генерирует ответ. Это происходит миллиарды раз в день.
Когда вы пишете промпт в ChatGPT — это inference. Стоимость одного inference вызова — копейки, но в сумме (миллиарды запросов в сутки) превышает стоимость training. Поэтому 2026 год — эпоха оптимизации inference: KV-cache, speculative decoding, FlashAttention 3, quantization. Цель — ускорить ответ и снизить цену за токен.
Для разработчика: inference на gptrf.ru — это просто HTTP-запрос к нашему API. Latency (задержка) — 100-500 мс на старте + время генерации (зависит от длины ответа). Throughput (скорость генерации) — 50-200 токенов/сек у разных моделей. Цена считается за токены input + output.
Примеры
- Каждый запрос в ChatGPT — это inference
- Speculative decoding — техника ускорения inference в 2-3 раза
- Quantization — уменьшение размера модели для дешёвого inference
- vLLM, TGI — фреймворки для прод-inference open-source моделей
Частые вопросы
Что такое inference простыми словами?
Это «использование» нейросети после того, как её обучили. Каждый раз когда вы задаёте вопрос ChatGPT или Claude — это инференс. Обучают модель один раз, используют миллионы.
Чем inference отличается от training?
Training — учим модель на больших данных (тысячи GPU, недели, миллионы долларов). Inference — используем уже обученную модель для генерации ответов (одна GPU, миллисекунды, копейки за вызов).
Как ускорить inference open-source модели локально?
Используйте vLLM или TGI вместо стандартного HuggingFace Transformers. Применяйте quantization (INT8/INT4) — уменьшит память и ускорит. KV-cache — обязательно. Для 70B моделей — мульти-GPU.
Сколько стоит inference на ГПТ Россия?
По токенам, как у исходных провайдеров. DeepSeek V3.1 — копейки за миллион токенов. GPT-5.4 — несколько долларов. Минимальное пополнение — 100₽, этого хватит на десятки-сотни запросов.