Инференс (inference)

inferenceинференспрогон модели
Кратко

Inference (инференс) — процесс использования уже обученной нейросети для генерации ответа на новый запрос. Это противоположность training (обучения): training — учим модель один раз; inference — используем её миллионы раз.

Жизнь LLM состоит из двух фаз. Training (обучение) — модель «учится» на терабайтах данных, занимает недели и стоит десятки миллионов долларов на тысячах GPU. Это происходит один раз. Inference (использование) — модель применяется к запросу пользователя, генерирует ответ. Это происходит миллиарды раз в день.

Когда вы пишете промпт в ChatGPT — это inference. Стоимость одного inference вызова — копейки, но в сумме (миллиарды запросов в сутки) превышает стоимость training. Поэтому 2026 год — эпоха оптимизации inference: KV-cache, speculative decoding, FlashAttention 3, quantization. Цель — ускорить ответ и снизить цену за токен.

Для разработчика: inference на gptrf.ru — это просто HTTP-запрос к нашему API. Latency (задержка) — 100-500 мс на старте + время генерации (зависит от длины ответа). Throughput (скорость генерации) — 50-200 токенов/сек у разных моделей. Цена считается за токены input + output.

Примеры

  • Каждый запрос в ChatGPT — это inference
  • Speculative decoding — техника ускорения inference в 2-3 раза
  • Quantization — уменьшение размера модели для дешёвого inference
  • vLLM, TGI — фреймворки для прод-inference open-source моделей

Связанные термины

Часто задаваемые вопросы

Что такое inference простыми словами?

Это «использование» нейросети после того, как её обучили. Каждый раз когда вы задаёте вопрос ChatGPT или Claude — это инференс. Обучают модель один раз, используют миллионы.

Чем inference отличается от training?

Training — учим модель на больших данных (тысячи GPU, недели, миллионы долларов). Inference — используем уже обученную модель для генерации ответов (одна GPU, миллисекунды, копейки за вызов).

Как ускорить inference open-source модели локально?

Используйте vLLM или TGI вместо стандартного HuggingFace Transformers. Применяйте quantization (INT8/INT4) — уменьшит память и ускорит. KV-cache — обязательно. Для 70B моделей — мульти-GPU.

Сколько стоит inference на ГПТ Россия?

По токенам, как у исходных провайдеров. DeepSeek V3.1 — копейки за миллион токенов. GPT-5.4 — несколько долларов. Минимальное пополнение — 100₽, этого хватит на десятки-сотни запросов.

Попробуйте нейросети на практике

30₽ при регистрации, без VPN, оплата в рублях.

Зарегистрироваться