Latency LLM (задержка ответа)

latencyзадержкаTTFTtime to first token
Кратко

Latency LLM — задержка между отправкой запроса и началом / окончанием ответа. Измеряется в TTFT (Time to First Token — миллисекунды до первого токена) и throughput (токенов в секунду на этапе генерации).

Для real-time приложений (чат-боты, голосовые ассистенты) latency критична. Пользователь не должен ждать > 1 секунды до начала ответа.

Два ключевых параметра: TTFT (типично 100-1000 мс — зависит от модели и нагрузки) и throughput (50-200 токенов/сек у топ-моделей).

Самые быстрые в 2026: Claude Haiku 4.5 (~150 мс TTFT), Gemini 3 Flash (~100-200 мс), GPT-4o Mini (~200 мс), Grok 4 Fast. Самые медленные (но качественные): Reasoning-модели — могут занимать минуты на «thinking».

Как ускорить: 1) Выберите Mini/Flash/Haiku модель; 2) Используйте streaming (видеть ответ по мере генерации); 3) Уменьшите промпт; 4) Используйте speculative decoding на бэкенде.

Примеры

  • TTFT 100 мс — Haiku 4.5
  • Throughput 200 ток/сек — Flash модели
  • Reasoning может тратить минуты
  • Streaming в OpenAI API

Связанные термины

Часто задаваемые вопросы

Что такое TTFT?

Time To First Token — время от отправки запроса до получения первого токена ответа. Главный показатель «отзывчивости».

Какая модель самая быстрая?

Claude Haiku 4.5 и Gemini 3 Flash — лидеры 2026. ~100-200 мс TTFT.

Влияет ли длина промпта на latency?

Да, заметно. Длинный промпт (100K+ токенов) добавляет секунды на этапе обработки. Используйте RAG если можно.

Помогает ли streaming?

Да, для UX. Пользователь видит ответ по мере генерации, не ждёт полного ответа. Не уменьшает реальное время, но снижает «воспринимаемое» ожидание.

Попробуйте нейросети на практике

30₽ при регистрации, без VPN, оплата в рублях.

Зарегистрироваться