Что такое Latency LLM (задержка ответа)
Подробнее
Для real-time приложений (чат-боты, голосовые ассистенты) latency критична. Пользователь не должен ждать > 1 секунды до начала ответа.
Два ключевых параметра: TTFT (типично 100-1000 мс — зависит от модели и нагрузки) и throughput (50-200 токенов/сек у топ-моделей).
Самые быстрые в 2026: Claude Haiku 4.5 (~150 мс TTFT), Gemini 3 Flash (~100-200 мс), GPT-4o Mini (~200 мс), Grok 4 Fast. Самые медленные (но качественные): Reasoning-модели — могут занимать минуты на «thinking».
Как ускорить: 1) Выберите Mini/Flash/Haiku модель; 2) Используйте streaming (видеть ответ по мере генерации); 3) Уменьшите промпт; 4) Используйте speculative decoding на бэкенде.
Примеры
- TTFT 100 мс — Haiku 4.5
- Throughput 200 ток/сек — Flash модели
- Reasoning может тратить минуты
- Streaming в OpenAI API
Частые вопросы
Что такое TTFT?
Time To First Token — время от отправки запроса до получения первого токена ответа. Главный показатель «отзывчивости».
Какая модель самая быстрая?
Claude Haiku 4.5 и Gemini 3 Flash — лидеры 2026. ~100-200 мс TTFT.
Влияет ли длина промпта на latency?
Да, заметно. Длинный промпт (100K+ токенов) добавляет секунды на этапе обработки. Используйте RAG если можно.
Помогает ли streaming?
Да, для UX. Пользователь видит ответ по мере генерации, не ждёт полного ответа. Не уменьшает реальное время, но снижает «воспринимаемое» ожидание.