Claude Haiku 4.5
Быстрая и умная · от $1/1M
~150 мс TTFT, стабильность на edge cases.
- +~150 мс
- +Стабильность
Для real-time приложений (чат-боты, голосовые ассистенты, классификация) важна latency. Подборка моделей с TTFT 100-300 мс.
Быстрая и умная · от $1/1M
~150 мс TTFT, стабильность на edge cases.
Быстрый reasoning, 1M контекст · от $0.5/1M
~100-200 мс TTFT, multimodal.
Быстрая и экономичная · от $0.15/1M
~200 мс, проверенный для интеграций OpenAI.
Быстрый и креативный · от $0.2/1M
Быстрая модель xAI с web-search в real-time.
Быстрая с огромным контекстом · от $0.3/1M
Стабильная классика среди flash-моделей.
Под задачу: Haiku для текста, Flash для multimodal, Mini для legacy OpenAI-интеграций.
Haiku 4.5 ~150 мс, Gemini 3 Flash ~100-200 мс, GPT-4o Mini ~200 мс, Grok 4 Fast ~150-250 мс.
Да, для UX. Пользователь видит ответ по мере генерации — снижает воспринимаемое ожидание.
1) Выбрать Mini/Flash/Haiku. 2) Streaming. 3) Уменьшить промпт. 4) RAG вместо длинного контекста.
Все модели — копейки за миллион токенов на gptrf.ru.
30₽ на балансе при регистрации. Без VPN, оплата в рублях.
Зарегистрироваться бесплатно