Токен (token)
Токен — это базовая единица текста, с которой работает LLM. Обычно один токен это 3-4 символа или половина слова. На токенах строится pricing моделей и подсчёт «контекстного окна» (например, 1М токенов в Claude Opus 4.7 ≈ 750 тысяч слов).
Когда вы отправляете текст в нейросеть, она его не «читает» по буквам или словам — она разбивает на токены. Это компромисс между двумя крайностями: посимвольная обработка слишком медленная, послойная (по словам) — не работает для редких слов и других языков.
Токенизация работает через BPE (Byte-Pair Encoding) или похожие алгоритмы. Часто встречающиеся слова («the», «и», «a») становятся одним токеном. Редкие слова разбиваются на несколько токенов («токенизация» = «токен» + «изация»). Для русского языка обычно 1 слово ≈ 1.5-2 токена.
Практика 2026 года: 1000 токенов ≈ 750 английских слов или 500 русских слов. GPT-5.4 имеет контекст 1М токенов = ~750 тысяч слов = небольшая библиотека. Цены моделей считаются за миллион входных и выходных токенов.
Примеры
- →1000 токенов ≈ 750 EN слов или 500 RU слов
- →Контекст GPT-5.4 = 1М токенов ≈ 4 тома «Войны и мира»
- →Цена $5/1M input tokens ≈ 50₽ за 100К токенов
- →В Claude Sonnet 4.6: input $3/1M, output $15/1M
Связанные термины
Часто задаваемые вопросы
Что такое токен в нейросети простыми словами?
Это «кирпичик» текста, с которым работает модель. Часто это 3-4 символа или половина слова. Один токен — единица счёта в pricing и в контексте: 1 миллион токенов в Claude — это ~750 тысяч слов на английском или 500 тысяч на русском.
Сколько токенов в одном русском слове?
Обычно 1.5-2 токена. Слово «привет» — 1 токен, «токенизация» — 3-4. Длинные специфические слова дают больше токенов чем те же по смыслу английские эквиваленты — поэтому русский текст обычно «дороже» в LLM на 30-50%.
Что такое контекстное окно?
Это максимальный объём токенов, который модель может обрабатывать за один запрос. В 2026: GPT-5.4 = 1М токенов, Claude Opus 4.7 = 1М, Gemini 3.1 Pro = 1М, GPT-4o Mini = 128K. Чем больше контекст — тем длиннее документы можно загружать целиком.
Как посчитать сколько токенов в моём тексте?
Грубая оценка: количество символов / 3.5 (для русского — / 2.5). Точно — через OpenAI tokenizer (platform.openai.com/tokenizer) или библиотеку tiktoken. На gptrf.ru счётчик токенов виден в чате перед отправкой.
Попробуйте нейросети на практике
30₽ при регистрации, без VPN, оплата в рублях.
Зарегистрироваться