Токен (token)

tokenтокены LLMBPE-токен
Кратко

Токен — это базовая единица текста, с которой работает LLM. Обычно один токен это 3-4 символа или половина слова. На токенах строится pricing моделей и подсчёт «контекстного окна» (например, 1М токенов в Claude Opus 4.7 ≈ 750 тысяч слов).

Когда вы отправляете текст в нейросеть, она его не «читает» по буквам или словам — она разбивает на токены. Это компромисс между двумя крайностями: посимвольная обработка слишком медленная, послойная (по словам) — не работает для редких слов и других языков.

Токенизация работает через BPE (Byte-Pair Encoding) или похожие алгоритмы. Часто встречающиеся слова («the», «и», «a») становятся одним токеном. Редкие слова разбиваются на несколько токенов («токенизация» = «токен» + «изация»). Для русского языка обычно 1 слово ≈ 1.5-2 токена.

Практика 2026 года: 1000 токенов ≈ 750 английских слов или 500 русских слов. GPT-5.4 имеет контекст 1М токенов = ~750 тысяч слов = небольшая библиотека. Цены моделей считаются за миллион входных и выходных токенов.

Примеры

  • 1000 токенов ≈ 750 EN слов или 500 RU слов
  • Контекст GPT-5.4 = 1М токенов ≈ 4 тома «Войны и мира»
  • Цена $5/1M input tokens ≈ 50₽ за 100К токенов
  • В Claude Sonnet 4.6: input $3/1M, output $15/1M

Связанные термины

Часто задаваемые вопросы

Что такое токен в нейросети простыми словами?

Это «кирпичик» текста, с которым работает модель. Часто это 3-4 символа или половина слова. Один токен — единица счёта в pricing и в контексте: 1 миллион токенов в Claude — это ~750 тысяч слов на английском или 500 тысяч на русском.

Сколько токенов в одном русском слове?

Обычно 1.5-2 токена. Слово «привет» — 1 токен, «токенизация» — 3-4. Длинные специфические слова дают больше токенов чем те же по смыслу английские эквиваленты — поэтому русский текст обычно «дороже» в LLM на 30-50%.

Что такое контекстное окно?

Это максимальный объём токенов, который модель может обрабатывать за один запрос. В 2026: GPT-5.4 = 1М токенов, Claude Opus 4.7 = 1М, Gemini 3.1 Pro = 1М, GPT-4o Mini = 128K. Чем больше контекст — тем длиннее документы можно загружать целиком.

Как посчитать сколько токенов в моём тексте?

Грубая оценка: количество символов / 3.5 (для русского — / 2.5). Точно — через OpenAI tokenizer (platform.openai.com/tokenizer) или библиотеку tiktoken. На gptrf.ru счётчик токенов виден в чате перед отправкой.

Попробуйте нейросети на практике

30₽ при регистрации, без VPN, оплата в рублях.

Зарегистрироваться