ГПТ Россия
Изображения
Модели изображений
GoogleNano Banana ProHOT2K · до 8 референсов · фото-качествоOpenAIGPT Image 2NEWдо 4K · идеальный текст на изображенииGoogleNano Banana 2универсальная · до 14 референсовByteDanceSeedream 4.54K · 14 референсов · быстроOpenAIGPT Image 1.5быстро · качество HD опциональноGrokGrok Imagineдерзкий стиль от xAIGoogleNano Bananaбазовая · быстрая · 8 ₽
Z
Z-Imageдёшево · 1 ₽ за изображение
RecraftУдаление фонаRecraft · быстро · точно · 5 ₽TopazLabsTopaz Upscaleапскейл до 4× · детализация
10 моделейОткрыть страницу →
Видео
Модели видео
GoogleVeo 3.1TOP8 сек · 1080p · реалистичное движениеGoogleVeo 3.1 ReferenceNEWдо 3 референсов · единый стильKlingKling 3.0 Motion ControlNEWперенос движения · персонаж + видеоKlingKling 2.6 Motion Control10 сек · перенос движенияKlingKling 2.610 сек · 1080p · точная физикаByteDanceSeedance 215 сек · 1080p · авто-аудио · 20 ₽OpenAISora 215 сек · 1080p · кинематограф · аудиоGrokGrok Imagine Video10 сек · 720p · быстрая генерацияTopazLabsTopaz Video Upscaleапскейл видео до 4K · детализация
9 моделейОткрыть страницу →
Аудио
Модели аудио
ElevenLabsElevenLabs Multilingual v2TOPTTS · 30+ языков · эмоцииElevenLabsElevenLabs Turbo v2.5TTS · быстрый · 6 ₽ за 1000 знаковElevenLabsElevenLabs Sound EffectsSFX · любой звук по описаниюElevenLabsElevenLabs Scribeрасшифровка · тайм-коды · спикерыElevenLabsElevenLabs Voice Isolatorочистка голоса · убирает шум и эхо
5 моделейОткрыть страницу →
Текст
Модели текста
AnthropicClaude Opus 4.7NEW1M контекст · код · агенты · reasoningOpenAIGPT-5.4NEW1M контекст · vision · сильное reasoningGoogleGemini 3.1 ProNEW1M контекст · мультимодальныйGrokGrok 4131K контекст · креатив · реалтаймAnthropicClaude Sonnet 4.6TOP1M контекст · быстрый · качественныйGoogleGemini 2.5 ProTOP1M контекст · стабильный · мультимодалOpenAIGPT-5.2400K контекст · vision · reasoningAnthropicClaude Haiku 4.5200K · быстрый · кодOpenAIGPT-5 Mini400K · быстрый · visionGoogleGemini 3 Flash1M · очень быстрый · visionDeepSeekDeepSeek V3.1164K · reasoning · код · дёшевоGrokGrok 4 Fast131K · быстрый · бюджетный
12 моделейОткрыть страницу →
ШаблоныБлог
ТарифыВойтиНачатьТарифыНачать
Главная/Глоссарий/Chunking (разбиение на чанки)

Что такое Chunking (разбиение на чанки)

Chunking — разбиение длинных документов на куски для RAG. Стратегии, размер чанка, overlap. Влияние на качество ответов.

Также: chunking, разбиение на чанки, text splitting3 минуты чтения
Содержание
Что этоПодробнееПримерыFAQ

Что такое Chunking (разбиение на чанки)

Кратко. Chunking — разбиение больших документов на смысловые куски (чанки) для индексации в vector database. Ключевой шаг в RAG. Качество чанкования напрямую влияет на качество ответов: плохие чанки → плохой retrieval → плохой ответ.

Подробнее

Когда у вас 10,000-страничный документ, его нельзя загрузить в LLM целиком (даже 1M-контекст не вместит). Поэтому документ разбивается на куски (чанки) по 200-1200 токенов и индексируется в векторной БД. При запросе ищутся релевантные чанки и подаются модели в контекст.

Стратегии: 1) Fixed-size — фиксированный размер (простая, грубая); 2) Sentence-based — по предложениям; 3) Semantic — по смысловым границам (через embeddings); 4) Recursive — иерархическая разбивка по размеру; 5) Hybrid — комбинация. Для русского языка лучше semantic + recursive из-за длинных предложений.

Параметры: размер чанка (200-1200 токенов), overlap (10-20% для контекста), метаданные (тег документа, страница, заголовок). Слишком маленькие чанки — теряется контекст. Слишком большие — низкая релевантность retrieval.

Примеры

  • 200 токенов с overlap 50 — для FAQ
  • 500 токенов с overlap 100 — для документации
  • 1000 токенов — для длинных книг
  • Recursive chunking по разделам — для отчётов

Частые вопросы

Какой размер чанка оптимален?

Для FAQ — 200-300 токенов. Для документации — 500-700. Для книг и отчётов — 800-1200. Главный принцип: один чанк = одна мысль.

Зачем overlap между чанками?

Чтобы не разрывать контекст по границе чанка. Если ответ на вопрос разделён между двумя чанками, overlap помогает найти оба.

Как chunking влияет на стоимость?

Меньше чанков → дешевле индексация и retrieval. Но плохой chunking требует подавать больше чанков на запрос (top-k=10 вместо 3) — дороже.

Какие библиотеки для chunking?

LangChain (RecursiveCharacterTextSplitter), LlamaIndex (NodeParsers), Haystack. Для семантического — sentence-transformers + custom logic.

Попробовать на практике. Зарегистрируйтесь в gptrf.ru — получите 50 ₽ бонусом, без VPN, оплата в рублях. Зарегистрироваться →
Связанные термины
RAG (Retrieval-Augmented Generation)Векторная база данныхЭмбеддинг (embedding)
ГПТ Россия | GPT Russia
70+ нейросетей

Единый доступ к 70+ нейросетям. Работает без VPN, с оплатой в рублях. Соответствует 152-ФЗ.

Приложения
TelegramОткрыть›MaxОткрыть›VKОткрыть›
Соцсети
Telegram-каналMax-каналVK-сообщество
Популярные модели
  • ChatGPT
  • Claude
  • Sora 2
  • Nano Banana
  • GPT Image 2
  • Gemini
  • GPT-5.2
  • ElevenLabs
  • Kling 3.0
  • Veo 3.1
  • Grok Imagine
  • DeepSeek
Возможности
  • Генерация картинок
  • Генерация видео
  • Озвучка текста
  • Написание текстов
  • Удаление фона
Сравнения
  • Все сравнения
  • ChatGPT vs Claude
  • ChatGPT vs Gemini
  • ChatGPT vs DeepSeek
  • Veo vs Kling
Рейтинги
  • Все рейтинги
  • Лучшие бесплатные 2026
  • Бесплатные нейросети
  • Нейросети для бизнеса
  • Нейросети для кода
Промпты
  • Все наборы
  • Промпты для маркетинга
  • Промпты Nano Banana
  • Промпты Veo для рекламы
  • Промпты ElevenLabs
Глоссарий
  • Поколений ИИ
  • Промпт-инжиниринг
  • Токены
  • LLM
  • Галлюцинации ИИ
Продукт
  • Модели
  • Сравнение моделей
  • Шаблоны
  • Тарифы
  • FAQ
Компания
  • О сервисе
  • Партнёрам
  • Реферальная программа
Поддержка
  • FAQ
  • support@gptrf.ru
  • Telegram поддержка
Документы
  • Условия использования
  • Политика конфиденциальности
  • Публичная оферта
  • Политика возврата
  • Реферальная программа
© 2026 ГПТ Россия | GPT Russia. ИП Даниелян К.М. ОГРНИП 325774600759953. ИНН 504910827107
КонфиденциальностьСоглашениеОфертаВозврат