Глоссарий ИИ

Термины искусственного интеллекта простыми словами. Что такое LLM, transformer, prompt engineering и другие понятия из мира нейросетей.

ИИ-агент (AI agent)
ИИ-агент — это нейросеть-исполнитель, которая получает цель и автономно её достигает: планирует шаги, использует инструменты (поиск, код, API, файлы), исправляет ошибки. Базовая концепция AutoGPT, Cursor, Devin, Claude Code.
AGI (общий искусственный интеллект)
AGI (Artificial General Intelligence, общий искусственный интеллект) — гипотетический уровень ИИ, способный решать любую интеллектуальную задачу не хуже взрослого человека. По состоянию на 2026 год AGI ещё не достигнут, но GPT-5.4 / Claude Opus 4.7 уже превосходят человека в узких задачах.
API нейросетей
API (Application Programming Interface) нейросети — это программный интерфейс для отправки запросов в модель из кода или приложения, без веб-чата. В 2026 году de-facto стандарт — OpenAI-совместимый API: один и тот же код работает с GPT, Claude, Gemini, DeepSeek через ГПТ Россия.
Attention Mechanism (механизм внимания)
Attention Mechanism — механизм, позволяющий нейросети «обращать внимание» на разные части входа с разным весом. Лежит в основе Transformer-архитектуры (GPT, Claude, Gemini, BERT). Self-attention — вариант, где каждый токен связывается с каждым другим в последовательности.
Бенчмарки LLM
Бенчмарк LLM — стандартизированный набор задач для сравнения моделей. Топ-бенчмарки 2026: MMLU (общие знания), SWE-Bench (реальный код), HumanEval (алгоритмы), ARC-AGI (абстрактное reasoning), GPQA (PhD-уровень науки).
AI Bias (предвзятость ИИ)
AI Bias (предвзятость ИИ) — систематическое отклонение модели в пользу одних групп против других. Возникает из несбалансированного датасета, выбранных метрик или культурного контекста разработчиков. Ключевая проблема ИИ 2026.
Chain-of-Thought (цепочка рассуждений)
Chain-of-Thought (CoT) — техника промптинга, где модель просят «думать вслух» — показать шаги рассуждений перед финальным ответом. Сильно улучшает качество на сложных задачах. Прародитель современных reasoning-режимов GPT-5.4 и Claude Opus 4.7.
ChatGPT
ChatGPT — продукт-обёртка над LLM-моделями OpenAI. Запущен 30 ноября 2022 года, стал самым быстрым в истории сервисом до 100 млн пользователей. В 2026 — флагман GPT-5.4 с reasoning. Доступ в России — через gptrf.ru без VPN.
Chunking (разбиение на чанки)
Chunking — разбиение больших документов на смысловые куски (чанки) для индексации в vector database. Ключевой шаг в RAG. Качество чанкования напрямую влияет на качество ответов: плохие чанки → плохой retrieval → плохой ответ.
Claude (Anthropic)
Claude — линейка LLM Anthropic, основанная бывшими сотрудниками OpenAI. В 2026: Opus 4.7 (флагман), Sonnet 4.6 (рабочая лошадка), Haiku 4.5 (real-time). Главное отличие — Constitutional AI (фокус на безопасности и честности).
Context Engineering
Context Engineering — дисциплина управления тем, что попадает в контекст LLM: какие документы, в каком порядке, с какой релевантностью. Эволюция prompt engineering для эпохи длинных контекстов 1M+ токенов 2026 года.
Контекстное окно (context window)
Контекстное окно — это максимальный объём текста, который нейросеть может «удерживать в памяти» в рамках одного диалога. Измеряется в токенах. В 2026 году флагманы (GPT-5.4, Claude Opus 4.7, Gemini 3.1 Pro) имеют около 1 миллиона токенов = целые книги или кодовые базы за раз.
ControlNet
ControlNet — расширение для Stable Diffusion (2023), позволяющее точно контролировать генерацию через дополнительный input: скелет позы (pose skeleton), depth map, edges, набросок. Делает SD управляемым на уровне профессиональных инструментов.
DALL-E
DALL-E — линейка image-генераторов OpenAI. DALL-E 1 (2021), DALL-E 2 (2022), DALL-E 3 (2023). С 2025 года переименован в GPT Image: GPT Image 1.5 (2025), GPT Image 2 (апрель 2026 — нативный 4K).
Глубокое обучение (deep learning)
Глубокое обучение (deep learning) — подраздел машинного обучения, в котором используются нейронные сети с большим количеством слоёв (до сотен и тысяч). На deep learning построены ChatGPT, Claude, Gemini, Sora, Midjourney и почти все современные ИИ-продукты.
DeepSeek
DeepSeek — китайская AI-лаборатория, известная open-source моделями. DeepSeek V3.1 (2025) — топ-1 open-source LLM 2026: MoE-архитектура с 671B параметров (37B активных), цена в 15-30x ниже флагманов GPT/Claude при сопоставимом качестве на рутине.
Deepfake (дипфейк)
Deepfake (дипфейк) — синтетический контент (видео, аудио), где ИИ заменяет лицо, голос или манипулирует движениями реального человека. Используется как для развлечений (фильмы, мемы), так и для мошенничества (фейковые видео, голос-фишинг).
Диффузионная модель (diffusion model)
Диффузионная модель — это тип нейросети, которая училась превращать чистый шум в осмысленное изображение, постепенно его «расшумляя». На диффузии построены большинство современных генераторов: Stable Diffusion, DALL-E, Midjourney, Sora, Veo, Nano Banana.
Knowledge Distillation (дистилляция знаний)
Knowledge Distillation — техника, при которой большая 'учительская' модель (teacher) обучает маленькую 'ученическую' (student). Ученик учится не только на правильных ответах, но и на распределении вероятностей учителя. Так получают компактные модели сравнимого качества.
ElevenLabs
ElevenLabs — компания и платформа AI-аудио, лидер TTS-индустрии 2026. Линейка: Multilingual v2 (премиум), Turbo v2.5 (real-time), Sound Effects (SFX), Scribe (транскрипция), Voice Isolator (очистка).
Эмбеддинг (embedding)
Эмбеддинг — это представление текста, изображения или другой сущности в виде числового вектора (например, массив из 1536 чисел). Близкие по смыслу объекты дают близкие векторы. На эмбеддингах работают семантический поиск, RAG, рекомендации и классификация.
Few-shot learning (промптинг с примерами)
Few-shot learning — техника, при которой в промпт добавляют 2-5 примеров желаемого ввода-вывода. LLM понимает паттерн из примеров и применяет его к новому запросу — без переобучения.
Fine-tuning (дообучение модели)
Fine-tuning (дообучение, тонкая настройка) — это процесс адаптации уже обученной нейросети под специфические данные или задачу. В 2026 году чаще используется LoRA (Low-Rank Adaptation) — лёгкий fine-tuning без переобучения всей модели.
FPS (frames per second)
FPS (frames per second) — количество кадров в секунду в видео. Стандарты: 24 fps (кино), 30 fps (стандарт ТВ), 60 fps (плавное движение, спорт). Современные ИИ-видео-генераторы (Veo 3.1, Sora 2, Seedance 2) выдают 24-30 fps по умолчанию.
Function calling (вызов функций ИИ)
Function calling (или tool use) — способность LLM вызывать заранее определённые функции и API в процессе диалога. Основа всех ИИ-агентов 2026 года: модель не просто отвечает текстом, но и сама запрашивает погоду, ищет в интернете, считывает файлы, выполняет код.
Gemini (Google)
Gemini — multimodal LLM от Google DeepMind, наследник Bard. В 2026: Gemini 3.1 Pro (флагман), Gemini 3 Flash (быстрая), Gemini 2.5 Pro / Flash (предыдущее поколение). Главное отличие — нативный multimodal (PDF, видео, аудио).
Generative AI (генеративный ИИ)
Generative AI (GenAI, генеративный ИИ) — класс нейросетей, которые создают новый контент: тексты, изображения, видео, музыку, код, голос. В отличие от классического ML, который классифицирует или предсказывает по образцам, GenAI генерирует то, чего раньше не существовало.
GPU (Graphics Processing Unit)
GPU (Graphics Processing Unit) — графический процессор. Изначально для рендеринга графики, сейчас — основной инструмент для обучения и инференса нейросетей. Тысячи параллельных ядер делают GPU в 10-100x быстрее CPU на матричных операциях, лежащих в основе трансформеров.
Gradient Descent (градиентный спуск)
Градиентный спуск — основной алгоритм обучения нейросетей. Модель смотрит на свою ошибку, определяет в какую сторону её уменьшить (градиент), и делает маленький шаг в эту сторону. Повторяется миллионы раз — модель учится.
Grok (xAI)
Grok — линейка LLM от xAI (компания Илона Маска). В 2026: Grok 4 (флагман), Grok 4 Fast (бюджет), Grok Imagine (image), Grok Imagine Video (видео). Главное отличие от ChatGPT — нативный real-time доступ к вебу и X (Twitter).
Guardrails (защита ИИ-приложений)
Guardrails — внешние защитные фильтры для LLM-приложений. Проверяют входы (prompt injection) и выходы (токсичность, утечки данных) до и после вызова модели. Стандартный слой защиты в продакшен-LLM 2026.
Галлюцинация (hallucination)
Галлюцинация — это ситуация, когда LLM (ChatGPT, Claude и пр.) выдумывает факты, имена, цитаты, ссылки или цифры, излагая их с уверенным тоном. Главная проблема всех LLM в 2026 году. Минимизируется через RAG, веб-поиск и грамотный промпт.
Гиперпараметры (hyperparameters)
Гиперпараметры LLM — настройки генерации, не меняющие саму модель: temperature (креативность), top-p (вероятность), top-k (количество кандидатов), max_tokens (длина ответа), frequency_penalty / presence_penalty (повторы).
Image-to-Video (i2v)
Image-to-Video (i2v) — режим ИИ-видео-генератора, в котором на вход подаётся статичное изображение, а на выход — видео-клип на основе этого изображения. Сохраняет композицию и идентичность объекта, добавляет движение по описанию.
Инференс (inference)
Inference (инференс) — процесс использования уже обученной нейросети для генерации ответа на новый запрос. Это противоположность training (обучения): training — учим модель один раз; inference — используем её миллионы раз.
Instruction Tuning (тюнинг инструкций)
Instruction Tuning — этап обучения LLM, на котором модель учится следовать инструкциям пользователя. Pretraining даёт модели знания, instruction tuning превращает её в ассистента, понимающего запросы 'переведи', 'суммируй', 'напиши код'.
Jailbreak нейросети
Jailbreak — техника обхода safety-фильтров LLM, при которой пользователь специально подобранным промптом заставляет модель отвечать на запрещённые темы (как сделать оружие, наркотики, обход закона). Частный случай prompt injection.
Latency LLM (задержка ответа)
Latency LLM — задержка между отправкой запроса и началом / окончанием ответа. Измеряется в TTFT (Time to First Token — миллисекунды до первого токена) и throughput (токенов в секунду на этапе генерации).
LLM (большая языковая модель)
LLM — это большая языковая модель, обученная на огромных корпусах текстов и способная отвечать на вопросы, писать тексты, переводить и программировать. Примеры — GPT-5.4 (OpenAI), Claude Opus 4.7 (Anthropic), Gemini 3 Pro (Google).
LoRA (Low-Rank Adaptation)
LoRA (Low-Rank Adaptation) — техника лёгкого fine-tuning'а LLM, при которой обучаются не все параметры модели, а только маленькие «надстройки» (адаптеры). Стоимость падает в 100-1000 раз, скорость обучения растёт.
Машинное обучение (machine learning)
Машинное обучение (machine learning, ML) — раздел искусственного интеллекта, в котором алгоритмы учатся выполнять задачи на основе данных, без явного программирования каждого правила. Включает классическое ML (деревья решений, регрессия) и глубокое обучение (нейронные сети, LLM).
MCP (Model Context Protocol)
MCP (Model Context Protocol) — открытый стандарт от Anthropic для интеграции инструментов и данных в LLM. С его помощью Claude и другие модели подключаются к Slack, Google Drive, базам данных, GitHub без отдельных интеграций для каждого приложения.
Midjourney
Midjourney — закрытая premium image-генерация, доступна через Discord. Версии: V6 (2024), V7 (бета 2026). Лидер по художественной эстетике, но в РФ — только через VPN, Discord и зарубежную карту.
Mixture of Experts (MoE)
Mixture of Experts (MoE) — архитектура LLM, в которой модель разделена на множество «экспертов» (sub-моделей), и для каждого запроса роутер активирует только часть из них. Это позволяет иметь огромную модель (671 млрд параметров у DeepSeek V3.1) с активацией только 37 млрд за один запрос.
Model Card
Model Card — стандартизированная документация ИИ-модели: что умеет, какие данные использовала для обучения, на каких задачах хорошо работает, на каких плохо, какие есть этические риски и ограничения. Аналог 'паспорта' для нейросети.
Мультимодальная модель (multimodal)
Мультимодальная (multimodal) модель — это нейросеть, которая принимает на вход и выдаёт несколько типов данных одновременно: текст, изображения, видео, аудио, PDF. Все топ-LLM 2026 года — мультимодальные: GPT-5.4, Claude Opus 4.7, Gemini 3.1 Pro.
Nano Banana (Google)
Nano Banana — линейка image-генераторов Google DeepMind, выпущенная в 2025. В 2026: Pro (флагман, 4K, типографика), 2 (стандарт), Edit (image-to-image). Лидер по фотореализму лиц и читаемости текста на изображении.
Negative prompt (отрицательный промпт)
Negative prompt (отрицательный промпт) — список того, что нейросеть НЕ должна включать в генерацию. Особенно важен для image-моделей: «без деформированных рук», «без watermark», «без размытия».
NLP (Natural Language Processing)
NLP (Natural Language Processing, обработка естественного языка) — область искусственного интеллекта, занимающаяся работой компьютеров с человеческим языком: перевод, поиск, генерация, классификация, извлечение фактов. С 2017 года NLP захвачено LLM на трансформерах.
Open-source LLM
Open-source LLM (открытые языковые модели) — нейросети, веса которых выложены публично и можно скачать, использовать локально и дообучать. В 2026 году топ-open-source: DeepSeek V3.1, Llama 4, Qwen3, Mistral Large 3.
PII (Personally Identifiable Information)
PII (Personally Identifiable Information) — персональные данные, по которым можно идентифицировать человека: ФИО, паспорт, телефон, email, адрес, биометрия. В России регулируется 152-ФЗ. ИИ-системы должны обрабатывать PII по строгим правилам.
Prompt injection (атака на промпт)
Prompt injection — атака на LLM-приложение, при которой злоумышленник вставляет вредоносные инструкции в текст, файл или картинку, и модель выполняет их вместо инструкций разработчика. Главная уязвимость ИИ-систем 2026 года, признанная OWASP в Top-10.
Prompt engineering (промт-инжиниринг)
Prompt engineering (промт-инжиниринг) — практика составления текстовых запросов (промптов) к нейросетям так, чтобы получать максимально точные, полезные и стабильные ответы. Хороший промпт даёт результат в 5-10 раз лучше плохого при той же модели.
Quantization (квантизация)
Quantization — техника уменьшения размера и стоимости inference нейросети через переход с высокой точности (FP16, FP32) на низкую (INT8, INT4). Размер модели уменьшается в 2-8 раз, скорость растёт, качество падает на 1-5%.
RAG (Retrieval-Augmented Generation)
RAG (Retrieval-Augmented Generation) — это подход, при котором LLM отвечает не только по своим обученным знаниям, но и подтягивает релевантные куски из вашей базы документов. Базовая основа корпоративных чат-ботов «по своей документации».
Reasoning (рассуждения нейросети)
Reasoning — режим работы LLM, когда модель не выдаёт ответ сразу, а сначала «думает» внутри себя: разбивает задачу на шаги, проверяет промежуточные результаты, корректирует план. Стандарт топ-моделей 2026 года: GPT-5.4 reasoning mode, Claude Opus extended thinking, Gemini 3.1 Pro deep think.
Reranker (переранжировщик)
Reranker (переранжировщик) — модель, которая принимает запрос и список кандидатов из первичного поиска (embedding+BM25) и переранжирует их по точной релевантности. Стандартный слой улучшения качества в production-RAG.
RLHF (Reinforcement Learning from Human Feedback)
RLHF (Reinforcement Learning from Human Feedback) — техника обучения LLM, при которой человек оценивает ответы модели, а модель учится максимизировать оценки. Благодаря RLHF ChatGPT, Claude и Gemini ведут себя как «помощники», а не как механические продолжатели текста.
Seed (зерно генерации)
Seed — целое число, которое инициализирует генератор случайных чисел в нейросети. С одним и тем же seed + промптом + параметрами модель выдаст идентичный результат. Используется для воспроизводимости и итераций.
Sora (OpenAI)
Sora — линейка видео-генераторов OpenAI. Sora 2 (2025) и Sora 2 Pro (2026) — флагманы 2026 года в text-to-video с реалистичной физикой и синхронным звуком. Конкурируют с Veo 3.1 Quality и Kling 2.6.
Stable Diffusion
Stable Diffusion — open-source диффузионная модель для генерации изображений, выпущенная Stability AI в 2022 году. Главное преимущество — открытые веса: можно запустить локально на любой видеокарте от 8 GB VRAM.
Style Transfer (перенос стиля)
Style transfer (перенос стиля) — техника, при которой ИИ берёт «стиль» одного изображения (например, картина Ван Гога) и применяет его к содержимому другого. Историческая техника 2015 года, в 2026 заменена более гибкими image-to-image моделями.
Системный промпт (system prompt)
Системный промпт — инструкции, которые передаются нейросети ОДИН РАЗ перед началом диалога и задают её поведение: роль («ты юрист»), стиль ответа, ограничения, формат вывода. Не виден пользователю в чате, но влияет на каждый ответ.
Temperature (температура)
Temperature (температура) — параметр LLM, контролирующий случайность вывода. Низкая (0-0.3) — детерминированные, повторяемые ответы. Высокая (0.7-1.5) — креативные, разнообразные. Стандарт по умолчанию — 0.7-1.0 в большинстве LLM API.
Text-to-Video (t2v)
Text-to-Video (t2v) — режим ИИ-видео-генератора, при котором по текстовому описанию (промпт) создаётся видео-клип. В 2026 году топ-модели: Sora 2, Veo 3.1, Kling 2.6, Seedance 2. Качество — кинематографическое 1080p со звуком.
Токен (token)
Токен — это базовая единица текста, с которой работает LLM. Обычно один токен это 3-4 символа или половина слова. На токенах строится pricing моделей и подсчёт «контекстного окна» (например, 1М токенов в Claude Opus 4.7 ≈ 750 тысяч слов).
Трансформер (transformer)
Трансформер — это архитектура нейронных сетей, представленная Google в 2017 году в статье «Attention Is All You Need». Главное нововведение — механизм внимания (attention), который позволяет модели связывать каждое слово с любым другим в тексте. Все современные большие языковые модели — GPT, Claude, Gemini — построены на трансформерах.
Векторная база данных
Векторная база данных — специализированное хранилище для embedding-векторов. Поддерживает поиск ближайших соседей (k-NN) по косинусному расстоянию. Основа RAG-систем 2026.
Watermark (водяной знак)
Watermark — видимая или невидимая метка на цифровом контенте. В контексте ИИ 2026 года: невидимые watermark'и (SynthID от Google, C2PA standard) встраиваются в картинки/видео для идентификации ИИ-генерации.
Zero-shot learning
Zero-shot learning — это способность LLM выполнять задачу без явных примеров в промпте, опираясь только на инструкцию. Современные топ-модели (GPT-5.4, Claude Opus 4.7) zero-shot решают большинство задач на уровне few-shot.