Архитектура

Трансформеры и механизм внимания: революция в NLP

10 ноября 2025 18 мин чтения

Архитектура Transformer, представленная в знаменитой статье "Attention is All You Need" в 2017 году, произвела революцию в обработке естественного языка и стала фундаментом современных языковых моделей. Понимание механизма self-attention и архитектурных особенностей трансформеров критически важно для работы с современными AI системами.

От RNN к Transformer: парадигмальный сдвиг

До появления трансформеров обработка последовательностей в NLP доминировалась рекуррентными нейронными сетями (RNN) и их усовершенствованными вариантами – LSTM и GRU. Эти архитектуры обрабатывали токены последовательно, что создавало фундаментальные ограничения¹:

Последовательная природа: Невозможность параллелизации при обучении замедляла процесс работы с большими датасетами
Проблема дальних зависимостей: Информация теряется при обработке длинных последовательностей, несмотря на механизмы LSTM
Ограниченная выразительность: Фиксированный размер скрытого состояния ограничивает объем информации, которую может хранить модель

Трансформеры решают эти проблемы радикально иным подходом: вместо последовательной обработки они используют механизм внимания (attention), позволяющий каждому элементу последовательности напрямую взаимодействовать со всеми остальными элементами параллельно.

Механизм Self-Attention: математика и интуиция

Self-attention – это механизм, позволяющий модели взвешивать важность разных частей входной последовательности при обработке каждого элемента. Концептуально, для каждого слова в предложении модель вычисляет, насколько оно "связано" с каждым другим словом².

Ключевые компоненты attention механизма

Компонент	Обозначение	Назначение	Вычисление
Query	Q	Запрос информации от текущего токена	Q = X·W_Q
Key	K	Ключи для сопоставления с запросами	K = X·W_K
Value	V	Фактические значения для взвешивания	V = X·W_V
Attention Score	-	Степень взаимосвязи токенов	score = Q·K^T/√d_k

Процесс вычисления attention включает несколько этапов. Сначала для каждого токена входной последовательности создаются три вектора – Query, Key и Value – путем умножения эмбеддинга токена на обучаемые матрицы весов. Затем вычисляются scores путем скалярного произведения Query одного токена со всеми Keys, после чего scores нормализуются делением на квадратный корень из размерности ключей (для стабильности градиентов) и применением softmax для получения вероятностей.

Multi-Head Attention: параллельное внимание

Одним из ключевых инноваций трансформеров является использование множественных attention головок (multi-head attention). Вместо одного механизма внимания модель применяет несколько параллельных механизмов, каждый со своими независимыми параметрами³.

Это позволяет модели одновременно фокусироваться на разных аспектах взаимосвязей между токенами. Одна голова может учиться определять синтаксические зависимости, другая – семантические связи, третья – анафорические отношения. Результаты всех голов затем конкатенируются и проецируются через финальную линейную трансформацию.

Архитектура Transformer: encoder и decoder

Оригинальная архитектура Transformer состоит из двух основных компонентов: энкодера и декодера, каждый представляющий собой стек идентичных слоев.

Компонент	Слои	Особенности	Применение
Encoder	Multi-head self-attention + FFN	Обрабатывает всю входную последовательность	BERT, понимание контекста
Decoder	Masked self-attention + cross-attention + FFN	Генерирует выходную последовательность	GPT, генерация текста
Encoder-Decoder	Комбинация обоих	Полная архитектура для seq2seq	Машинный перевод, T5

Encoder: понимание контекста

Каждый слой энкодера содержит два подслоя: multi-head self-attention механизм и позиционно-независимую fully connected feed-forward сеть. Вокруг каждого подслоя применяется residual connection и layer normalization. Это позволяет обучать глубокие модели без проблем затухания градиентов.

Энкодер обрабатывает всю входную последовательность параллельно, строя контекстуализированные представления каждого токена. Каждый токен "видит" все остальные токены в последовательности через механизм self-attention.

Decoder: авторегрессивная генерация

Декодер похож на энкодер, но с критическим отличием: его self-attention механизм маскирован (masked), чтобы предотвратить доступ к будущим токенам. Это необходимо для авторегрессивной генерации, где каждый следующий токен генерируется на основе только предыдущих⁴.

Дополнительно, декодер включает слой cross-attention между self-attention и feed-forward слоями. Этот слой позволяет декодеру "обращать внимание" на выходы энкодера, связывая генерируемый текст с входным контекстом.

Позиционное кодирование: сохранение порядка

Поскольку механизм self-attention по своей природе перестановочно-инвариантен, трансформерам требуется способ кодирования позиции токенов в последовательности. Для этого используется позиционное кодирование (positional encoding), добавляемое к входным эмбеддингам.

Оригинальные трансформеры используют синусоидальные функции для позиционного кодирования, что позволяет модели легко экстраполироваться на последовательности длиннее тех, что встречались при обучении. Современные модели часто используют обучаемые позиционные эмбеддинги или альтернативные схемы вроде rotary position embeddings (RoPE).

Эволюция трансформеров: от BERT до GPT

После публикации оригинальной архитектуры появилось множество вариаций, оптимизирующих различные аспекты для конкретных задач.

Модель	Год	Архитектура	Ключевые особенности
BERT	2018	Encoder-only	Bidirectional context, MLM предобучение
GPT-2/3	2019/2020	Decoder-only	Авторегрессивная генерация, scaling laws
T5	2019	Encoder-Decoder	Все задачи как text-to-text
GPT-4/5	2023/2024	Decoder-only (предположительно)	Мультимодальность, огромный масштаб
Claude 4.5	2024	Proprietary decoder	Длинный контекст, Constitutional AI

Практические аспекты и оптимизации

Вычислительная сложность

Основной вычислительной проблемой трансформеров является квадратичная сложность self-attention механизма относительно длины последовательности. Для последовательности длиной n требуется O(n²) операций, что становится узким местом при работе с длинными документами⁵.

Это привело к разработке эффективных вариантов трансформеров: Linformer использует линейные проекции для редукции сложности до O(n), Performer применяет kernel approximation для эффективного вычисления attention, а Flash Attention оптимизирует использование памяти GPU для ускорения обучения.

Scaling laws и оптимальный размер моделей

Исследования показали, что производительность трансформеров предсказуемо масштабируется с увеличением размера модели, объема данных и вычислительного бюджета. Это привело к тренду создания все больших моделей: от 340M параметров в BERT-Large до триллионов параметров в современных моделях.

Однако существует оптимальный баланс между размером модели и количеством обучающих токенов для заданного вычислительного бюджета. Недавние исследования (Chinchilla, LLaMA) показали, что многие large language models были недообучены на недостаточном количестве данных относительно своего размера.

Будущие направления развития

Архитектура трансформеров продолжает эволюционировать. Современные исследования фокусируются на решении ограничений текущих моделей и расширении их возможностей:

Sparse attention patterns: Использование разреженных паттернов внимания для обработки сверхдлинных последовательностей
Mixture of Experts: Условная активация подмножества параметров модели для увеличения емкости при сохранении вычислительных затрат
Multimodal architectures: Интеграция vision transformers с языковыми моделями для обработки текста, изображений, аудио и видео
State space models: Альтернативные архитектуры (Mamba, RWKV), сочетающие эффективность RNN с выразительностью трансформеров

Ключевые выводы

Трансформеры используют механизм self-attention для параллельной обработки последовательностей, решая ограничения RNN
Multi-head attention позволяет модели одновременно фокусироваться на различных аспектах взаимосвязей между токенами
Encoder-only, decoder-only и encoder-decoder архитектуры оптимизированы для разных типов задач NLP
Масштабирование трансформеров следует предсказуемым законам, но требует баланса размера модели и объема обучающих данных

Примечания и источники

Vaswani, A., et al. (2017). Attention is All You Need. Advances in Neural Information Processing Systems. ↑
Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural Machine Translation by Jointly Learning to Align and Translate. ↑
Vaswani et al. (2017). Multi-head attention allows the model to jointly attend to information from different representation subspaces. ↑
Radford, A., et al. (2018). Improving Language Understanding by Generative Pre-Training. ↑
Tay, Y., et al. (2020). Efficient Transformers: A Survey. ↑