
Книга представляет собой исчерпывающее практическое руководство по современному генеративному искусственному интеллекту. Она последовательно проводит читателя от основ представления информации до передовых методов создания изображений, текста и аудио с помощью открытых моделей. Подробно разбираются ключевые архитектуры: трансформеры и автоэнкодеры, CLIP, диффузионные модели и Stable Diffusion. Существенная часть книги посвящена трансферному обучению, включая тонкую настройку языковых моделей и моделей для генерации изображений. Подробно описаны креативные приложения, генерация аудио и рассмотрены стремительно развивающиеся направления в этой области. Книга имеет ярко выраженную практическую направленность, содержит пошаговые инструкции, проекты для самостоятельной работы, упражнения и задачи для закрепления материала.
Для специалистов-практиков по генеративному ИИ
Трансформеры и диффузионные модели
Это практическое руководство научит вас применять методы генеративного искусственного интеллекта для создания текстов, изображений, аудио и даже музыки. Вы поймёте, как работают современные генеративные модели, как дообучать и адаптировать их под свои задачи, а также как комбинировать готовые компоненты для создания новых моделей и творческих приложений в различных областях.
Книга сочетает теоретические концепции с практическими примерами, содержит рабочие листинги и наглядные иллюстрации. Вы научитесь использовать библиотеки с открытым исходным кодом для работы с трансформерами и диффузионными моделями, исследовать код и анализировать готовые проекты
Вы узнаете, как
- Создавайте и настраивайте модели для генерации текста и изображений.
- Сравнивайте подходы: использование предобученной модели и дообучение собственной.
- Создавайте и применяйте модели для генерации, редактирования и стилизации изображений.
- Адаптируйте трансформеры и диффузионные модели для различных творческих задач.
- Обучайте модели для отражения вашего уникального стиля.
Книгу “Генеративный ИИ на практике: трансформеры и диффузионные модели” можно купить в нашем интенет-магазине.
Отзывы о книге……………………………………………………………………………………… 11
Предисловие…………………………………………………………………………………………… 13
Для кого эта книга……………………………………………………………………………………………………………………… 13
Предварительная подготовка…………………………………………………………………………………………………… 14
Чему вы научитесь…………………………………………………………………………………………………………………….. 14
Как следует читать эту книгу…………………………………………………………………………………………………… 15
Требования к программному и аппаратному обеспечению………………………………………………….. 15
Условные обозначения, используемые в книге……………………………………………………………………….. 16
Использование примеров кода…………………………………………………………………………………………………. 17
Комплект цветных изображений………………………………………………………………………………………………. 17
Актуальность книги…………………………………………………………………………………………………………………… 17
Благодарности…………………………………………………………………………………………………………………………… 17
Часть I. Использование открытых моделей……………………….. 21
Глава 1. Введение в генеративные медиа……………………………………………….. 23
Генерация изображений……………………………………………………………………………………………………………. 24
Генерация текста……………………………………………………………………………………………………………………….. 26
Создание аудио………………………………………………………………………………………………………………………….. 28
Этические и социальные последствия……………………………………………………………………………………… 28
Где мы были раньше и как обстоят дела сейчас…………………………………………………………………….. 29
Как создаются генеративные ИИ-модели………………………………………………………………………………… 30
Заключение………………………………………………………………………………………………………………………………… 31
Глава 2. Трансформеры………………………………………………………………………….. 33
Языковая модель в действии…………………………………………………………………………………………………….. 34
Токенизация текста………………………………………………………………………………………………………… 34
Прогнозирование вероятностей…………………………………………………………………………………….. 37
Генерация текста……………………………………………………………………………………………………………. 40
Генерализация с нулевым выстрелом (Zero-shot)………………………………………………………… 49
Генерализация с несколькими выстрелами (Few-shot)………………………………………………… 51
Блок трансформера……………………………………………………………………………………………………………………. 53
Генеалогия модели-трансформера…………………………………………………………………………………………… 55
Задачи «последовательность-последовательность»…………………………………………………… 55
Модели, имеющие только энкодер……………………………………………………………………………….. 57
Сила предварительного обучения……………………………………………………………………………………………. 60
Краткий обзор трансформеров…………………………………………………………………………………………………. 63
Ограничения……………………………………………………………………………………………………………………. 65
Помимо текста………………………………………………………………………………………………………………… 66
Создание проекта: использование языковой модели для генерации текста………………………… 70
Заключение………………………………………………………………………………………………………………………………… 70
Вопросы……………………………………………………………………………………………………………………………………… 72
Практика…………………………………………………………………………………………………………………………………….. 72
Глава 3. Сжатие и представление информации………………………………………. 75
Автоэнкодеры…………………………………………………………………………………………………………………………….. 77
Подготовка данных………………………………………………………………………………………………………… 78
Энкодер……………………………………………………………………………………………………………………………. 80
Декодер……………………………………………………………………………………………………………………………. 83
Обучение…………………………………………………………………………………………………………………………. 84
Исследование латентного пространства……………………………………………………………………… 89
Визуализация латентного пространства……………………………………………………………………… 93
Вариационные автоэнкодеры…………………………………………………………………………………………………… 97
Энкодеры и декодеры VAE……………………………………………………………………………………………. 98
Выборка из распределения энкодера…………………………………………………………………………… 99
Обучение VAE………………………………………………………………………………………………………………. 102
Использование VAE для генеративного моделирования………………………………………….. 110
CLIP…………………………………………………………………………………………………………………………………………… 111
Контрастные потери…………………………………………………………………………………………………….. 111
Использование CLIP, шаг за шагом……………………………………………………………………………. 113
Классификация изображений с нулевым выстрелом с помощью CLIP…………………… 118
Конвейер классификации изображений с нулевым выстрелом……………………………….. 120
Варианты использования CLIP…………………………………………………………………………………… 121
Альтернативы CLIP…………………………………………………………………………………………………………………. 122
Время проекта: семантический поиск изображений…………………………………………………………….. 122
Заключение………………………………………………………………………………………………………………………………. 124
Вопросы……………………………………………………………………………………………………………………………………. 125
Задачи………………………………………………………………………………………………………………………………………. 126
Глава 4. Модели диффузии…………………………………………………………………… 127
Итеративное уточнение — ключ к пониманию моделей диффузии……………………………………. 128
Обучение моделей диффузии………………………………………………………………………………………………….. 131
Данные…………………………………………………………………………………………………………………………… 132
Добавление шума…………………………………………………………………………………………………………. 134
UNet……………………………………………………………………………………………………………………………….. 135
Обучение……………………………………………………………………………………………………………………….. 137
Выборка………………………………………………………………………………………………………………………… 139
Оценка……………………………………………………………………………………………………………………………. 140
Графики шума………………………………………………………………………………………………………………………….. 142
Зачем надо добавлять шум?………………………………………………………………………………………… 143
Начинаем с простого……………………………………………………………………………………………………. 144
Математика…………………………………………………………………………………………………………………… 146
Влияние входного разрешения и масштабирования…………………………………………………. 151
Подробный разбор: UNet и альтернативы…………………………………………………………………………….. 153
Простая модель UNet……………………………………………………………………………………………………. 154
Улучшение UNet…………………………………………………………………………………………………………… 157
Альтернативные архитектуры…………………………………………………………………………………….. 158
Подробный разбор: цели диффузии……………………………………………………………………………………….. 159
Время проекта: обучение собственной модели диффузии…………………………………………………… 161
Заключение………………………………………………………………………………………………………………………………. 162
Вопросы……………………………………………………………………………………………………………………………………. 162
Задачи………………………………………………………………………………………………………………………………………. 163
Глава 5. Stable Diffusion и обусловленная генерация…………………………….. 165
Добавление контроля: модели с условиями………………………………………………………………………….. 165
Подготовка данных………………………………………………………………………………………………………. 166
Создание модели, обусловленной классом……………………………………………………………….. 168
Обучение модели………………………………………………………………………………………………………….. 169
Выборка………………………………………………………………………………………………………………………… 171
Повышение эффективности: Latent Diffusion………………………………………………………………………… 174
Stable Diffusion: подробнее о компонентах…………………………………………………………………………… 175
Энкодер текста……………………………………………………………………………………………………………… 176
Вариационный автоэнкодер (VAE)…………………………………………………………………………….. 178
UNet……………………………………………………………………………………………………………………………….. 181
Stable Diffusion XL………………………………………………………………………………………………………… 183
FLUX, Stable Diffusion 3 и генерация видео……………………………………………………………….. 185
Руководство без классификаторов……………………………………………………………………………… 185
Собираем все вместе: аннотированный цикл выборки………………………………………………………… 187
Открытые данные, открытые модели…………………………………………………………………………………….. 190
Закат LAION-5B……………………………………………………………………………………………………………. 191
Альтернативы……………………………………………………………………………………………………………….. 192
Добросовестное и коммерческое использование………………………………………………………. 192
Время проекта: создание интерактивной демомодели с помощью Gradio…………………………. 193
Заключение………………………………………………………………………………………………………………………………. 194
Вопросы……………………………………………………………………………………………………………………………………. 195
Задачи………………………………………………………………………………………………………………………………………. 195
Часть II. Перенос обучения для генеративных моделей 197
Глава 6. Тонкая настройка языковых моделей…………………………………….. 199
Классификация текста…………………………………………………………………………………………………………….. 200
Определение набора данных………………………………………………………………………………………. 201
Определение типа модели……………………………………………………………………………………………. 202
Выбор хорошей базовой модели………………………………………………………………………………… 203
Предварительная обработка набора данных……………………………………………………………. 204
Определение оценочных метрик…………………………………………………………………………………. 206
Обучение модели………………………………………………………………………………………………………….. 208
Все еще актуально?……………………………………………………………………………………………………… 216
Генерация текста……………………………………………………………………………………………………………………… 217
Выбор правильной генеративной модели………………………………………………………………….. 217
Обучение генеративной модели………………………………………………………………………………….. 221
Инструкции………………………………………………………………………………………………………………………………. 225
Краткое введение в адаптеры…………………………………………………………………………………………………. 230
Краткое введение в квантование……………………………………………………………………………………………. 234
Собираем все вместе……………………………………………………………………………………………………………….. 237
Более глубокое погружение в оценку…………………………………………………………………………………….. 243
Время проекта: поисково-дополненная генерация………………………………………………………………. 246
Заключение………………………………………………………………………………………………………………………………. 247
Вопросы……………………………………………………………………………………………………………………………………. 249
Задачи………………………………………………………………………………………………………………………………………. 249
Глава 7. Тонкая настройка Stable Diffusion…………………………………………… 251
Тонкая настройка полной модели Stable Diffusion………………………………………………………………. 251
Подготовка набора данных…………………………………………………………………………………………. 252
Тонкая настройка модели……………………………………………………………………………………………. 254
Вывод модели……………………………………………………………………………………………………………….. 257
DreamBooth………………………………………………………………………………………………………………………………. 259
Подготовка набора данных…………………………………………………………………………………………. 261
Сохранение предыдущих знаний……………………………………………………………………………….. 261
Подготовка модели с помощью DreamBooth…………………………………………………………….. 262
Вывод…………………………………………………………………………………………………………………………….. 263
Обучение LoRA………………………………………………………………………………………………………………………… 264
Предоставление для Stable Diffusion новых возможностей…………………………………………………. 267
Inpainting……………………………………………………………………………………………………………………….. 267
Дополнительные входы для специальных обусловливаний……………………………………. 267
Время проекта: самостоятельное обучение модели SDXL с помощью DreamBooth и LoRA 268
Заключение………………………………………………………………………………………………………………………………. 269
Вопросы……………………………………………………………………………………………………………………………………. 270
Задачи………………………………………………………………………………………………………………………………………. 270
Часть III. Двигаемся дальше…………………………………………………….. 271
Глава 8. Творческое применение моделей text-to-image………………………… 273
Преобразование изображения в изображение………………………………………………………………………. 273
Inpainting…………………………………………………………………………………………………………………………………… 275
Взвешивание промптов и редактирование изображений…………………………………………………….. 277
Взвешивание и слияние промптов………………………………………………………………………………. 277
Редактирование диффузионных изображений с помощью Semantic Guidance………. 280
Редактирование реальных изображений с помощью инверсии………………………………………….. 283
Редактирование с помощью LEDITS++………………………………………………………………………. 284
Редактирование реальных изображений с помощью тонкой настройки через инструкции 286
ControlNet…………………………………………………………………………………………………………………………………. 288
Изображения в качестве промптов и вариации изображений……………………………………………… 291
Вариации изображений……………………………………………………………………………………………….. 291
Изображения в качестве промптов……………………………………………………………………………… 293
Перенос стиля……………………………………………………………………………………………………….. 293
Дополнительный контроль………………………………………………………………………………….. 295
Время проекта: ваш творческий холст………………………………………………………………………………….. 296
Заключение………………………………………………………………………………………………………………………………. 296
Вопросы……………………………………………………………………………………………………………………………………. 297
Глава 9. Генерация аудио…………………………………………………………………….. 299
Аудиоданные……………………………………………………………………………………………………………………………. 301
Осциллограмма…………………………………………………………………………………………………………….. 305
Спектрограммы…………………………………………………………………………………………………………….. 306
Преобразование речи в текст с использованием архитектур на основе трансформеров…. 314
Техники на основе энкодеров……………………………………………………………………………………… 315
Техники на основе энкодер-декодера…………………………………………………………………………. 319
От модели к конвейеру…………………………………………………………………………………………………. 323
Оценка……………………………………………………………………………………………………………………………. 325
Генерация аудио……………………………………………………………………………………………………………………… 331
Генерация звука с помощью моделей Sequence-to-Sequence……………………………………. 332
Выход за рамки генерации речи с помощью Bark…………………………………………………….. 337
AudioLM и MusicLM…………………………………………………………………………………………………….. 339
AudioGen и MusicGen……………………………………………………………………………………………………. 342
Audio Diffusion и Riffusion…………………………………………………………………………………………… 343
Dance Diffusion……………………………………………………………………………………………………………… 346
Подробнее о моделях диффузии для генерации звука………………………………………………. 347
Оценка систем генерации звука……………………………………………………………………………………………… 348
Что дальше?……………………………………………………………………………………………………………………………… 348
Время проекта: сквозная диалоговая система………………………………………………………………………. 349
Заключение………………………………………………………………………………………………………………………………. 350
Вопросы……………………………………………………………………………………………………………………………………. 352
Задачи………………………………………………………………………………………………………………………………………. 353
Глава 10. Быстро развивающиеся направления в области
генеративного ИИ………………………………………………………………………………… 355
Оптимизация предпочтений……………………………………………………………………………………………………. 355
Длинные контексты…………………………………………………………………………………………………………………. 357
Смесь экспертов……………………………………………………………………………………………………………………….. 360
Оптимизации и квантование…………………………………………………………………………………………………… 362
Данные……………………………………………………………………………………………………………………………………… 364
Одна модель, чтобы править всеми……………………………………………………………………………………….. 365
Компьютерное зрение……………………………………………………………………………………………………………… 365
Компьютерное зрение 3D………………………………………………………………………………………………………… 368
Генерация видео………………………………………………………………………………………………………………………. 369
Мультимодальность………………………………………………………………………………………………………………… 370
Сообщество………………………………………………………………………………………………………………………………. 373
Приложение A. Инструменты с открытым исходным кодом………………… 375
Стек Hugging Face…………………………………………………………………………………………………………………….. 375
Данные……………………………………………………………………………………………………………………………………… 376
Обертки…………………………………………………………………………………………………………………………………….. 377
Локальный вывод…………………………………………………………………………………………………………………….. 377
Инструменты развертывания………………………………………………………………………………………………….. 378
Приложение B. Требования к памяти для моделей LLM………………………. 379
Требования к памяти вывода………………………………………………………………………………………………….. 379
Требования к памяти для обучения……………………………………………………………………………………….. 380
Для дополнительного чтения………………………………………………………………………………………………….. 380
Приложение C. Сквозная генерация, дополненная поиском………………… 381
Обработка данных…………………………………………………………………………………………………………………… 381
Эмбеддинги документов………………………………………………………………………………………………………….. 383
Извлечение……………………………………………………………………………………………………………………………….. 384
Генерация…………………………………………………………………………………………………………………………………. 385
RAG на уровне производства…………………………………………………………………………………………………. 387
Предметный указатель…………………………………………………………………………. 389
Об авторах……………………………………………………………………………………………. 393
Об изображении на обложке………………………………………………………………… 395
