Опубликовано

Встречайте: Генеративный ИИ на практике: трансформеры и диффузионные модели

Генеративный ИИ на практике: трансформеры и диффузионные модели

Книга представляет собой исчерпывающее практическое руководство по современному генеративному искусственному интеллекту. Она последовательно проводит читателя от основ представления информации до передовых методов создания изображений, текста и аудио с помощью открытых моделей. Подробно разбираются ключевые архитектуры: трансформеры и автоэнкодеры, CLIP, диффузионные модели и Stable Diffusion. Существенная часть книги посвящена трансферному обучению, включая тонкую настройку языковых моделей и моделей для генерации изображений. Подробно описаны креативные приложения, генерация аудио и рассмотрены стремительно развивающиеся направления в этой области. Книга имеет ярко выраженную практическую направленность, содержит пошаговые инструкции, проекты для самостоятельной работы, упражнения и задачи для закрепления материала.
Для специалистов-практиков по генеративному ИИ

Трансформеры и диффузионные модели

Это практическое руководство научит вас применять методы генеративного искусственного интеллекта для создания текстов, изображений, аудио и даже музыки. Вы поймёте, как работают современные генеративные модели, как дообучать и адаптировать их под свои задачи, а также как комбинировать готовые компоненты для создания новых моделей и творческих приложений в различных областях.
Книга сочетает теоретические концепции с практическими примерами, содержит рабочие листинги и наглядные иллюстрации. Вы научитесь использовать библиотеки с открытым исходным кодом для работы с трансформерами и диффузионными моделями, исследовать код и анализировать готовые проекты

Вы узнаете, как

  • Создавайте и настраивайте модели для генерации текста и изображений.
  • Сравнивайте подходы: использование предобученной модели и дообучение собственной.
  • Создавайте и применяйте модели для генерации, редактирования и стилизации изображений.
  • Адаптируйте трансформеры и диффузионные модели для различных творческих задач.
  • Обучайте модели для отражения вашего уникального стиля.

Книгу “Генеративный ИИ на практике: трансформеры и диффузионные модели” можно купить в нашем интенет-магазине.

Отзывы о книге……………………………………………………………………………………… 11

Предисловие…………………………………………………………………………………………… 13

Для кого эта книга……………………………………………………………………………………………………………………… 13

Предварительная подготовка…………………………………………………………………………………………………… 14

Чему вы научитесь…………………………………………………………………………………………………………………….. 14

Как следует читать эту книгу…………………………………………………………………………………………………… 15

Требования к программному и аппаратному обеспечению………………………………………………….. 15

Условные обозначения, используемые в книге……………………………………………………………………….. 16

Использование примеров кода…………………………………………………………………………………………………. 17

Комплект цветных изображений………………………………………………………………………………………………. 17

Актуальность книги…………………………………………………………………………………………………………………… 17

Благодарности…………………………………………………………………………………………………………………………… 17

Часть I. Использование открытых моделей……………………….. 21

Глава 1. Введение в генеративные медиа……………………………………………….. 23

Генерация изображений……………………………………………………………………………………………………………. 24

Генерация текста……………………………………………………………………………………………………………………….. 26

Создание аудио………………………………………………………………………………………………………………………….. 28

Этические и социальные последствия……………………………………………………………………………………… 28

Где мы были раньше и как обстоят дела сейчас…………………………………………………………………….. 29

Как создаются генеративные ИИ-модели………………………………………………………………………………… 30

Заключение………………………………………………………………………………………………………………………………… 31

Глава 2. Трансформеры………………………………………………………………………….. 33

Языковая модель в действии…………………………………………………………………………………………………….. 34

Токенизация текста………………………………………………………………………………………………………… 34

Прогнозирование вероятностей…………………………………………………………………………………….. 37

Генерация текста……………………………………………………………………………………………………………. 40

Генерализация с нулевым выстрелом (Zero-shot)………………………………………………………… 49

Генерализация с несколькими выстрелами (Few-shot)………………………………………………… 51

Блок трансформера……………………………………………………………………………………………………………………. 53

Генеалогия модели-трансформера…………………………………………………………………………………………… 55

Задачи «последовательность-последовательность»…………………………………………………… 55

Модели, имеющие только энкодер……………………………………………………………………………….. 57

Сила предварительного обучения……………………………………………………………………………………………. 60

Краткий обзор трансформеров…………………………………………………………………………………………………. 63

Ограничения……………………………………………………………………………………………………………………. 65

Помимо текста………………………………………………………………………………………………………………… 66

Создание проекта: использование языковой модели для генерации текста………………………… 70

Заключение………………………………………………………………………………………………………………………………… 70

Вопросы……………………………………………………………………………………………………………………………………… 72

Практика…………………………………………………………………………………………………………………………………….. 72

Глава 3. Сжатие и представление информации………………………………………. 75

Автоэнкодеры…………………………………………………………………………………………………………………………….. 77

Подготовка данных………………………………………………………………………………………………………… 78

Энкодер……………………………………………………………………………………………………………………………. 80

Декодер……………………………………………………………………………………………………………………………. 83

Обучение…………………………………………………………………………………………………………………………. 84

Исследование латентного пространства……………………………………………………………………… 89

Визуализация латентного пространства……………………………………………………………………… 93

Вариационные автоэнкодеры…………………………………………………………………………………………………… 97

Энкодеры и декодеры VAE……………………………………………………………………………………………. 98

Выборка из распределения энкодера…………………………………………………………………………… 99

Обучение VAE………………………………………………………………………………………………………………. 102

Использование VAE для генеративного моделирования………………………………………….. 110

CLIP…………………………………………………………………………………………………………………………………………… 111

Контрастные потери…………………………………………………………………………………………………….. 111

Использование CLIP, шаг за шагом……………………………………………………………………………. 113

Классификация изображений с нулевым выстрелом с помощью CLIP…………………… 118

Конвейер классификации изображений с нулевым выстрелом……………………………….. 120

Варианты использования CLIP…………………………………………………………………………………… 121

Альтернативы CLIP…………………………………………………………………………………………………………………. 122

Время проекта: семантический поиск изображений…………………………………………………………….. 122

Заключение………………………………………………………………………………………………………………………………. 124

Вопросы……………………………………………………………………………………………………………………………………. 125

Задачи………………………………………………………………………………………………………………………………………. 126

Глава 4. Модели диффузии…………………………………………………………………… 127

Итеративное уточнение — ключ к пониманию моделей диффузии……………………………………. 128

Обучение моделей диффузии………………………………………………………………………………………………….. 131

Данные…………………………………………………………………………………………………………………………… 132

Добавление шума…………………………………………………………………………………………………………. 134

UNet……………………………………………………………………………………………………………………………….. 135

Обучение……………………………………………………………………………………………………………………….. 137

Выборка………………………………………………………………………………………………………………………… 139

Оценка……………………………………………………………………………………………………………………………. 140

Графики шума………………………………………………………………………………………………………………………….. 142

Зачем надо добавлять шум?………………………………………………………………………………………… 143

Начинаем с простого……………………………………………………………………………………………………. 144

Математика…………………………………………………………………………………………………………………… 146

Влияние входного разрешения и масштабирования…………………………………………………. 151

Подробный разбор: UNet и альтернативы…………………………………………………………………………….. 153

Простая модель UNet……………………………………………………………………………………………………. 154

Улучшение UNet…………………………………………………………………………………………………………… 157

Альтернативные архитектуры…………………………………………………………………………………….. 158

Подробный разбор: цели диффузии……………………………………………………………………………………….. 159

Время проекта: обучение собственной модели диффузии…………………………………………………… 161

Заключение………………………………………………………………………………………………………………………………. 162

Вопросы……………………………………………………………………………………………………………………………………. 162

Задачи………………………………………………………………………………………………………………………………………. 163

Глава 5. Stable Diffusion и обусловленная генерация…………………………….. 165

Добавление контроля: модели с условиями………………………………………………………………………….. 165

Подготовка данных………………………………………………………………………………………………………. 166

Создание модели, обусловленной классом……………………………………………………………….. 168

Обучение модели………………………………………………………………………………………………………….. 169

Выборка………………………………………………………………………………………………………………………… 171

Повышение эффективности: Latent Diffusion………………………………………………………………………… 174

Stable Diffusion: подробнее о компонентах…………………………………………………………………………… 175

Энкодер текста……………………………………………………………………………………………………………… 176

Вариационный автоэнкодер (VAE)…………………………………………………………………………….. 178

UNet……………………………………………………………………………………………………………………………….. 181

Stable Diffusion XL………………………………………………………………………………………………………… 183

FLUX, Stable Diffusion 3 и генерация видео……………………………………………………………….. 185

Руководство без классификаторов……………………………………………………………………………… 185

Собираем все вместе: аннотированный цикл выборки………………………………………………………… 187

Открытые данные, открытые модели…………………………………………………………………………………….. 190

Закат LAION-5B……………………………………………………………………………………………………………. 191

Альтернативы……………………………………………………………………………………………………………….. 192

Добросовестное и коммерческое использование………………………………………………………. 192

Время проекта: создание интерактивной демомодели с помощью Gradio…………………………. 193

Заключение………………………………………………………………………………………………………………………………. 194

Вопросы……………………………………………………………………………………………………………………………………. 195

Задачи………………………………………………………………………………………………………………………………………. 195

Часть II. Перенос обучения для генеративных моделей 197

Глава 6. Тонкая настройка языковых моделей…………………………………….. 199

Классификация текста…………………………………………………………………………………………………………….. 200

Определение набора данных………………………………………………………………………………………. 201

Определение типа модели……………………………………………………………………………………………. 202

Выбор хорошей базовой модели………………………………………………………………………………… 203

Предварительная обработка набора данных……………………………………………………………. 204

Определение оценочных метрик…………………………………………………………………………………. 206

Обучение модели………………………………………………………………………………………………………….. 208

Все еще актуально?……………………………………………………………………………………………………… 216

Генерация текста……………………………………………………………………………………………………………………… 217

Выбор правильной генеративной модели………………………………………………………………….. 217

Обучение генеративной модели………………………………………………………………………………….. 221

Инструкции………………………………………………………………………………………………………………………………. 225

Краткое введение в адаптеры…………………………………………………………………………………………………. 230

Краткое введение в квантование……………………………………………………………………………………………. 234

Собираем все вместе……………………………………………………………………………………………………………….. 237

Более глубокое погружение в оценку…………………………………………………………………………………….. 243

Время проекта: поисково-дополненная генерация………………………………………………………………. 246

Заключение………………………………………………………………………………………………………………………………. 247

Вопросы……………………………………………………………………………………………………………………………………. 249

Задачи………………………………………………………………………………………………………………………………………. 249

Глава 7. Тонкая настройка Stable Diffusion…………………………………………… 251

Тонкая настройка полной модели Stable Diffusion………………………………………………………………. 251

Подготовка набора данных…………………………………………………………………………………………. 252

Тонкая настройка модели……………………………………………………………………………………………. 254

Вывод модели……………………………………………………………………………………………………………….. 257

DreamBooth………………………………………………………………………………………………………………………………. 259

Подготовка набора данных…………………………………………………………………………………………. 261

Сохранение предыдущих знаний……………………………………………………………………………….. 261

Подготовка модели с помощью DreamBooth…………………………………………………………….. 262

Вывод…………………………………………………………………………………………………………………………….. 263

Обучение LoRA………………………………………………………………………………………………………………………… 264

Предоставление для Stable Diffusion новых возможностей…………………………………………………. 267

Inpainting……………………………………………………………………………………………………………………….. 267

Дополнительные входы для специальных обусловливаний……………………………………. 267

Время проекта: самостоятельное обучение модели SDXL с помощью DreamBooth и LoRA 268

Заключение………………………………………………………………………………………………………………………………. 269

Вопросы……………………………………………………………………………………………………………………………………. 270

Задачи………………………………………………………………………………………………………………………………………. 270

Часть III. Двигаемся дальше…………………………………………………….. 271

Глава 8. Творческое применение моделей text-to-image………………………… 273

Преобразование изображения в изображение………………………………………………………………………. 273

Inpainting…………………………………………………………………………………………………………………………………… 275

Взвешивание промптов и редактирование изображений…………………………………………………….. 277

Взвешивание и слияние промптов………………………………………………………………………………. 277

Редактирование диффузионных изображений с помощью Semantic Guidance………. 280

Редактирование реальных изображений с помощью инверсии………………………………………….. 283

Редактирование с помощью LEDITS++………………………………………………………………………. 284

Редактирование реальных изображений с помощью тонкой настройки через инструкции      286

ControlNet…………………………………………………………………………………………………………………………………. 288

Изображения в качестве промптов и вариации изображений……………………………………………… 291

Вариации изображений……………………………………………………………………………………………….. 291

Изображения в качестве промптов……………………………………………………………………………… 293

Перенос стиля……………………………………………………………………………………………………….. 293

Дополнительный контроль………………………………………………………………………………….. 295

Время проекта: ваш творческий холст………………………………………………………………………………….. 296

Заключение………………………………………………………………………………………………………………………………. 296

Вопросы……………………………………………………………………………………………………………………………………. 297

Глава 9. Генерация аудио…………………………………………………………………….. 299

Аудиоданные……………………………………………………………………………………………………………………………. 301

Осциллограмма…………………………………………………………………………………………………………….. 305

Спектрограммы…………………………………………………………………………………………………………….. 306

Преобразование речи в текст с использованием архитектур на основе трансформеров…. 314

Техники на основе энкодеров……………………………………………………………………………………… 315

Техники на основе энкодер-декодера…………………………………………………………………………. 319

От модели к конвейеру…………………………………………………………………………………………………. 323

Оценка……………………………………………………………………………………………………………………………. 325

Генерация аудио……………………………………………………………………………………………………………………… 331

Генерация звука с помощью моделей Sequence-to-Sequence……………………………………. 332

Выход за рамки генерации речи с помощью Bark…………………………………………………….. 337

AudioLM и MusicLM…………………………………………………………………………………………………….. 339

AudioGen и MusicGen……………………………………………………………………………………………………. 342

Audio Diffusion и Riffusion…………………………………………………………………………………………… 343

Dance Diffusion……………………………………………………………………………………………………………… 346

Подробнее о моделях диффузии для генерации звука………………………………………………. 347

Оценка систем генерации звука……………………………………………………………………………………………… 348

Что дальше?……………………………………………………………………………………………………………………………… 348

Время проекта: сквозная диалоговая система………………………………………………………………………. 349

Заключение………………………………………………………………………………………………………………………………. 350

Вопросы……………………………………………………………………………………………………………………………………. 352

Задачи………………………………………………………………………………………………………………………………………. 353

Глава 10. Быстро развивающиеся направления в области
генеративного ИИ………………………………………………………………………………… 355

Оптимизация предпочтений……………………………………………………………………………………………………. 355

Длинные контексты…………………………………………………………………………………………………………………. 357

Смесь экспертов……………………………………………………………………………………………………………………….. 360

Оптимизации и квантование…………………………………………………………………………………………………… 362

Данные……………………………………………………………………………………………………………………………………… 364

Одна модель, чтобы править всеми……………………………………………………………………………………….. 365

Компьютерное зрение……………………………………………………………………………………………………………… 365

Компьютерное зрение 3D………………………………………………………………………………………………………… 368

Генерация видео………………………………………………………………………………………………………………………. 369

Мультимодальность………………………………………………………………………………………………………………… 370

Сообщество………………………………………………………………………………………………………………………………. 373

Приложение A. Инструменты с открытым исходным кодом………………… 375

Стек Hugging Face…………………………………………………………………………………………………………………….. 375

Данные……………………………………………………………………………………………………………………………………… 376

Обертки…………………………………………………………………………………………………………………………………….. 377

Локальный вывод…………………………………………………………………………………………………………………….. 377

Инструменты развертывания………………………………………………………………………………………………….. 378

Приложение B. Требования к памяти для моделей LLM………………………. 379

Требования к памяти вывода………………………………………………………………………………………………….. 379

Требования к памяти для обучения……………………………………………………………………………………….. 380

Для дополнительного чтения………………………………………………………………………………………………….. 380

Приложение C. Сквозная генерация, дополненная поиском………………… 381

Обработка данных…………………………………………………………………………………………………………………… 381

Эмбеддинги документов………………………………………………………………………………………………………….. 383

Извлечение……………………………………………………………………………………………………………………………….. 384

Генерация…………………………………………………………………………………………………………………………………. 385

RAG на уровне производства…………………………………………………………………………………………………. 387

Предметный указатель…………………………………………………………………………. 389

Об авторах……………………………………………………………………………………………. 393

Об изображении на обложке………………………………………………………………… 395

Добавить комментарий