Часть II. Перенос обучения для генеративных моделей 197
Глава 6. Тонкая настройка языковых моделей…………………………………….. 199
Классификация текста…………………………………………………………………………………………………………….. 200
Определение набора данных………………………………………………………………………………………. 201
Определение типа модели……………………………………………………………………………………………. 202
Выбор хорошей базовой модели………………………………………………………………………………… 203
Предварительная обработка набора данных……………………………………………………………. 204
Определение оценочных метрик…………………………………………………………………………………. 206
Обучение модели………………………………………………………………………………………………………….. 208
Все еще актуально?……………………………………………………………………………………………………… 216
Генерация текста……………………………………………………………………………………………………………………… 217
Выбор правильной генеративной модели………………………………………………………………….. 217
Обучение генеративной модели………………………………………………………………………………….. 221
Инструкции………………………………………………………………………………………………………………………………. 225
Краткое введение в адаптеры…………………………………………………………………………………………………. 230
Краткое введение в квантование……………………………………………………………………………………………. 234
Собираем все вместе……………………………………………………………………………………………………………….. 237
Более глубокое погружение в оценку…………………………………………………………………………………….. 243
Время проекта: поисково-дополненная генерация………………………………………………………………. 246
Заключение………………………………………………………………………………………………………………………………. 247
Вопросы……………………………………………………………………………………………………………………………………. 249
Задачи………………………………………………………………………………………………………………………………………. 249
Глава 7. Тонкая настройка Stable Diffusion…………………………………………… 251
Тонкая настройка полной модели Stable Diffusion………………………………………………………………. 251
Подготовка набора данных…………………………………………………………………………………………. 252
Тонкая настройка модели……………………………………………………………………………………………. 254
Вывод модели……………………………………………………………………………………………………………….. 257
DreamBooth………………………………………………………………………………………………………………………………. 259
Подготовка набора данных…………………………………………………………………………………………. 261
Сохранение предыдущих знаний……………………………………………………………………………….. 261
Подготовка модели с помощью DreamBooth…………………………………………………………….. 262
Вывод…………………………………………………………………………………………………………………………….. 263
Обучение LoRA………………………………………………………………………………………………………………………… 264
Предоставление для Stable Diffusion новых возможностей…………………………………………………. 267
Inpainting……………………………………………………………………………………………………………………….. 267
Дополнительные входы для специальных обусловливаний……………………………………. 267
Время проекта: самостоятельное обучение модели SDXL с помощью DreamBooth и LoRA 268
Заключение………………………………………………………………………………………………………………………………. 269
Вопросы……………………………………………………………………………………………………………………………………. 270
Задачи………………………………………………………………………………………………………………………………………. 270
Часть III. Двигаемся дальше…………………………………………………….. 271
Глава 8. Творческое применение моделей text-to-image………………………… 273
Преобразование изображения в изображение………………………………………………………………………. 273
Inpainting…………………………………………………………………………………………………………………………………… 275
Взвешивание промптов и редактирование изображений…………………………………………………….. 277
Взвешивание и слияние промптов………………………………………………………………………………. 277
Редактирование диффузионных изображений с помощью Semantic Guidance………. 280
Редактирование реальных изображений с помощью инверсии………………………………………….. 283
Редактирование с помощью LEDITS++………………………………………………………………………. 284
Редактирование реальных изображений с помощью тонкой настройки через инструкции 286
ControlNet…………………………………………………………………………………………………………………………………. 288
Изображения в качестве промптов и вариации изображений……………………………………………… 291
Вариации изображений……………………………………………………………………………………………….. 291
Изображения в качестве промптов……………………………………………………………………………… 293
Перенос стиля……………………………………………………………………………………………………….. 293
Дополнительный контроль………………………………………………………………………………….. 295
Время проекта: ваш творческий холст………………………………………………………………………………….. 296
Заключение………………………………………………………………………………………………………………………………. 296
Вопросы……………………………………………………………………………………………………………………………………. 297
Глава 9. Генерация аудио…………………………………………………………………….. 299
Аудиоданные……………………………………………………………………………………………………………………………. 301
Осциллограмма…………………………………………………………………………………………………………….. 305
Спектрограммы…………………………………………………………………………………………………………….. 306
Преобразование речи в текст с использованием архитектур на основе трансформеров…. 314
Техники на основе энкодеров……………………………………………………………………………………… 315
Техники на основе энкодер-декодера…………………………………………………………………………. 319
От модели к конвейеру…………………………………………………………………………………………………. 323
Оценка……………………………………………………………………………………………………………………………. 325
Генерация аудио……………………………………………………………………………………………………………………… 331
Генерация звука с помощью моделей Sequence-to-Sequence……………………………………. 332
Выход за рамки генерации речи с помощью Bark…………………………………………………….. 337
AudioLM и MusicLM…………………………………………………………………………………………………….. 339
AudioGen и MusicGen……………………………………………………………………………………………………. 342
Audio Diffusion и Riffusion…………………………………………………………………………………………… 343
Dance Diffusion……………………………………………………………………………………………………………… 346
Подробнее о моделях диффузии для генерации звука………………………………………………. 347
Оценка систем генерации звука……………………………………………………………………………………………… 348
Что дальше?……………………………………………………………………………………………………………………………… 348
Время проекта: сквозная диалоговая система………………………………………………………………………. 349
Заключение………………………………………………………………………………………………………………………………. 350
Вопросы……………………………………………………………………………………………………………………………………. 352
Задачи………………………………………………………………………………………………………………………………………. 353
Глава 10. Быстро развивающиеся направления в области
генеративного ИИ………………………………………………………………………………… 355
Оптимизация предпочтений……………………………………………………………………………………………………. 355
Длинные контексты…………………………………………………………………………………………………………………. 357
Смесь экспертов……………………………………………………………………………………………………………………….. 360
Оптимизации и квантование…………………………………………………………………………………………………… 362
Данные……………………………………………………………………………………………………………………………………… 364
Одна модель, чтобы править всеми……………………………………………………………………………………….. 365
Компьютерное зрение……………………………………………………………………………………………………………… 365
Компьютерное зрение 3D………………………………………………………………………………………………………… 368
Генерация видео………………………………………………………………………………………………………………………. 369
Мультимодальность………………………………………………………………………………………………………………… 370
Сообщество………………………………………………………………………………………………………………………………. 373
Приложение A. Инструменты с открытым исходным кодом………………… 375
Стек Hugging Face…………………………………………………………………………………………………………………….. 375
Данные……………………………………………………………………………………………………………………………………… 376
Обертки…………………………………………………………………………………………………………………………………….. 377
Локальный вывод…………………………………………………………………………………………………………………….. 377
Инструменты развертывания………………………………………………………………………………………………….. 378
Приложение B. Требования к памяти для моделей LLM………………………. 379
Требования к памяти вывода………………………………………………………………………………………………….. 379
Требования к памяти для обучения……………………………………………………………………………………….. 380
Для дополнительного чтения………………………………………………………………………………………………….. 380
Приложение C. Сквозная генерация, дополненная поиском………………… 381
Обработка данных…………………………………………………………………………………………………………………… 381
Эмбеддинги документов………………………………………………………………………………………………………….. 383
Извлечение……………………………………………………………………………………………………………………………….. 384
Генерация…………………………………………………………………………………………………………………………………. 385
RAG на уровне производства…………………………………………………………………………………………………. 387
Предметный указатель…………………………………………………………………………. 389
Об авторах……………………………………………………………………………………………. 393
Об изображении на обложке………………………………………………………………… 395