
Впервые на русском языке книга об инновационной парадигме Data Mesh, продиктованной современным развитием, децентрализацией больших данных и подходами к их обработке. Изложенная концепция развивает идеи предметно-ориентированного проектирования (DDD) и озера данных (Data Lake), раскрывает принципы федеративного цифрового управления данными.
Книга адресована (преимущественно руководящим) специалистам по работе с данными, а также разработчикам серверных и облачных продуктов.
Наступает момент, когда существующие технологии управления данными нуждаются в коренном пересмотре. Налицо пролиферация источников данных, растущая важность человеческого фактора при их обработке. Кроме того, данные активно генерируются искусственным интеллектом и аналитическими инструментами, всё сильнее обособляясь по предметным областям.
В этой книге впервые сделан подробный практический разбор новой парадигмы Data Mesh. Объяснено, как она встраивается в имеющуюся информационную инфраструктуру, как добиться самодостаточной и частично самообслуживаемой конфигурации распределённых данных в компании. Книга продолжает идеи предметно-ориентированного проектирования (DDD) и озера данных (Data Lake), раскрывает принципы федеративного цифрового управления данными. Адресована (преимущественно руководящим) специалистам по работе с данными, а также разработчикам серверных и облачных продуктов, поможет уверенно ориентироваться в технологическом ландшафте и имеющихся практиках при управлении гетерогенными и динамично меняющимися источниками информации.
Отзывы читателей на Amazon.com
В этой книге разобрано, как сформировалась парадигма «data mesh» – современная альтернатива таким архитектурам, как хранилища и озёра данных. Автор рассказывает, как качественнее и эффективнее нарабатывать ценность имеющихся данных и монетизировать их – чего не всегда позволяют добиться более традиционные подходы.
Концепции, представленные в книге, не привязаны к конкретным технологиям и актуальны при работе с любыми базами данных и облаками. Книга обязательна для изучения и особенно полезна потому, что помогает задать понятный контекст для сложных и, казалось бы, разрозненных проблем. Картинки тоже очень классные.
Об авторе. 13
Отзывы о книге. 14
Предисловие. 16
Предисловие к русскому изданию.. 18
Введение. 20
Зачем я написала эту книгу и почему сейчас. 21
Для кого предназначена эта книга. 22
Как читать данную книгу. 23
Условные обозначения в книге. 24
Благодарности. 24
Пролог, или Представьте Data Mesh. 26
Data Mesh в действии. 27
Культура любознательности и жажды экспериментов. 28
Партнерские сервисы, данные и машинное обучение. 29
Невидимая платформа и политики. 35
Неограниченное масштабирование с автономными data-продуктами. 37
Положительный сетевой эффект. 37
Почему необходим переход на Data Mesh?. 38
Дальнейшее развитие. 40
Часть I. Что такое Data Mesh?. 41
ГЛАВА 1. Коротко о Data Mesh. 43
Результаты. 43
Переход. 44
Принципы. 46
Принцип доменного владения. 46
Принцип данных как продукта. 47
Принцип платформы данных самообслуживания. 48
Принцип федеративного цифрового регулирования данных. 48
Взаимодействие принципов. 49
Взгляд на модель Data Mesh. 50
Данные. 51
Операционные данные. 51
Аналитические данные. 52
Резюме. 53
ГЛАВА 2. Принцип доменного владения. 55
Краткое описание стратегии предметно-ориентированного проектирования. 57
Применение стратегии предметно-ориентированного проектирования к данным. 58
Архетипы данных домена. 61
Выровненные с источником данные домена. 62
Агрегированные данные домена. 64
Выровненные с потребителем данные домена. 64
Переход к доменному владению.. 65
Смещение владения данными “вверх по течению”. 65
Определение множества связных моделей. 66
Единый источник истины. 67
Размещение конвейера данных внутри домена. 67
Резюме. 68
ГЛАВА 3. Принцип данных как продукта. 70
Применение концепции продуктового мышления к данным. 72
Базовые атрибуты удобства использования data-продукта. 74
Переход к данным как к продукту. 83
Включение владения data-продуктом в домены. 83
Новый взгляд на используемую терминологию.. 84
Данные как продукт, а не просто актив. 84
“Доверяй, но проверяй” в культуре отношения к данным. 85
Объединение данных и вычислений в один логический элемент. 86
Резюме. 87
ГЛАВА 4. Принцип платформы данных самообслуживания. 88
Платформа Data Mesh: сходства и различия. 90
Обслуживание автономных доменно-ориентированных команд. 90
Управление автономными функционально совместимыми data-продуктами. 92
Платформа с операционными и аналитическими возможностями. 92
Акцент на использование большинством специалистов широкого профиля. 93
Децентрализованные технологии. 95
Независимые от домена функции. 95
Платформенное мышление в Data Mesh. 96
Возможность автономных команд получать ценность из данных. 98
Обмен ценностью с автономными, но совместимыми data-продуктами. 100
Ускорение обмена ценностью путем снижения когнитивной нагрузки. 101
Масштабирование обмена данными. 102
Поддержка культуры встроенных инноваций. 104
Переход на платформу самообслуживания Data Mesh. 104
Разработайте API и протоколы вначале. 105
Подготовьтесь к попаданию технологии в широкий обиход. 105
Проведите ревизию и упростите сервисы платформы. 106
Разработайте высокоуровневые API для управления data-продуктами. 106
Создайте опыт, а не механизм. 107
Начните с простой основы и развивайте ее. 107
Резюме. 108
ГЛАВА 5. Принцип федеративного цифрового регулирования данных. 109
Системный подход к регулированию данных в Data Mesh. 112
Поддержка динамического равновесия между автономностью доменов
и глобальной совместимостью.. 113
Внедрение динамической топологии по умолчанию.. 117
Использование автоматизации и распределенной архитектуры. 117
Внедрение федерализации в модель регулирования данных. 118
Федеративная команда. 119
Отраслевые эксперты. 121
Политики. 124
Стимулы. 125
Цифровизация модели регулирования данных. 127
Стандарты, выраженные в коде. 127
Политики, выраженные в коде. 128
Автоматизация тестирования. 129
Автоматизация мониторинга. 129
Переход к федеративному цифровому регулированию.. 130
Переход ответственности к доменам. 130
Внедрение исполнения политик в каждый data-продукт. 130
Автоматизация через интервенцию.. 131
Моделирование данных. 131
Измерение сетевого эффекта. 132
Изменения вместо постоянства. 132
Резюме. 132
Часть II. Почему Data Mesh?. 147
ГЛАВА 6. Переломный момент. 137
Большие надежды, возлагаемые на использование данных. 138
Фундаментальное разделение данных. 140
Новые типы масштабирования. 142
Естественная необходимость. 143
Приближение к плато в извлечении выгоды. 144
Резюме. 145
ГЛАВА 7. После переломного момента. 147
Положительное отношение к изменениям в условиях сложноорганизованного бизнеса. 148
Выравнивание бизнеса, технологий и аналитических данных. 149
Устранение разрыва между операционными и аналитическими данными. 150
Локализация изменений данных в пределах предметных областей. 152
Уменьшение непреднамеренной сложности конвейеров данных. 152
Поддержание скорости работы в условиях расширения. 153
Устранение узких мест, возникающих при централизации и монолитности. 154
Уменьшение зависимости конвейеров данных. 154
Меньше координации в регулировании данных. 156
Внедрение автономности. 157
Повышение соотношения возврата ценности из данных к инвестициям. 158
Абстрагирование технической сложности при помощи платформы данных. 158
Повсеместное внедрение продуктового мышления. 159
Выход за пределы. 159
Резюме. 160
ГЛАВА 8. До переломного момента. 163
Эволюция архитектур аналитических данных. 163
Первое поколение: архитектура хранилища данных. 164
Второе поколение: архитектура озера данных. 165
Третье поколение: многомодульная облачная архитектура. 167
Характеристики архитектуры аналитических данных. 168
Монолитность. 169
Централизованное владение данными. 174
Ориентация на технологии. 175
Резюме. 179
Часть III. Как спроектировать архитектуру Data Mesh. 181
ГЛАВА 9. Логическая архитектура. 183
Доменно-ориентированные интерфейсы для обмена аналитическими данными. 186
Дизайн программного интерфейса. 188
Дизайн интерфейсов аналитических данных. 188
Междоменные зависимости аналитических данных. 189
Data-продукт как архитектурный квант. 190
Структурные компоненты data-продукта. 191
Взаимодействие для обмена данными data-продукта. 197
API для обеспечения поиска и мониторинга данных. 199
Многоплоскостная платформа данных. 199
Плоскость платформы. 200
Плоскость инфраструктуры данных. 201
Плоскость data-продукта. 202
Плоскость mesh. 202
Пример. 202
Внедрение цифровых политик. 203
Sidecar data-продукта. 205
Вычислительный контейнер data-продукта. 206
Порт контроля. 206
Резюме. 207
ГЛАВА 10. Многоплоскостная архитектура платформы данных. 211
Ориентированность на пользовательское восприятие при разработке платформы. 214
Путь разработчика data-продукта. 215
Начало разработки, исследование, начальная загрузка и определение
источника. 217
Сборка, тестирование, развертывание и запуск. 220
Поддержка, развитие и прекращение поддержки. 224
Пользовательское восприятие data-продукта. 227
Начало разработки, исследование, начальная загрузка и определение
источника. 229
Сборка, тестирование, развертывание, запуск. 230
Поддержка, развитие и прекращение поддержки. 231
Резюме. 231
Часть IV. Как спроектировать архитектуру data-продукта. 233
ГЛАВА 11. Проектирование data-продукта на основе возможностей. 235
Возможности data-продукта. 236
Характеристики архитектуры data-продукта. 240
Проектирование модели на основе простоты сложных адаптивных систем. 242
Эмерджентное поведение на основе простых локальных правил. 242
Отсутствие центральной оркестровки. 243
Резюме. 243
ГЛАВА 12. Проектирование возможностей потребления, преобразования и предоставления данных 245
Предоставление данных. 245
Потребности пользователей данных. 245
Свойства проектирования данных. 248
Модель предоставления данных. 261
Потребление данных. 263
Архетипы источников данных. 264
Расположение потребляемых данных. 268
Модель потребления данных. 269
Преобразование данных. 271
Программные и непрограммные преобразования данных. 272
Преобразование на основе потока данных. 273
Преобразования данных с использованием машинного обучения. 275
Преобразования данных с временнóй зависимостью.. 275
Проектирование преобразований данных. 275
Резюме. 277
ГЛАВА 13. Проектирование возможностей поиска, интерпретации
и компоновки данных. 278
Поиск, интерпретация, проверка и исследование. 278
Саморегистрация data-продукта для возможности поиска. 281
Поиск при помощи глобального URI 281
Семантические и синтаксические модели. 282
Гарантии данных. 283
Форма данных. 287
Документация. 288
Обнаружение, изучение и понимание data-продуктов. 288
Компоновка данных. 289
Свойства модели потребления данных. 291
Традиционные подходы к компонуемости данных. 292
Модель компонуемости данных. 296
Резюме. 299
ГЛАВА 14. Проектирование возможностей управления, регулирования
и мониторинга данных. 301
Управление жизненным циклом. 301
Модель управления жизненным циклом. 302
Компоненты манифеста data-продукта. 303
Регулирование данных. 304
Модель регулирования данных. 305
Стандартизация политик. 306
Объединение политик и данных. 308
Связывание политик. 309
Отслеживание, отладка и аудит. 309
Проектирование наблюдаемости. 310
Резюме. 314
Часть V. С чего начать. 315
ГЛАВА 15. Стратегия и реализация. 317
Следует ли сегодня переходить на Data Mesh?. 317
Data Mesh как элемент стратегии данных. 322
Фреймворк для реализации Data Mesh. 325
Бизнес-ориентированная реализация. 326
Сквозная итеративная реализация. 332
Эволюционная реализация. 333
Резюме. 349
ГЛАВА 16. Организация и культура. 350
Процесс изменения. 352
Культура. 354
Ценности. 355
Вознаграждение. 358
Внутренняя мотивация. 358
Внешняя мотивация. 359
Структура. 360
Принятие существующей организационной структуры. 360
Определение границ data-продукта. 369
Люди. 373
Роли. 373
Развитие профессиональных навыков. 376
Процесс. 378
Ключевые изменения в процессах. 379
Резюме. 381
Предметный указатель. 382

Дегани Жамак – автор и идеолог парадигмы Data Mesh, технический директор компании Thoughtworks. Профессиональные интересы – распределённые системы и архитектура данных в компании. Выступает за технологическую децентрализацию на всех уровнях, в частности при работе с данными, приложениями и зонами ответственности.