
В нашем издательстве вышла книга Фила Уиндера “Обучение с подкреплением для реальных задач“.
Книга посвящена промышленно-ориентированному применению обучения с подкреплением (Reinforcement Learning, RL). Объяснено, как обучать промышленные и научные системы решению любых пошаговых задач методом проб и ошибок – без подготовки узкоспециализированных учебных множеств данных и без риска переобучить или переусложнить алгоритм. Рассмотрены марковские процессы принятия решений, глубокие Q-сети, градиенты политик и их вычисление, методы устранения энтропии и многое другое. Данная книга – первая на русском языке, где теоретический базис RL и алгоритмы даны в прикладном, отраслевом ключе.
ПЕРВАЯ КНИГА на русском языке, где теоретический базис RL и алгоритмы даны в прикладном, отраслевом ключе!
Оригинальное название книги “Reinforcement Learning: Industrial Applications of Intelligent Agents 1st Edition”
На сайте поддержки книги Reinforcement Learning Book Supplementary Materials вы найдете дополнительные материалы от автора.
На обложке африканский пингвин (Spheniscus demersus). Четыре вида рода Spheniscus известны как полосатые пингвины из-за черной полосы, опоясывающей их тела. Пингвины живут колониями вдоль юго-западного побережья Африки, в основном на 24 островах, и лишь несколько колоний на материке. Вид занесён в Международную Красную книгу.
RL интересно тем, что позволяет изучить долгосрочные стратегии и применить их к сложным промышленным задачам. Как компании, так и специалисты-практики могут преследовать цели, которые напрямую связаны с бизнесом, такие как извлечение прибыли, наращивание количества пользователей и их удержание, а не технические показатели оценки, такие как точность или F-мера. Проще говоря, решение многих проблем зависит от последовательного принятия решений. ML не предназначено для решения этих проблем, RL — предназначено.
Кому следует прочитать эту книгу?
Цель этой книги — продвигать использование RL в производственных системах.
Если вы (сейчас или в будущем) создаете продукты в области RL, будь то исследования, разработки или прикладные вещи, то эта книга для вас. Это также означает, что я написал книгу, скорее, для практиков, чем для людей из академических кругов.

Фил Уиндер — междисциплинарный инженер, эксперт и автор онлайн-курсов на платформе O’Reilly. Возглавляет компанию Winder Research, оказывающую консультации в области науки о данных (data science) для облачно-ориентированных приложений. Компания помогает оптимизировать процессы, связанные с обработкой данных, а также обслуживает платформы и продукты, работающие в этой нише. Автор имеет степени PhD и MEng в электротехнике, полученные в Университете Халла.
-
Обучение с подкреплением для реальных задач
1213 ₽
1031 ₽
Отзывы………………………………………………………………………………………………….. 15
Об авторе……………………………………………………………………………………………….. 19
Предисловие…………………………………………………………………………………………… 21
Цель…………………………………………………………………………………………………………………………………………….. 21
Кому следует прочитать эту книгу?………………………………………………………………………………………… 22
Руководящие принципы и стиль……………………………………………………………………………………………….. 22
Предварительная подготовка…………………………………………………………………………………………………… 24
Объем и план………………………………………………………………………………………………………………………………. 24
Дополнительные материалы…………………………………………………………………………………………………….. 25
Условные обозначения, используемые в этой книге………………………………………………………………. 26
Аббревиатуры………………………………………………………………………………………………………………………. 26
Математические обозначения…………………………………………………………………………………………….. 27
Глава 1. Для чего нужно обучение с подкреплением?…………………………….. 29
Почему сейчас?………………………………………………………………………………………………………………………….. 30
Машинное обучение………………………………………………………………………………………………………………….. 31
Обучение с подкреплением……………………………………………………………………………………………………….. 32
Когда следует использовать обучение с подкреплением?……………………………………………….. 33
Варианты применения обучения с подкреплением…………………………………………………………… 35
Таксономия подходов обучения с подкреплением…………………………………………………………………. 37
Без модели или на основе модели………………………………………………………………………………………. 37
Как агенты используют и обновляют свою стратегию…………………………………………………….. 38
Дискретные или непрерывные действия…………………………………………………………………………….. 39
Методы оптимизации…………………………………………………………………………………………………………… 39
Оценка и улучшение политики……………………………………………………………………………………………. 40
Фундаментальные концепции обучения с подкреплением……………………………………………………. 41
Первый RL-алгоритм……………………………………………………………………………………………………………. 41
Оценка ценности……………………………………………………………………………………………………….. 42
Ошибка предсказания………………………………………………………………………………………………. 43
Правило обновления веса………………………………………………………………………………………… 43
RL — это то же самое, что ML?………………………………………………………………………………………….. 44
Награда и отклик…………………………………………………………………………………………………………………. 45
Отложенные награды……………………………………………………………………………………………….. 46
Ретроспектива……………………………………………………………………………………………………………. 46
Обучение с подкреплением как дисциплина…………………………………………………………………………… 47
Резюме…………………………………………………………………………………………………………………………………………. 49
Дополнительные материалы для чтения…………………………………………………………………………………. 49
Использованные источники………………………………………………………………………………………………………. 50
Глава 2. Марковские процессы принятия решений,
динамическое программирование и методы Монте-Карло……………………… 53
Алгоритм многорукого бандита……………………………………………………………………………………………….. 53
Разработка наград……………………………………………………………………………………………………………….. 53
Оценка стратегии: функция ценности………………………………………………………………………………… 54
Совершенствование политики: выбор лучшего действия………………………………………………… 57
Моделирование среды…………………………………………………………………………………………………………. 58
Запуск эксперимента……………………………………………………………………………………………………………. 59
Улучшение e-жадного алгоритма………………………………………………………………………………………. 61
Марковские процессы принятия решений……………………………………………………………………………….. 62
Контроль запасов…………………………………………………………………………………………………………………. 64
Таблица переходов…………………………………………………………………………………………………… 65
Граф переходов…………………………………………………………………………………………………………. 66
Матрица переходов………………………………………………………………………………………………….. 66
Симуляция управления запасами……………………………………………………………………………………….. 68
Политики и функции ценности………………………………………………………………………………………………….. 70
Дисконтированные вознаграждения………………………………………………………………………………….. 70
Прогнозирование вознаграждений с помощью функции ценности состояния……………….. 71
Моделирование с использованием функции ценности состояния……………………….. 73
Прогнозирование вознаграждений с помощью функции ценности действия…………………. 75
Оптимальные политики……………………………………………………………………………………………………….. 76
Генерирование политики Монте-Карло………………………………………………………………………………….. 78
Итерация по ценности с динамическим программированием……………………………………………….. 80
Реализация итерации по ценности……………………………………………………………………………………… 82
Результаты итерации по ценнности……………………………………………………………………………………. 84
Резюме…………………………………………………………………………………………………………………………………………. 85
Дополнительные материалы для чтения…………………………………………………………………………………. 86
Использованные источники………………………………………………………………………………………………………. 86
Глава 3. Обучение с учетом временных различий, Q-обучение
и n-шаговые алгоритмы…………………………………………………………………………. 87
Обучение с учетом временных различий: формулировка подхода………………………………………. 88
Q-обучение……………………………………………………………………………………………………………………………. 90
SARSA……………………………………………………………………………………………………………………………………. 92
Q-обучение против SARSA………………………………………………………………………………………………….. 93
Пример использования: автоматическое масштабирование контейнеров приложений для снижения затрат 96
Отраслевой пример: торги рекламы в режиме реального времени……………………………………….. 98
Определение марковского процесса принятия решения…………………………………………………… 98
Результаты торгов в режиме реального времени………………………………………………………………. 99
Дальнейшие улучшения…………………………………………………………………………………………………….. 101
Расширения для Q-обучения…………………………………………………………………………………………………… 102
Двойное Q-обучение………………………………………………………………………………………………………….. 102
Отложенное Q-обучение……………………………………………………………………………………………………. 103
Сравнение стандартного, двойного и отложенного Q-обучения…………………………………… 103
Обучение с подкреплением на основе противодействия………………………………………………… 104
n-Шаговые алгоритмы…………………………………………………………………………………………………………….. 105
n-Шаговые алгоритмы в распределенных средах………………………………………………………….. 108
Трассировки соответствия………………………………………………………………………………………………………. 109
Расширения для трассировки соответствия………………………………………………………………………….. 112
Алгоритм обучения Q(λ) Уоткинса…………………………………………………………………………………… 112
Нечеткие стирания в алгоритме обучения Q(λ) Уоткинса……………………………………………… 113
Быстрое Q-обучение………………………………………………………………………………………………………….. 113
Накопление или замена трассировок соответствия……………………………………………………….. 113
Резюме………………………………………………………………………………………………………………………………………. 114
Дополнительные материалы для чтения……………………………………………………………………………….. 114
Использованные источники……………………………………………………………………………………………………. 114
Глава 4. Глубокие Q-сети…………………………………………………………………….. 117
Архитектуры глубокого обучения…………………………………………………………………………………………. 118
Основные положения…………………………………………………………………………………………………………. 118
Архитектуры нейронных сетей…………………………………………………………………………………………. 119
Фреймворки глубокого обучения……………………………………………………………………………………… 120
Глубокое обучение с подкреплением………………………………………………………………………………. 121
Глубокое Q-обучение………………………………………………………………………………………………………………. 122
Воспроизведение опыта…………………………………………………………………………………………………….. 122
Клоны Q-сети……………………………………………………………………………………………………………………… 123
Архитектура нейронной сети……………………………………………………………………………………………. 123
Внедрение глубокой Q-сети………………………………………………………………………………………………. 124
Пример: глубокая Q-сеть в среде CartPole……………………………………………………………………….. 125
Зачем обучаться онлайн?………………………………………………………………………………………. 127
Что лучше? Глубока Q-сеть против Q-обучения………………………………………………….. 128
Практический пример: сокращение энергопотребления в зданиях………………………………. 128
Радужная DQN…………………………………………………………………………………………………………………………. 130
Распределительное RL………………………………………………………………………………………………………. 130
Воспроизведение приоритетного опыта………………………………………………………………………….. 132
Зашумленные сети……………………………………………………………………………………………………………… 133
Дуэльные сети…………………………………………………………………………………………………………………….. 133
Пример: радужная глубокая Q-сеть в Atari Games……………………………………………………………….. 134
Результаты………………………………………………………………………………………………………………………….. 134
Обсуждение………………………………………………………………………………………………………………………… 136
Другие улучшения глубокой Q-сети………………………………………………………………………………………. 138
Улучшение исследования………………………………………………………………………………………………….. 138
Повышение вознаграждения……………………………………………………………………………………………… 139
Обучение на основе автономных данных……………………………………………………………………….. 140
Резюме………………………………………………………………………………………………………………………………………. 142
Дополнительные материалы для чтения……………………………………………………………………………….. 143
Использованные источники……………………………………………………………………………………………………. 143
Глава 5. Методы градиента политики………………………………………………….. 145
Преимущества прямого изучения политики………………………………………………………………………….. 145
Как рассчитать градиент политики……………………………………………………………………………………….. 146
Теорема о градиенте политики………………………………………………………………………………………………. 147
Функции политики…………………………………………………………………………………………………………………… 149
Линейные политики……………………………………………………………………………………………………………. 150
Логистическая политика………………………………………………………………………………………… 150
Политика softmax…………………………………………………………………………………………………… 151
Произвольные политики……………………………………………………………………………………………………. 152
Основные реализации……………………………………………………………………………………………………………… 152
Метод Монте-Карло (алгоритм REINFORCE)………………………………………………………………… 153
Пример: алгоритм REINFORCE в среде CartPole…………………………………………………. 153
Алгоритм REINFORCE с базовыми показателями………………………………………………………….. 154
Пример: алгоритм REINFORCE с базовыми показателями в среде CartPole…….. 156
Уменьшение градиентной дисперсии……………………………………………………………………………….. 158
n-Шаговый и улучшенный алгоритмы “актор — критик”………………………………………………. 159
Пример: n-шаговый алгоритм “актор — критик” в среде CartPole……………………… 161
Темпы затухания ценностного обучения по сравнению с темпами
ослабления политики……………………………………………………………………………………………… 163
Трассировки соответствия алгоритма “актор — критик”………………………………………………. 164
Пример: трассировка соответствия требованиям алгоритма “актор — критик” в среде CartPole 165
Сравнение основных алгоритмов градиента политики………………………………………………….. 166
Отраслевой пример: автоматическая продажа товаров клиентам…………………………………….. 166
Рабочее окружение: корзина заказов, написанная при помощи библиотеки Gym……… 167
Ожидания……………………………………………………………………………………………………………………………. 168
Результаты из среды “Корзина покупок”…………………………………………………………………………. 169
Резюме………………………………………………………………………………………………………………………………………. 172
Дополнительные материалы для чтения……………………………………………………………………………….. 173
Использованные источники……………………………………………………………………………………………………. 173
Глава 6. Другие методы………………………………………………………………………… 175
Алгоритмы, действующие вне политик………………………………………………………………………………….. 175
Выборка по значимости…………………………………………………………………………………………………….. 176
Поведенческие и целевые политики…………………………………………………………………………………. 178
Q-обучение, действующее вне политики………………………………………………………………………….. 178
Градиентное обучение с учетом временных различий………………………………………………….. 179
Жадный GQ-алгоритм……………………………………………………………………………………………………….. 180
Алгоритм “актор — критик” вне политики………………………………………………………………………. 181
Детерминированные градиенты политики……………………………………………………………………………. 182
Обычные детерминированные градиенты политики………………………………………………………. 182
Глубокие детерминированные градиенты политики……………………………………………………… 184
Вывод DDPG……………………………………………………………………………………………………………. 184
Внедрение DSP………………………………………………………………………………………………………… 185
Дважды отложенный DPG…………………………………………………………………………………………………. 188
Отложенные обновления политики……………………………………………………………………….. 188
Ограниченное двойное Q-обучение………………………………………………………………………. 189
Сглаживание целевой политики……………………………………………………………………………. 189
Реализация TD3………………………………………………………………………………………………………. 190
Практический пример: рекомендации на основе отзывов……………………………………………… 192
Улучшения DPG………………………………………………………………………………………………………………….. 193
Методы доверительной области……………………………………………………………………………………………. 194
Дивергенция Кульбака — Лейблера………………………………………………………………………………… 196
Эксперименты по дивергенции Кульбака — Лейблера………………………………………. 196
Естественные градиенты политики и оптимизация политики
доверительной области……………………………………………………………………………………………………… 197
Проксимальная оптимизация политики…………………………………………………………………………… 200
Усеченная цель PPO………………………………………………………………………………………………… 201
Ценностная функция PPO и цели разведки……………………………………………………………. 203
Пример: использование сервоприводов для Real-Life Reacher……………………………………………. 205
Описание эксперимента…………………………………………………………………………………………………….. 205
Реализация алгоритма RL…………………………………………………………………………………………………. 206
Повышение сложности алгоритма……………………………………………………………………………………. 208
Настройка гиперпараметров в моделировании………………………………………………………………. 209
Результирующие политики……………………………………………………………………………………………….. 210
Другие алгоритмы градиента политики………………………………………………………………………………… 212
Алгоритм Retrace (λ)…………………………………………………………………………………………………………… 212
Алгоритм ACER………………………………………………………………………………………………………………….. 212
Алгоритм ACKTR……………………………………………………………………………………………………………….. 213
Эмпатические методы……………………………………………………………………………………………………….. 214
Расширения для алгоритмов градиента политики……………………………………………………………….. 214
Квантильная регрессия в алгоритмах градиента политики…………………………………………… 215
Резюме………………………………………………………………………………………………………………………………………. 215
Какой алгоритм следует использовать?………………………………………………………………………….. 215
Замечание об асинхронных методах……………………………………………………………………………….. 216
Дополнительные материалы для чтения……………………………………………………………………………….. 216
Использованные источники……………………………………………………………………………………………………. 217
Глава 7. Изучение всех возможных политик
с помощью энтропийных методов………………………………………………………… 221
Что такое энтропия?………………………………………………………………………………………………………………… 221
Максимальная энтропия обучения с подкреплением…………………………………………………………… 222
Мягкий “актор — критик”……………………………………………………………………………………………………….. 223
Детали реализации SAC и дискретные пространства действий……………………………………. 224
Автоматическая регулировка температуры……………………………………………………………………. 224
Практический пример: автоматическое управление трафиком
для сокращения очередей………………………………………………………………………………………………….. 225
Расширения методов максимальной энтропии……………………………………………………………………… 226
Другие меры энтропии (и ансамбли)………………………………………………………………………………… 226
Оптимистичное исследование с использованием верхней границы
двойного Q-обучения…………………………………………………………………………………………………………. 227
Играем с воспроизведением опыта…………………………………………………………………………………… 227
Мягкий градиент политики……………………………………………………………………………………………….. 227
Мягкое Q-обучение (и производные)………………………………………………………………………………… 228
Обучение согласованности пути………………………………………………………………………………………. 228
Сравнение производительности: SAC против PPO……………………………………………………………….. 228
Как энтропия способствует исследованиям?………………………………………………………………………… 230
Как температурный параметр влияет на исследование?……………………………………………….. 233
Отраслевой пример: обучение вождению автомобиля с дистанционным управлением….. 235
Описание задачи………………………………………………………………………………………………………………… 235
Минимизация времени обучения………………………………………………………………………………………. 236
Выразительные действия…………………………………………………………………………………………………… 238
Поиск гиперпараметров…………………………………………………………………………………………………….. 239
Финальная политика………………………………………………………………………………………………………….. 240
Дальнейшие улучшения…………………………………………………………………………………………………….. 240
Резюме………………………………………………………………………………………………………………………………………. 241
Эквивалентность градиентов политики и мягкого Q-обучения……………………………………… 242
Что это означает для будущего?………………………………………………………………………………………. 242
Что это значит сейчас?………………………………………………………………………………………………………. 242
Использованные источники……………………………………………………………………………………………………. 243
Глава 8. Улучшение процесса обучения агента……………………………………. 245
Переосмысление марковских процессов принятия решений……………………………………………….. 246
Частично наблюдаемый марковский процесс принятия решений………………………………… 246
Предсказание доверительного состояния…………………………………………………………….. 247
Практический пример: POMDP в автономных транспортных средствах…………………….. 248
Контекстные MDP………………………………………………………………………………………………………………. 249
MDP с изменяющимися действиями………………………………………………………………………………….. 249
Регуляризованные MDP…………………………………………………………………………………………………….. 250
Иерархическое обучение с подкреплением…………………………………………………………………………… 250
Наивный HRL…………………………………………………………………………………………………………………….. 251
Высокоуровневые и низкоуровневые иерархии с внутренними наградами…………………. 252
Навыки обучения и неконтролируемое RL……………………………………………………………………… 254
Использование навыков в HRL…………………………………………………………………………………………. 255
Выводы HRL………………………………………………………………………………………………………………………. 255
Мультиагентное обучение с подкреплением………………………………………………………………………… 256
Фреймворки MARL…………………………………………………………………………………………………………….. 257
Централизованное или децентрализованное………………………………………………………………….. 259
Алгоритмы с одним агентом……………………………………………………………………………………………… 260
Практический пример: использование децентрализованного обучения
с одним агентом в беспилотном летательном аппарате………………………………………………… 261
Централизованное обучение, децентрализованное выполнение………………………………….. 262
Децентрализованное обучение…………………………………………………………………………………………. 263
Другие комбинации……………………………………………………………………………………………………………. 264
Проблемы MARL……………………………………………………………………………………………………………….. 265
Выводы о MARL………………………………………………………………………………………………………………… 266
Экспертное руководство…………………………………………………………………………………………………………. 267
Клонирование поведения………………………………………………………………………………………………….. 267
Имитационное RL………………………………………………………………………………………………………………. 267
Обратное RL……………………………………………………………………………………………………………………….. 268
Обучение по учебной программе……………………………………………………………………………………… 270
Другие парадигмы…………………………………………………………………………………………………………………… 271
Метаобучение…………………………………………………………………………………………………………………….. 271
Трансферное обучение………………………………………………………………………………………………………. 272
Резюме………………………………………………………………………………………………………………………………………. 273
Дополнительные материалы для чтения……………………………………………………………………………….. 274
Использованные источники……………………………………………………………………………………………………. 275
Глава 9. Практическое обучение с подкреплением………………………………. 279
Жизненный цикл проекта RL………………………………………………………………………………………………….. 279
Определение жизненного цикла……………………………………………………………………………………….. 281
Жизненный цикл науки о данных………………………………………………………………………….. 281
Жизненный цикл обучения с подкреплением……………………………………………………….. 282
Определение проблемы: что такое проект RL?…………………………………………………………………….. 284
Проблемы с RL являются последовательными……………………………………………………………….. 284
Проблемы RL имеют стратегический характер………………………………………………………………. 285
Низкоуровневые индикаторы RL……………………………………………………………………………………… 286
Сущность…………………………………………………………………………………………………………………. 286
Среда……………………………………………………………………………………………………………………….. 286
Состояние………………………………………………………………………………………………………………… 287
Действие…………………………………………………………………………………………………………………… 287
Количественная оценка успеха или неудачи………………………………………………………. 287
Типы обучения……………………………………………………………………………………………………………………. 288
Онлайн-обучение……………………………………………………………………………………………………. 288
Автономное или пакетное обучение……………………………………………………………………… 288
Параллельное обучение…………………………………………………………………………………………. 290
Обучение без сброса………………………………………………………………………………………………. 291
Проектирование и доработка RL…………………………………………………………………………………………… 292
Процесс……………………………………………………………………………………………………………………………….. 293
Инженерия среды……………………………………………………………………………………………………………….. 293
Реализация………………………………………………………………………………………………………………. 294
Моделирование………………………………………………………………………………………………………. 294
Взаимодействие с реальной жизнью…………………………………………………………………….. 295
Инжиниринг состояния или обучение представлениям………………………………………………….. 296
Перспективные модели обучения………………………………………………………………………….. 297
Ограничения……………………………………………………………………………………………………………. 297
Преобразование (уменьшение размерности, автоэнкодеры и модели мира)……. 298
Разработка политики…………………………………………………………………………………………………………. 299
Дискретные состояния……………………………………………………………………………………………. 300
Непрерывные состояния………………………………………………………………………………………… 301
Преобразование в дискретные состояния…………………………………………………………….. 303
Пространства смешанных состояний…………………………………………………………………… 304
Сопоставление политик с пространствами действий…………………………………………………….. 305
Бинарные действия…………………………………………………………………………………………………. 305
Непрерывные действия…………………………………………………………………………………………… 306
Гибридные пространства действий………………………………………………………………………. 306
Когда выполнять действия…………………………………………………………………………………….. 307
Обширные пространства действий……………………………………………………………………….. 307
Исследование……………………………………………………………………………………………………………………… 308
Является ли внутренняя мотивация исследованием?………………………………………….. 309
Количество посещений (выборка)…………………………………………………………………………. 310
Прирост информации (сюрприз)……………………………………………………………………………. 310
Прогноз состояния (любопытство или саморефлексия)………………………………………. 311
Любопытные задачки…………………………………………………………………………………………….. 311
Случайные вложения (сети случайной дистилляции)…………………………………………. 312
Расстояние до новизны (эпизодическое любопытство)………………………………………. 313
Выводы по разведке……………………………………………………………………………………………….. 313
Разработка вознаграждений……………………………………………………………………………………………… 314
Рекомендации по разработке вознаграждений……………………………………………………. 315
Формирование вознаграждения…………………………………………………………………………….. 316
Общие награды……………………………………………………………………………………………………….. 317
Выводы о вознаграждении…………………………………………………………………………………….. 318
Резюме………………………………………………………………………………………………………………………………………. 318
Дополнительные материалы для чтения……………………………………………………………………………….. 319
Использованные источники……………………………………………………………………………………………………. 320
Глава 10. Этапы в обучении с подкреплением……………………………………… 325
Реализация……………………………………………………………………………………………………………………………….. 325
Фреймворки………………………………………………………………………………………………………………………… 326
Фреймворки RL……………………………………………………………………………………………………….. 326
Другие фреймворки…………………………………………………………………………………………………. 328
Масштабирование RL……………………………………………………………………………………………………….. 329
Распределенное обучение (Gorila)…………………………………………………………………………. 330
Обучение на одной машине (A3C, PAAC)…………………………………………………………….. 331
Распределенное воспроизведение (Ape-X)……………………………………………………………. 333
Синхронное распределение (DD-PPO)………………………………………………………………….. 333
Повышение эффективности использования (IMPALA, SEED)…………………………….. 334
Масштабирование сделанных выводов……………………………………………………………….. 336
Оценка…………………………………………………………………………………………………………………………………. 337
Показатели эффективности политики…………………………………………………………………… 338
Статистические сравнения политик……………………………………………………………………… 340
Показатели производительности алгоритма……………………………………………………….. 343
Измерения производительности для конкретных задач……………………………………… 343
Объяснимость………………………………………………………………………………………………………….. 344
Выводы оценки……………………………………………………………………………………………………….. 345
Развертывание………………………………………………………………………………………………………………………….. 346
Цели…………………………………………………………………………………………………………………………………….. 346
Цели на разных этапах развития…………………………………………………………………………… 346
Лучшие практики……………………………………………………………………………………………………. 347
Иерархия потребностей…………………………………………………………………………………………. 348
Архитектура……………………………………………………………………………………………………………………….. 349
Вспомогательные инструменты……………………………………………………………………………………….. 351
Разработка против покупки…………………………………………………………………………………… 352
Мониторинг…………………………………………………………………………………………………………….. 352
Регистрация и отслеживание…………………………………………………………………………………. 353
Непрерывная интеграция и непрерывная доставка…………………………………………….. 353
Отслеживание экспериментов……………………………………………………………………………….. 354
Настройка гиперпараметров…………………………………………………………………………………. 355
Развертывание нескольких агентов………………………………………………………………………. 355
Развертывание политик………………………………………………………………………………………….. 356
Безопасность, защита и этика…………………………………………………………………………………………… 357
Безопасное RL…………………………………………………………………………………………………………. 357
Защитное RL……………………………………………………………………………………………………………. 359
Этическое RL…………………………………………………………………………………………………………… 361
Резюме………………………………………………………………………………………………………………………………………. 363
Дополнительные материалы для чтения……………………………………………………………………………….. 364
Использованные источники……………………………………………………………………………………………………. 365
Глава 11. Выводы и будущее……………………………………………………………….. 369
Советы и рекомендации………………………………………………………………………………………………………….. 369
Формулирование задачи…………………………………………………………………………………………………… 369
Ваши данные………………………………………………………………………………………………………………………. 370
Тренировка…………………………………………………………………………………………………………………………. 371
Оценка…………………………………………………………………………………………………………………………………. 372
Развертывание……………………………………………………………………………………………………………………. 373
Отладка…………………………………………………………………………………………………………………………………….. 373
Алгоритм не может решить проблемы среды!…………………………………………………………………. 375
Мониторинг для отладки…………………………………………………………………………………………………… 376
Будущее обучения с подкреплением……………………………………………………………………………………… 377
Рыночные возможности RL……………………………………………………………………………………………….. 377
Будущее RL и направления исследований………………………………………………………………………. 379
Исследования в промышленности…………………………………………………………………………. 379
Исследования в науке…………………………………………………………………………………………….. 381
Этические стандарты……………………………………………………………………………………………… 383
Заключительные замечания……………………………………………………………………………………………………. 384
Дальнейшие шаги………………………………………………………………………………………………………………. 384
Теперь ваша очередь…………………………………………………………………………………………………………. 385
Дополнительные материалы для чтения……………………………………………………………………………….. 385
Использованные источники……………………………………………………………………………………………………. 386
Приложение 1. Градиент логистической политики для двух действий…. 389
Приложение 2. Градиент политики softmax………………………………………….. 393
Предметный указатель…………………………………………………………………………. 395
-
Обучение с подкреплением для реальных задач
1213 ₽
1031 ₽