Опубликовано

Вышла книга “Обучение с подкреплением для реальных задач”

Обучение с подкреплением для реальных задач

В нашем издательстве вышла книга Фила Уиндера “Обучение с подкреплением для реальных задач“.

Книга посвящена промышленно-ориентированному применению обучения с подкреплением (Reinforcement Learning, RL). Объяснено, как обучать промышленные и научные системы решению любых пошаговых задач методом проб и ошибок – без  подготовки узкоспециализированных учебных множеств данных и без риска переобучить или переусложнить алгоритм. Рассмотрены марковские процессы принятия решений, глубокие Q-сети, градиенты политик и их вычисление, методы устранения энтропии и многое другое. Данная  книга – первая на русском языке, где теоретический базис RL и  алгоритмы даны  в  прикладном, отраслевом ключе.

ПЕРВАЯ КНИГА на русском языке, где теоретический базис RL и  алгоритмы даны  в  прикладном, отраслевом ключе!

Оригинальное название книги “Reinforcement Learning: Industrial Applications of Intelligent Agents 1st Edition”

На сайте поддержки книги Reinforcement Learning Book Supplementary Materials вы найдете дополнительные материалы от автора.

На обложке африканский пингвин (Spheniscus demersus). Четыре вида рода Spheniscus известны как полосатые пингвины из-за черной полосы, опоясывающей их тела.  Пингвины живут колониями вдоль юго-западного побережья Африки, в основном на 24 островах, и лишь несколько колоний на материке. Вид занесён в Международную Красную книгу.

RL интересно тем, что позволяет изучить долгосрочные стратегии и применить их к сложным промышленным задачам. Как компании, так и специалисты-практики могут преследовать цели, которые напрямую связаны с бизнесом, такие как извлечение прибыли, наращивание количества пользователей и их удержание, а не технические показатели оценки, такие как точность или F-мера. Проще говоря, решение многих проблем зависит от последовательного принятия решений. ML не предназначено для решения этих проблем, RL — предназначено.

Кому следует прочитать эту книгу?

Цель этой книги — продвигать использование RL в производственных системах.
Если вы (сейчас или в будущем) создаете продукты в области RL, будь то исследования, разработки или прикладные вещи, то эта книга для вас. Это также означает, что я написал книгу, скорее, для практиков, чем для людей из академических кругов.

Phil Winder

Фил Уиндер — междисциплинарный инженер, эксперт и автор онлайн-курсов на платформе O’Reilly. Возглавляет компанию Winder Research, оказывающую консультации в области науки о данных (data science) для облачно-ориентированных приложений. Компания помогает оптимизировать процессы, связанные с обработкой данных, а также обслуживает платформы и продукты, работающие в этой нише. Автор имеет степени PhD и MEng в электротехнике, полученные в Университете Халла.

Книгу “Обучение с подкреплением для реальных задач” можно купить со скидкой в интернет-магазине издательства “БХВ”.

Отзывы………………………………………………………………………………………………….. 15

Об авторе……………………………………………………………………………………………….. 19

Предисловие…………………………………………………………………………………………… 21

Цель…………………………………………………………………………………………………………………………………………….. 21

Кому следует прочитать эту книгу?………………………………………………………………………………………… 22

Руководящие принципы и стиль……………………………………………………………………………………………….. 22

Предварительная подготовка…………………………………………………………………………………………………… 24

Объем и план………………………………………………………………………………………………………………………………. 24

Дополнительные материалы…………………………………………………………………………………………………….. 25

Условные обозначения, используемые в этой книге………………………………………………………………. 26

Аббревиатуры………………………………………………………………………………………………………………………. 26

Математические обозначения…………………………………………………………………………………………….. 27

Глава 1. Для чего нужно обучение с подкреплением?…………………………….. 29

Почему сейчас?………………………………………………………………………………………………………………………….. 30

Машинное обучение………………………………………………………………………………………………………………….. 31

Обучение с подкреплением……………………………………………………………………………………………………….. 32

Когда следует использовать обучение с подкреплением?……………………………………………….. 33

Варианты применения обучения с подкреплением…………………………………………………………… 35

Таксономия подходов обучения с подкреплением…………………………………………………………………. 37

Без модели или на основе модели………………………………………………………………………………………. 37

Как агенты используют и обновляют свою стратегию…………………………………………………….. 38

Дискретные или непрерывные действия…………………………………………………………………………….. 39

Методы оптимизации…………………………………………………………………………………………………………… 39

Оценка и улучшение политики……………………………………………………………………………………………. 40

Фундаментальные концепции обучения с подкреплением……………………………………………………. 41

Первый RL-алгоритм……………………………………………………………………………………………………………. 41

Оценка ценности……………………………………………………………………………………………………….. 42

Ошибка предсказания………………………………………………………………………………………………. 43

Правило обновления веса………………………………………………………………………………………… 43

RL — это то же самое, что ML?………………………………………………………………………………………….. 44

Награда и отклик…………………………………………………………………………………………………………………. 45

Отложенные награды……………………………………………………………………………………………….. 46

Ретроспектива……………………………………………………………………………………………………………. 46

Обучение с подкреплением как дисциплина…………………………………………………………………………… 47

Резюме…………………………………………………………………………………………………………………………………………. 49

Дополнительные материалы для чтения…………………………………………………………………………………. 49

Использованные источники………………………………………………………………………………………………………. 50

Глава 2. Марковские процессы принятия решений,
динамическое программирование и методы Монте-Карло……………………… 53

Алгоритм многорукого бандита……………………………………………………………………………………………….. 53

Разработка наград……………………………………………………………………………………………………………….. 53

Оценка стратегии: функция ценности………………………………………………………………………………… 54

Совершенствование политики: выбор лучшего действия………………………………………………… 57

Моделирование среды…………………………………………………………………………………………………………. 58

Запуск эксперимента……………………………………………………………………………………………………………. 59

Улучшение e-жадного алгоритма………………………………………………………………………………………. 61

Марковские процессы принятия решений……………………………………………………………………………….. 62

Контроль запасов…………………………………………………………………………………………………………………. 64

Таблица переходов…………………………………………………………………………………………………… 65

Граф переходов…………………………………………………………………………………………………………. 66

Матрица переходов………………………………………………………………………………………………….. 66

Симуляция управления запасами……………………………………………………………………………………….. 68

Политики и функции ценности………………………………………………………………………………………………….. 70

Дисконтированные вознаграждения………………………………………………………………………………….. 70

Прогнозирование вознаграждений с помощью функции ценности состояния……………….. 71

Моделирование с использованием функции ценности состояния……………………….. 73

Прогнозирование вознаграждений с помощью функции ценности действия…………………. 75

Оптимальные политики……………………………………………………………………………………………………….. 76

Генерирование политики Монте-Карло………………………………………………………………………………….. 78

Итерация по ценности с динамическим программированием……………………………………………….. 80

Реализация итерации по ценности……………………………………………………………………………………… 82

Результаты итерации по ценнности……………………………………………………………………………………. 84

Резюме…………………………………………………………………………………………………………………………………………. 85

Дополнительные материалы для чтения…………………………………………………………………………………. 86

Использованные источники………………………………………………………………………………………………………. 86

Глава 3. Обучение с учетом временных различий, Q-обучение
и n-шаговые алгоритмы…………………………………………………………………………. 87

Обучение с учетом временных различий: формулировка подхода………………………………………. 88

Q-обучение……………………………………………………………………………………………………………………………. 90

SARSA……………………………………………………………………………………………………………………………………. 92

Q-обучение против SARSA………………………………………………………………………………………………….. 93

Пример использования: автоматическое масштабирование контейнеров приложений для снижения затрат          96

Отраслевой пример: торги рекламы в режиме реального времени……………………………………….. 98

Определение марковского процесса принятия решения…………………………………………………… 98

Результаты торгов в режиме реального времени………………………………………………………………. 99

Дальнейшие улучшения…………………………………………………………………………………………………….. 101

Расширения для Q-обучения…………………………………………………………………………………………………… 102

Двойное Q-обучение………………………………………………………………………………………………………….. 102

Отложенное Q-обучение……………………………………………………………………………………………………. 103

Сравнение стандартного, двойного и отложенного Q-обучения…………………………………… 103

Обучение с подкреплением на основе противодействия………………………………………………… 104

n-Шаговые алгоритмы…………………………………………………………………………………………………………….. 105

n-Шаговые алгоритмы в распределенных средах………………………………………………………….. 108

Трассировки соответствия………………………………………………………………………………………………………. 109

Расширения для трассировки соответствия………………………………………………………………………….. 112

Алгоритм обучения Q(λ) Уоткинса…………………………………………………………………………………… 112

Нечеткие стирания в алгоритме обучения Q(λ) Уоткинса……………………………………………… 113

Быстрое Q-обучение………………………………………………………………………………………………………….. 113

Накопление или замена трассировок соответствия……………………………………………………….. 113

Резюме………………………………………………………………………………………………………………………………………. 114

Дополнительные материалы для чтения……………………………………………………………………………….. 114

Использованные источники……………………………………………………………………………………………………. 114

Глава 4. Глубокие Q-сети…………………………………………………………………….. 117

Архитектуры глубокого обучения…………………………………………………………………………………………. 118

Основные положения…………………………………………………………………………………………………………. 118

Архитектуры нейронных сетей…………………………………………………………………………………………. 119

Фреймворки глубокого обучения……………………………………………………………………………………… 120

Глубокое обучение с подкреплением………………………………………………………………………………. 121

Глубокое Q-обучение………………………………………………………………………………………………………………. 122

Воспроизведение опыта…………………………………………………………………………………………………….. 122

Клоны Q-сети……………………………………………………………………………………………………………………… 123

Архитектура нейронной сети……………………………………………………………………………………………. 123

Внедрение глубокой Q-сети………………………………………………………………………………………………. 124

Пример: глубокая Q-сеть в среде CartPole……………………………………………………………………….. 125

Зачем обучаться онлайн?………………………………………………………………………………………. 127

Что лучше? Глубока Q-сеть против Q-обучения………………………………………………….. 128

Практический пример: сокращение энергопотребления в зданиях………………………………. 128

Радужная DQN…………………………………………………………………………………………………………………………. 130

Распределительное RL………………………………………………………………………………………………………. 130

Воспроизведение приоритетного опыта………………………………………………………………………….. 132

Зашумленные сети……………………………………………………………………………………………………………… 133

Дуэльные сети…………………………………………………………………………………………………………………….. 133

Пример: радужная глубокая Q-сеть в Atari Games……………………………………………………………….. 134

Результаты………………………………………………………………………………………………………………………….. 134

Обсуждение………………………………………………………………………………………………………………………… 136

Другие улучшения глубокой Q-сети………………………………………………………………………………………. 138

Улучшение исследования………………………………………………………………………………………………….. 138

Повышение вознаграждения……………………………………………………………………………………………… 139

Обучение на основе автономных данных……………………………………………………………………….. 140

Резюме………………………………………………………………………………………………………………………………………. 142

Дополнительные материалы для чтения……………………………………………………………………………….. 143

Использованные источники……………………………………………………………………………………………………. 143

Глава 5. Методы градиента политики………………………………………………….. 145

Преимущества прямого изучения политики………………………………………………………………………….. 145

Как рассчитать градиент политики……………………………………………………………………………………….. 146

Теорема о градиенте политики………………………………………………………………………………………………. 147

Функции политики…………………………………………………………………………………………………………………… 149

Линейные политики……………………………………………………………………………………………………………. 150

Логистическая политика………………………………………………………………………………………… 150

Политика softmax…………………………………………………………………………………………………… 151

Произвольные политики……………………………………………………………………………………………………. 152

Основные реализации……………………………………………………………………………………………………………… 152

Метод Монте-Карло (алгоритм REINFORCE)………………………………………………………………… 153

Пример: алгоритм REINFORCE в среде CartPole…………………………………………………. 153

Алгоритм REINFORCE с базовыми показателями………………………………………………………….. 154

Пример: алгоритм REINFORCE с базовыми показателями в среде CartPole…….. 156

Уменьшение градиентной дисперсии……………………………………………………………………………….. 158

n-Шаговый и улучшенный алгоритмы “актор — критик”………………………………………………. 159

Пример: n-шаговый алгоритм “актор — критик” в среде CartPole……………………… 161

Темпы затухания ценностного обучения по сравнению с темпами
ослабления политики……………………………………………………………………………………………… 163

Трассировки соответствия алгоритма “актор — критик”………………………………………………. 164

Пример: трассировка соответствия требованиям алгоритма “актор — критик” в среде CartPole     165

Сравнение основных алгоритмов градиента политики………………………………………………….. 166

Отраслевой пример: автоматическая продажа товаров клиентам…………………………………….. 166

Рабочее окружение: корзина заказов, написанная при помощи библиотеки Gym……… 167

Ожидания……………………………………………………………………………………………………………………………. 168

Результаты из среды “Корзина покупок”…………………………………………………………………………. 169

Резюме………………………………………………………………………………………………………………………………………. 172

Дополнительные материалы для чтения……………………………………………………………………………….. 173

Использованные источники……………………………………………………………………………………………………. 173

Глава 6. Другие методы………………………………………………………………………… 175

Алгоритмы, действующие вне политик………………………………………………………………………………….. 175

Выборка по значимости…………………………………………………………………………………………………….. 176

Поведенческие и целевые политики…………………………………………………………………………………. 178

Q-обучение, действующее вне политики………………………………………………………………………….. 178

Градиентное обучение с учетом временных различий………………………………………………….. 179

Жадный GQ-алгоритм……………………………………………………………………………………………………….. 180

Алгоритм “актор — критик” вне политики………………………………………………………………………. 181

Детерминированные градиенты политики……………………………………………………………………………. 182

Обычные детерминированные градиенты политики………………………………………………………. 182

Глубокие детерминированные градиенты политики……………………………………………………… 184

Вывод DDPG……………………………………………………………………………………………………………. 184

Внедрение DSP………………………………………………………………………………………………………… 185

Дважды отложенный DPG…………………………………………………………………………………………………. 188

Отложенные обновления политики……………………………………………………………………….. 188

Ограниченное двойное Q-обучение………………………………………………………………………. 189

Сглаживание целевой политики……………………………………………………………………………. 189

Реализация TD3………………………………………………………………………………………………………. 190

Практический пример: рекомендации на основе отзывов……………………………………………… 192

Улучшения DPG………………………………………………………………………………………………………………….. 193

Методы доверительной области……………………………………………………………………………………………. 194

Дивергенция Кульбака — Лейблера………………………………………………………………………………… 196

Эксперименты по дивергенции Кульбака — Лейблера………………………………………. 196

Естественные градиенты политики и оптимизация политики
доверительной области……………………………………………………………………………………………………… 197

Проксимальная оптимизация политики…………………………………………………………………………… 200

Усеченная цель PPO………………………………………………………………………………………………… 201

Ценностная функция PPO и цели разведки……………………………………………………………. 203

Пример: использование сервоприводов для Real-Life Reacher……………………………………………. 205

Описание эксперимента…………………………………………………………………………………………………….. 205

Реализация алгоритма RL…………………………………………………………………………………………………. 206

Повышение сложности алгоритма……………………………………………………………………………………. 208

Настройка гиперпараметров в моделировании………………………………………………………………. 209

Результирующие политики……………………………………………………………………………………………….. 210

Другие алгоритмы градиента политики………………………………………………………………………………… 212

Алгоритм Retrace (λ)…………………………………………………………………………………………………………… 212

Алгоритм ACER………………………………………………………………………………………………………………….. 212

Алгоритм ACKTR……………………………………………………………………………………………………………….. 213

Эмпатические методы……………………………………………………………………………………………………….. 214

Расширения для алгоритмов градиента политики……………………………………………………………….. 214

Квантильная регрессия в алгоритмах градиента политики…………………………………………… 215

Резюме………………………………………………………………………………………………………………………………………. 215

Какой алгоритм следует использовать?………………………………………………………………………….. 215

Замечание об асинхронных методах……………………………………………………………………………….. 216

Дополнительные материалы для чтения……………………………………………………………………………….. 216

Использованные источники……………………………………………………………………………………………………. 217

Глава 7. Изучение всех возможных политик
с помощью энтропийных методов………………………………………………………… 221

Что такое энтропия?………………………………………………………………………………………………………………… 221

Максимальная энтропия обучения с подкреплением…………………………………………………………… 222

Мягкий “актор — критик”……………………………………………………………………………………………………….. 223

Детали реализации SAC и дискретные пространства действий……………………………………. 224

Автоматическая регулировка температуры……………………………………………………………………. 224

Практический пример: автоматическое управление трафиком
для сокращения очередей………………………………………………………………………………………………….. 225

Расширения методов максимальной энтропии……………………………………………………………………… 226

Другие меры энтропии (и ансамбли)………………………………………………………………………………… 226

Оптимистичное исследование с использованием верхней границы
двойного Q-обучения…………………………………………………………………………………………………………. 227

Играем с воспроизведением опыта…………………………………………………………………………………… 227

Мягкий градиент политики……………………………………………………………………………………………….. 227

Мягкое Q-обучение (и производные)………………………………………………………………………………… 228

Обучение согласованности пути………………………………………………………………………………………. 228

Сравнение производительности: SAC против PPO……………………………………………………………….. 228

Как энтропия способствует исследованиям?………………………………………………………………………… 230

Как температурный параметр влияет на исследование?……………………………………………….. 233

Отраслевой пример: обучение вождению автомобиля с дистанционным управлением….. 235

Описание задачи………………………………………………………………………………………………………………… 235

Минимизация времени обучения………………………………………………………………………………………. 236

Выразительные действия…………………………………………………………………………………………………… 238

Поиск гиперпараметров…………………………………………………………………………………………………….. 239

Финальная политика………………………………………………………………………………………………………….. 240

Дальнейшие улучшения…………………………………………………………………………………………………….. 240

Резюме………………………………………………………………………………………………………………………………………. 241

Эквивалентность градиентов политики и мягкого Q-обучения……………………………………… 242

Что это означает для будущего?………………………………………………………………………………………. 242

Что это значит сейчас?………………………………………………………………………………………………………. 242

Использованные источники……………………………………………………………………………………………………. 243

Глава 8. Улучшение процесса обучения агента……………………………………. 245

Переосмысление марковских процессов принятия решений……………………………………………….. 246

Частично наблюдаемый марковский процесс принятия решений………………………………… 246

Предсказание доверительного состояния…………………………………………………………….. 247

Практический пример: POMDP в автономных транспортных средствах…………………….. 248

Контекстные MDP………………………………………………………………………………………………………………. 249

MDP с изменяющимися действиями………………………………………………………………………………….. 249

Регуляризованные MDP…………………………………………………………………………………………………….. 250

Иерархическое обучение с подкреплением…………………………………………………………………………… 250

Наивный HRL…………………………………………………………………………………………………………………….. 251

Высокоуровневые и низкоуровневые иерархии с внутренними наградами…………………. 252

Навыки обучения и неконтролируемое RL……………………………………………………………………… 254

Использование навыков в HRL…………………………………………………………………………………………. 255

Выводы HRL………………………………………………………………………………………………………………………. 255

Мультиагентное обучение с подкреплением………………………………………………………………………… 256

Фреймворки MARL…………………………………………………………………………………………………………….. 257

Централизованное или децентрализованное………………………………………………………………….. 259

Алгоритмы с одним агентом……………………………………………………………………………………………… 260

Практический пример: использование децентрализованного обучения
с одним агентом в беспилотном летательном аппарате………………………………………………… 261

Централизованное обучение, децентрализованное выполнение………………………………….. 262

Децентрализованное обучение…………………………………………………………………………………………. 263

Другие комбинации……………………………………………………………………………………………………………. 264

Проблемы MARL……………………………………………………………………………………………………………….. 265

Выводы о MARL………………………………………………………………………………………………………………… 266

Экспертное руководство…………………………………………………………………………………………………………. 267

Клонирование поведения………………………………………………………………………………………………….. 267

Имитационное RL………………………………………………………………………………………………………………. 267

Обратное RL……………………………………………………………………………………………………………………….. 268

Обучение по учебной программе……………………………………………………………………………………… 270

Другие парадигмы…………………………………………………………………………………………………………………… 271

Метаобучение…………………………………………………………………………………………………………………….. 271

Трансферное обучение………………………………………………………………………………………………………. 272

Резюме………………………………………………………………………………………………………………………………………. 273

Дополнительные материалы для чтения……………………………………………………………………………….. 274

Использованные источники……………………………………………………………………………………………………. 275

Глава 9. Практическое обучение с подкреплением………………………………. 279

Жизненный цикл проекта RL………………………………………………………………………………………………….. 279

Определение жизненного цикла……………………………………………………………………………………….. 281

Жизненный цикл науки о данных………………………………………………………………………….. 281

Жизненный цикл обучения с подкреплением……………………………………………………….. 282

Определение проблемы: что такое проект RL?…………………………………………………………………….. 284

Проблемы с RL являются последовательными……………………………………………………………….. 284

Проблемы RL имеют стратегический характер………………………………………………………………. 285

Низкоуровневые индикаторы RL……………………………………………………………………………………… 286

Сущность…………………………………………………………………………………………………………………. 286

Среда……………………………………………………………………………………………………………………….. 286

Состояние………………………………………………………………………………………………………………… 287

Действие…………………………………………………………………………………………………………………… 287

Количественная оценка успеха или неудачи………………………………………………………. 287

Типы обучения……………………………………………………………………………………………………………………. 288

Онлайн-обучение……………………………………………………………………………………………………. 288

Автономное или пакетное обучение……………………………………………………………………… 288

Параллельное обучение…………………………………………………………………………………………. 290

Обучение без сброса………………………………………………………………………………………………. 291

Проектирование и доработка RL…………………………………………………………………………………………… 292

Процесс……………………………………………………………………………………………………………………………….. 293

Инженерия среды……………………………………………………………………………………………………………….. 293

Реализация………………………………………………………………………………………………………………. 294

Моделирование………………………………………………………………………………………………………. 294

Взаимодействие с реальной жизнью…………………………………………………………………….. 295

Инжиниринг состояния или обучение представлениям………………………………………………….. 296

Перспективные модели обучения………………………………………………………………………….. 297

Ограничения……………………………………………………………………………………………………………. 297

Преобразование (уменьшение размерности, автоэнкодеры и модели мира)……. 298

Разработка политики…………………………………………………………………………………………………………. 299

Дискретные состояния……………………………………………………………………………………………. 300

Непрерывные состояния………………………………………………………………………………………… 301

Преобразование в дискретные состояния…………………………………………………………….. 303

Пространства смешанных состояний…………………………………………………………………… 304

Сопоставление политик с пространствами действий…………………………………………………….. 305

Бинарные действия…………………………………………………………………………………………………. 305

Непрерывные действия…………………………………………………………………………………………… 306

Гибридные пространства действий………………………………………………………………………. 306

Когда выполнять действия…………………………………………………………………………………….. 307

Обширные пространства действий……………………………………………………………………….. 307

Исследование……………………………………………………………………………………………………………………… 308

Является ли внутренняя мотивация исследованием?………………………………………….. 309

Количество посещений (выборка)…………………………………………………………………………. 310

Прирост информации (сюрприз)……………………………………………………………………………. 310

Прогноз состояния (любопытство или саморефлексия)………………………………………. 311

Любопытные задачки…………………………………………………………………………………………….. 311

Случайные вложения (сети случайной дистилляции)…………………………………………. 312

Расстояние до новизны (эпизодическое любопытство)………………………………………. 313

Выводы по разведке……………………………………………………………………………………………….. 313

Разработка вознаграждений……………………………………………………………………………………………… 314

Рекомендации по разработке вознаграждений……………………………………………………. 315

Формирование вознаграждения…………………………………………………………………………….. 316

Общие награды……………………………………………………………………………………………………….. 317

Выводы о вознаграждении…………………………………………………………………………………….. 318

Резюме………………………………………………………………………………………………………………………………………. 318

Дополнительные материалы для чтения……………………………………………………………………………….. 319

Использованные источники……………………………………………………………………………………………………. 320

Глава 10. Этапы в обучении с подкреплением……………………………………… 325

Реализация……………………………………………………………………………………………………………………………….. 325

Фреймворки………………………………………………………………………………………………………………………… 326

Фреймворки RL……………………………………………………………………………………………………….. 326

Другие фреймворки…………………………………………………………………………………………………. 328

Масштабирование RL……………………………………………………………………………………………………….. 329

Распределенное обучение (Gorila)…………………………………………………………………………. 330

Обучение на одной машине (A3C, PAAC)…………………………………………………………….. 331

Распределенное воспроизведение (Ape-X)……………………………………………………………. 333

Синхронное распределение (DD-PPO)………………………………………………………………….. 333

Повышение эффективности использования (IMPALA, SEED)…………………………….. 334

Масштабирование сделанных выводов……………………………………………………………….. 336

Оценка…………………………………………………………………………………………………………………………………. 337

Показатели эффективности политики…………………………………………………………………… 338

Статистические сравнения политик……………………………………………………………………… 340

Показатели производительности алгоритма……………………………………………………….. 343

Измерения производительности для конкретных задач……………………………………… 343

Объяснимость………………………………………………………………………………………………………….. 344

Выводы оценки……………………………………………………………………………………………………….. 345

Развертывание………………………………………………………………………………………………………………………….. 346

Цели…………………………………………………………………………………………………………………………………….. 346

Цели на разных этапах развития…………………………………………………………………………… 346

Лучшие практики……………………………………………………………………………………………………. 347

Иерархия потребностей…………………………………………………………………………………………. 348

Архитектура……………………………………………………………………………………………………………………….. 349

Вспомогательные инструменты……………………………………………………………………………………….. 351

Разработка против покупки…………………………………………………………………………………… 352

Мониторинг…………………………………………………………………………………………………………….. 352

Регистрация и отслеживание…………………………………………………………………………………. 353

Непрерывная интеграция и непрерывная доставка…………………………………………….. 353

Отслеживание экспериментов……………………………………………………………………………….. 354

Настройка гиперпараметров…………………………………………………………………………………. 355

Развертывание нескольких агентов………………………………………………………………………. 355

Развертывание политик………………………………………………………………………………………….. 356

Безопасность, защита и этика…………………………………………………………………………………………… 357

Безопасное RL…………………………………………………………………………………………………………. 357

Защитное RL……………………………………………………………………………………………………………. 359

Этическое RL…………………………………………………………………………………………………………… 361

Резюме………………………………………………………………………………………………………………………………………. 363

Дополнительные материалы для чтения……………………………………………………………………………….. 364

Использованные источники……………………………………………………………………………………………………. 365

Глава 11. Выводы и будущее……………………………………………………………….. 369

Советы и рекомендации………………………………………………………………………………………………………….. 369

Формулирование задачи…………………………………………………………………………………………………… 369

Ваши данные………………………………………………………………………………………………………………………. 370

Тренировка…………………………………………………………………………………………………………………………. 371

Оценка…………………………………………………………………………………………………………………………………. 372

Развертывание……………………………………………………………………………………………………………………. 373

Отладка…………………………………………………………………………………………………………………………………….. 373

Алгоритм не может решить проблемы среды!…………………………………………………………………. 375

Мониторинг для отладки…………………………………………………………………………………………………… 376

Будущее обучения с подкреплением……………………………………………………………………………………… 377

Рыночные возможности RL……………………………………………………………………………………………….. 377

Будущее RL и направления исследований………………………………………………………………………. 379

Исследования в промышленности…………………………………………………………………………. 379

Исследования в науке…………………………………………………………………………………………….. 381

Этические стандарты……………………………………………………………………………………………… 383

Заключительные замечания……………………………………………………………………………………………………. 384

Дальнейшие шаги………………………………………………………………………………………………………………. 384

Теперь ваша очередь…………………………………………………………………………………………………………. 385

Дополнительные материалы для чтения……………………………………………………………………………….. 385

Использованные источники……………………………………………………………………………………………………. 386

Приложение 1. Градиент логистической политики для двух действий…. 389

Приложение 2. Градиент политики softmax………………………………………….. 393

Предметный указатель…………………………………………………………………………. 395

Добавить комментарий