Обучение с подкреплением для реальных задач

Артикул	2860
ISBN	978-5-9775-6885-2
Количество страниц	400
Формат издания	165 x 215 мм
Печать	Черно-белая
SKU	97041
Серия

~~1213 ₽~~
910 ₽

# O’Reilly # Python # глубокое обучение # машинное обучение #MachineLearning #ML #Reinforcement Learning #RL #нейронные сети #обучение с подкреплением

Описание

Книга посвящена промышленно-ориентированному применению обучения с подкреплением (Reinforcement Learning, RL). Объяснено, как обучать промышленные и научные системы решению любых пошаговых задач методом проб и ошибок – без подготовки узкоспециализированных учебных множеств данных и без риска переобучить или переусложнить алгоритм. Рассмотрены марковские процессы принятия решений, глубокие Q-сети, градиенты политик и их вычисление, методы устранения энтропии и многое другое. Данная книга – первая на русском языке, где теоретический базис RL и алгоритмы даны в прикладном, отраслевом ключе.

Для аналитиков данных и специалистов по искусственному интеллекту

ПЕРВАЯ КНИГА на русском языке, где теоретический базис RL и алгоритмы даны в прикладном, отраслевом ключе!

Оригинальное название книги “Reinforcement Learning: Industrial Applications of Intelligent Agents 1st Edition”

На сайте поддержки книги Reinforcement Learning Book Supplementary Materials вы найдете дополнительные материалы от автора.

На обложке африканский пингвин (Spheniscus demersus). Четыре вида рода Spheniscus известны как полосатые пингвины из-за черной полосы, опоясывающей их тела. Пингвины живут колониями вдоль юго-западного побережья Африки, в основном на 24 островах, и лишь несколько колоний на материке. Вид занесён в Международную Красную книгу.

Reinforcement Learning: Industrial Applications of Intelligent Agents

Из предисловия

Обучение с подкреплением (reinforcement learning, RL) — это парадигма машинного обучения (machine learning, ML), которая способна оптимизировать последовательные решения. RL интересно тем, что имитирует то, как мы, люди, учимся. Мы инстинктивно способны изучать стратегии, которые помогают нам справляться со сложными задачами, такими как езда на велосипеде или сдача экзамена по математике. RL пытается скопировать этот процесс, взаимодействуя с окружающей средой для изучения стратегий.

В последнее время компании применяют алгоритмы машинного обучения для принятия единоразовых решений. Они обучаются на данных, чтобы принять лучшее на текущий момент решение. Однако часто правильное в настоящий момент решение может оказаться не лучшим решением в долгосрочной перспективе. Да, полная ванна мороженого осчастливит вас в краткосрочной перспективе, но на следующей неделе вам придется пропадать в тренажерном зале. Точно так же кликбейтные рекомендации могут давать самую высокую кликабельность, но в долгосрочной перспективе такие статьи воспринимаются как мошенничество и наносят ущерб долгосрочному вовлечению или удержанию читателя.

RL интересно тем, что позволяет изучить долгосрочные стратегии и применить их к сложным промышленным задачам. Как компании, так и специалисты-практики могут преследовать цели, которые напрямую связаны с бизнесом, такие как извлечение прибыли, наращивание количества пользователей и их удержание, а не технические показатели оценки, такие как точность или F-мера. Проще говоря, решение многих проблем зависит от последовательного принятия решений. ML не предназначено для решения этих проблем, RL — предназначено.

Кому следует прочитать эту книгу?

Цель этой книги — продвигать использование RL в производственных системах.
Если вы (сейчас или в будущем) создаете продукты в области RL, будь то исследования, разработки или прикладные вещи, то эта книга для вас. Это также означает, что я написал книгу, скорее, для практиков, чем для людей из академических кругов.

Рекомендации специалистов

Проделана превосходная работа по изложению контекста, ландшафта и возможностей использования RL в обработке данных, что прямо способствует развитию современного бизнеса.
Дэвид Арончик, соавтор технологии Kubeflow

Отличная книга. Проверенный эволюцией метод обучения наконец-то пополняет стандартный инструментарий программиста.
Дэнни Лэнж, старший вице-президент по искусственному интеллекту в компании Unity Technologies

Незаменимая книга для всех, кто желает применять обучение с подкреплением для решения реальных задач. Читатель узнает все от азов до новейших практик; книга изобилует практическими примерами и подробными объяснениями.
Дэвид Фостер, совладелец компании Applied Data Science Partners

Набросок четырех компонентов, необходимых для RL: агента, который совершает действия в окружающей среде для наибольшего вознаграждения.

Четыре компонента образуют марковский процесс принятия решений (Markov decision process, MDP).

Пример (а) демонстрирует робота, который намеревается пройти через лабиринт, чтобы получить монету.

Пример (б) показывает приложение для электронной коммерции, которое автоматически добавляет товары в корзины пользователей, чтобы максимизировать прибыль

Фил Уиндер — междисциплинарный инженер, эксперт и автор онлайн-курсов на платформе O’Reilly. Возглавляет компанию Winder Research, оказывающую консультации в области науки о данных (data science) для облачно-ориентированных приложений. Компания помогает оптимизировать процессы, связанные с обработкой данных, а также обслуживает платформы и продукты, работающие в этой нише. Автор имеет степени PhD и MEng в электротехнике, полученные в Университете Халла.

Детали

Артикул	2860
ISBN	978-5-9775-6885-2
Количество страниц	400
Серия
Переплет	Мягкая обложка
Печать	Черно-белая
Год	2023
Габариты, мм	215 × 165 × 16
Вес, кг	0.472

Отзывы

Отзывов пока нет.

Будьте первым, кто оставил отзыв на “Обучение с подкреплением для реальных задач”

You must be logged in to post a review.

✓ Новинки на 2 недели раньше магазинов
✓ Цены от издательства ниже до 30%
✓ Акции и скидки только для подписчиков
✓ Важные новости БХВ

Подписываясь на рассылку, вы соглашаетесь с политикой конфиденциальности и обработкой своих персональных данных.

0 - 0₽

Контроллеры

Платы

Двигатели, сервоприводы

Микросхемы, транзисторы

Датчики

Модули

Питание

Кабели, провода

Корпуса, крепежи, боксы

Инструменты

WikiBook