Описание
Книга рассчитана на специалистов в области Data Science, обладающих некоторым опытом работы с языком программирования R и имеющих предварительное понятие о математической статистике. В ней в удобной и легкодоступной форме представлены ключевые понятия из статистики, которые относятся к науке о данных, а также объяснено, какие понятия важны и полезны с точки зрения науки о данных, какие менее важны, и почему. Подробно раскрыты темы: разведочный анализ данных, распределения данных и выборок, статистические эксперименты и проверка значимости, регрессия и предсказание, классификация, статистическое машинное обучение и обучение без учителя. Во второе издание включены примеры на языке Python, что расширяет практическое применение книги.
Прочитав эту книгу, вы узнаете:
- Почему разведывательный анализ данных является ключевым предварительным шагом в науке о данных
- Как случайная выборка может уменьшить смещение и привести к более высококачественному набору данных, даже в условиях больших данных
- Как принципы планирования эксперимента помогают получить наиболее полные ответы на вопросы
- Как использовать регрессию для оценки результатов и выявления аномалий
Вы освоите:
- Ключевые методы классификации для предсказания, к какой категории относится запись
- Статистические методы машинного обучения, которые “обучаются” на данных
- Методы обучения без учителя для извлечения информации из немаркированных данных
…Эта книга не является ни очередным учебником по статистике, ни руководством по машинному обучению. Она гораздо лучше, поскольку наглядно показывает связь между полезными статистическими терминами и принципами, с одной стороны, и сегодняшними малопонятными жаргонизмами и методами глубинного анализа данных, с другой, давая ясные объяснения и большое количество примеров. Это потрясающий справочник для новичков и специалистов науки о данных…
Галит Шмуели, Автор популярной серии Глубинный анализ данных для деловой аналитики (Data Mining for Business Analytics) и почетный профессор национального университета Циньхуа, Тайвань.

Питер Брюс (Peter Bruce) основал и расширил Институт статистического образования Statistics.com, который теперь предлагает порядка 100 курсов в области статистики, из которых примерно половина предназначена для аналитиков данных. Нанимая в качестве преподавателей ведущих авторов и шлифуя маркетинговую стратегию для привлечения внимания профессиональных аналитиков данных, Питер развил широкое представление о целевом рынке и свои собственные экспертные знания для его завоевания.

Эндрю Брюс (Andrew Bruce) имеет более чем 30-летний стаж работы в области статистики и науки о данных в академической сфере, правительстве и бизнесе. Он обладает степенью кандидата наук в области статистики Вашингтонского университета и опубликовал несколько работ в рецензируемых журналах. Он разработал статистико-ориентированные решения широкого спектра задач, с которыми сталкиваются разнообразные отрасли, начиная с солидных финансовых фирм до интернет-стартапов, и располагает глубоким пониманием практики науки о данных.

Питер Гедек (Peter Gedeck) имеет более чем 30-летний опыт работы в области научных вычислений и науки о данных. После 20 лет работы в качестве вычислительного химика в компании Novartis он занимает должность старшего исследователя данных в компании Collaborative Drug Discovery. Питер специализируется на разработке алгоритмов машинного обучения для предсказания биологических и физико-химических свойств препаратов-кандидатов. Соавтор книги “Добыча регулярностей из данных для бизнес-аналитики” (Data Mining for Business Analytics). Имеет докторскую степень по химии, которую он получил в Университете Эрланген-Нюрнберг в Германии, а в Университете Фернуниверситет-Хаген (Германия) изучал математику.
Отзывы
Отзывов пока нет.