Джордан Голдмейер "Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт"

Перед вами исчерпывающее руководство по основам Data Science. С помощью него вы сможете научиться мыслить статистически и понимать, какую роль в вашей работе играет аналитика, пользоваться языком науки о данных, избегать распространенных ошибок при работе с ними и, наконец, разобраться в полезных инструментах, которые используют эксперты.

date_range Год издания :

foundation Издательство :Эксмо

person Автор :

workspaces ISBN :978-5-04-184971-9

child_care Возрастное ограничение : 12

update Дата обновления : 14.06.2023


По сути, команды должны ответить на вопрос: «Действительно ли это реальная бизнес-проблема, которую необходимо решить, или мы занимаемся анализом данных ради него самого?» Это хороший и прямолинейный вопрос, который следует задавать именно сейчас, когда вокруг науки о данных и смежных областей такой ажиотаж и путаница.

Кого затрагивает эта проблема?

В данном случае важно понять не только то, кого затрагивает проблема, но и то, как может измениться работа соответствующих специалистов в будущем.

Вы должны подумать обо всех уровнях организации (а также о ее клиентах, если таковые имеются). Мы не имеем в виду дата-сайентиста, работающего над проблемой, или команду инженеров, которым придется поддерживать программное обеспечение. Речь идет об установлении конечных пользователей. Зачастую это не только те люди, которые участвуют в определении проблемы. Поэтому очень важно понять, чья повседневная работа будет затронута в случае реализации проекта, и привлечь этих людей к его обсуждению.

Мы рекомендуем перечислить имена тех, чья работа изменится в случае решения поставленной проблемы. Если таких людей много, соберите небольшую группу из их представителей. Составьте список этих людей и поймите, как на них повлияет результат проекта – а затем свяжите полученные ответы с последним вопросом.

Вы можете выполнить пробный запуск решения в рамках мысленного эксперимента. Допустите возможность ответа на вопрос, а затем спросите свою команду:

– Можем ли мы использовать полученный ответ?

– Чья работа от этого изменится?

Разумеется, это предполагает, что у вас есть нужные данные для ответа на вопрос. (Как мы увидим в главе 4, это предположение может оказаться чрезмерно оптимистичным.) Тем не менее вы должны ответить на эти вопросы и рассмотреть несколько сценариев, предполагающих успешное решение проблемы. Во многих случаях ответы на эти вопросы позволяют либо усилить влияние предложенного проекта, либо установить тот факт, что его реализация не предвещает коммерческой выгоды.

Конец ознакомительного фрагмента.

Текст предоставлен ООО «ЛитРес».

Прочитайте эту книгу целиком, купив полную легальную версию (https://www.litres.ru/book/aleks-dzh-gatman/razberis-v-data-science-kak-osvoit-nauku-o-dannyh-i-nauch-69106330/?lfrom=174836202) на ЛитРес.

Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.

notes

Примечания

1

Splunk Inc., “The State of Dark Data,” 2019, www.splunk.com/en_us/form/the-state-of-dark-data.html.

2

Venture Beat. “87 % of data science projects failing”: venturebeat.com/2019/07/19/why-do-87-of-data-science-projects-never-make-it-into-production

3

www.brookings.edu/wp-content/uploads/2016/06/11_origins_crisis_baily_litan.pdf

4

Нейт Сильвер написал по этому поводу целую серию статей (fivethirtyeight.com/tag/the-real-story-of-2016). Одна из ошибок социологов заключалась в допущении независимости событий, как и в случае с ипотечным кризисом.

5

Примечание для коллег-статистиков: мы имеем в виду обычную, а не статистическую достоверность.

6

Метод k-ближайших соседей можно использовать для предсказания не только классов, но и чисел. Эти так называемые задачи регрессии мы рассмотрим далее в книге.

7

Эта идея обсуждается в чрезвычайно полезной книге Г. Уилсона «Teaching tech together» (CRC Press, 2019).

8

Надежная стратегия работы с данными способна смягчить эти проблемы. Разумеется, важным компонентом любой подобной стратегии является решение значимых проблем, и именно на этом мы сосредоточим внимание в этой главе. Если вы хотите узнать больше о высокоуровневой стратегии работы с данными, обратитесь к книге Jagare, U. Data science strategy for dummies. (John Wiley & Sons, 2019).

Все книги на сайте предоставены для ознакомления и защищены авторским правом