Дэвид Хэнд "Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных"

grade 4,3 - Рейтинг книги по мнению 50+ читателей Рунета

Человечество научилось собирать, обрабатывать и использовать в науке, бизнесе и повседневной жизни огромные массивы данных. Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем? Британский статистик Дэвид Хэнд считает, что это по меньшей мере недальновидно, а порой – крайне опасно. В своей книге он выделяет 15 влияющих на наши решения и действия видов данных, которые остаются в тени. Например, речь идет об учете сигналов бедствия, которые могли бы подать жители бедных районов, если бы у них были смартфоны, результатах медицинского исследования, которые намеренно утаили или случайно исказили, или данных, ставших «темными» из-за плохого набора критериев для включения в выборку. Хэнд также рассказывает о том, какие меры могут сгладить эффект «темных данных» и как их можно обратить себе на пользу. Книга будет интересна широкому кругу читателей, интересующихся дата-сайенс, программированием и статистикой.

date_range Год издания :

foundation Издательство :Альпина Диджитал

person Автор :

workspaces ISBN :9785961458930

child_care Возрастное ограничение : 12

update Дата обновления : 14.06.2023

Что еще хуже, во всяком случае в отношении темных данных, клиенты рассчитываются за покупки не только кредитными картами, но и наличными. Это означает, что реестр всех покупок и транзакций, созданный на основе данных по кредитным картам, будет содержать невидимые массивы темных данных – DD-тип 4: самоотбор. Вдобавок существует несколько операторов кредитных карт. Данные одного оператора не могут считаться репрезентативными для всей совокупности держателей кредитных карт и уж тем более для населения в целом. Таким образом, несмотря на многообещающие перспективы, административные данные имеют скрытые недостатки, связанные с темными данными.

Конкретной проблемой, с которой мне пришлось столкнуться, был заказ на создание «системы показателей» – статистической модели для прогнозирования вероятности неплатежей, которая могла бы использоваться при принятии решений о предоставлении кредитов. Мне был открыт доступ к большому набору данных, содержащему информацию из заявок предыдущих клиентов, а также их кредитные истории, показывающие действительную картину того, платили они или нет по своим обязательствам.

По сути ничего сложного в этом заказе не было. Я должен был выяснить, какие сочетания характеристик отличают клиентов, выполнивших свои обязательства, от тех, кто допустил дефолт. Это позволило бы классифицировать будущих заявителей как «добросовестные заемщики» или «потенциальные неплательщики».

Проблема заключалась в том, что банк хотел получить модель, позволяющую делать прогнозы в отношении всех будущих заявителей. Предоставленные мне данные, безусловно, не были генеральной совокупностью, отражавшей всех заявителей – они касались лишь тех, кто уже прошел процесс отбора. Надо полагать, состоявшиеся клиенты получили кредиты, потому что им был присвоен статус приемлемого риска в соответствии с каким-то более ранним механизмом отбора – на основе либо предыдущей статистической модели, либо субъективной оценки менеджеров банка. Те, кого сочли слишком рискованными, не получили ссуду, поэтому я не мог знать о том, насколько добросовестно они выполнили бы свои обязательства. Я даже не имел понятия, сколько заявителей было отклонено ранее и не попало в мой набор данных. Короче говоря, данные, предоставленные мне, были искаженной выборкой с неизвестными критериями отбора (или смещением выборки), и любая статистическая модель, построенная на этом наборе данных, вводила бы в заблуждение в случае применения ко всем потенциальным кандидатам.

Конец ознакомительного фрагмента.

Текст предоставлен ООО «ЛитРес».

Прочитайте эту книгу целиком, купив полную легальную версию (https://www.litres.ru/pages/biblio_book/?art=63844901&lfrom=174836202) на ЛитРес.

Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.

notes

Сноски

1

https://blog.uvahealth.com/2019/01/30/measles-outbreaks/ (https://blog.uvahealth.com/2019/01/30/measles-outbreaks/), accessed 16 April 2019.

2

http://outbreaknewstoday.com/measles-outbreak-ukraine-21000-cases-2019/ (http://outbreaknewstoday.com/measles-outbreak-ukraine-21000-cases-2019/), accessed 16 April 2019.

3

https://www.theglobeandmail.com/canada/article-canada-could-see-large-amount-of-measles-outbreaks-health-experts/ (https://www.theglobeandmail.com/canada/article-canada-could-see-large-amount-of-measles-outbreaks-health-experts/), accessed 16 April 2019.

4

E. M. Mirkes, T. J. Coats, J. Levesley, and A. N. Gorban, “Handling missing data in large healthcare dataset: A case study of unknown trauma outcomes.” Computers in Biology and Medicine 75 (2016): 203-16.

5

https://www.livescience.com/24380-hurricane-sandy-status-data.html (https://www.livescience.com/24380-hurricane-sandy-status-data.html).

6

D. Rumsfeld, Department of Defense News Briefing, 12 February 2002.

7

http://archive.defense.gov/Transcripts/Transcript.aspx?TranscriptID=2636 (http://archive.defense.gov/Transcripts/Transcript.aspx?TranscriptID=2636), accessed 31 July 2018.

8

https://er.jsc.nasa.gov/seh/explode.html (https://er.jsc.nasa.gov/seh/explode.html).

9

https://xkcd.com/552/ (https://xkcd.com/552/); отчет комиссии Роджерса см. https://forum.nasaspaceflight.com/index.php?topic=8535.0 (https://forum.nasaspaceflight.com/index.php?topic=8535.0).

10

R. Pattinson, Arctic Ale: History by the Glass, issue 66 (July 2102), https://www.beeradvocate.com/articles/6920/arctic-ale/ (https://www.beeradvocate.com/articles/6920/arctic-ale/), accessed 31 July 2018.

11

В действительности оказалось, что победившая заявка была шуткой и участник торгов не собирался платить. Но даже при этом Вудул мог рассчитывать на приличную прибыль: частный коллекционер из Шотландии недавно продал с аукциона бутылку из экспедиции 1875 г. за ?3300, что равняется примерно $4300.

12

D. J. Hand, F. Daly, A. D. Lunn, K. J. McConway, and E. Ostrowski, A Handbook of Small Data Sets (London: Chapman and Hall, 1994).

13

D. J. Hand, “Statistical challenges of administrative and transaction data (with discussion),” Journal of the Royal Statistical Society, Series A181 (2018): 555-605.

14

https://www.quora.com/How-many-credit-and-debit-card-transactions-are-there-every-year (https://www.quora.com/How-many-credit-and-debit-card-transactions-are-there-every-year), accessed 24 August 2018.

Похожие книги


Все книги на сайте предоставены для ознакомления и защищены авторским правом