9785961458930
ISBN :Возрастное ограничение : 12
Дата обновления : 14.06.2023
Что еще хуже, во всяком случае в отношении темных данных, клиенты рассчитываются за покупки не только кредитными картами, но и наличными. Это означает, что реестр всех покупок и транзакций, созданный на основе данных по кредитным картам, будет содержать невидимые массивы темных данных – DD-тип 4: самоотбор. Вдобавок существует несколько операторов кредитных карт. Данные одного оператора не могут считаться репрезентативными для всей совокупности держателей кредитных карт и уж тем более для населения в целом. Таким образом, несмотря на многообещающие перспективы, административные данные имеют скрытые недостатки, связанные с темными данными.
Конкретной проблемой, с которой мне пришлось столкнуться, был заказ на создание «системы показателей» – статистической модели для прогнозирования вероятности неплатежей, которая могла бы использоваться при принятии решений о предоставлении кредитов. Мне был открыт доступ к большому набору данных, содержащему информацию из заявок предыдущих клиентов, а также их кредитные истории, показывающие действительную картину того, платили они или нет по своим обязательствам.
По сути ничего сложного в этом заказе не было. Я должен был выяснить, какие сочетания характеристик отличают клиентов, выполнивших свои обязательства, от тех, кто допустил дефолт. Это позволило бы классифицировать будущих заявителей как «добросовестные заемщики» или «потенциальные неплательщики».
Проблема заключалась в том, что банк хотел получить модель, позволяющую делать прогнозы в отношении всех будущих заявителей. Предоставленные мне данные, безусловно, не были генеральной совокупностью, отражавшей всех заявителей – они касались лишь тех, кто уже прошел процесс отбора. Надо полагать, состоявшиеся клиенты получили кредиты, потому что им был присвоен статус приемлемого риска в соответствии с каким-то более ранним механизмом отбора – на основе либо предыдущей статистической модели, либо субъективной оценки менеджеров банка. Те, кого сочли слишком рискованными, не получили ссуду, поэтому я не мог знать о том, насколько добросовестно они выполнили бы свои обязательства. Я даже не имел понятия, сколько заявителей было отклонено ранее и не попало в мой набор данных. Короче говоря, данные, предоставленные мне, были искаженной выборкой с неизвестными критериями отбора (или смещением выборки), и любая статистическая модель, построенная на этом наборе данных, вводила бы в заблуждение в случае применения ко всем потенциальным кандидатам.
Конец ознакомительного фрагмента.
Текст предоставлен ООО «ЛитРес».
Прочитайте эту книгу целиком, купив полную легальную версию (https://www.litres.ru/pages/biblio_book/?art=63844901&lfrom=174836202) на ЛитРес.
Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.
notes
Сноски
1
https://blog.uvahealth.com/2019/01/30/measles-outbreaks/ (https://blog.uvahealth.com/2019/01/30/measles-outbreaks/), accessed 16 April 2019.
2
http://outbreaknewstoday.com/measles-outbreak-ukraine-21000-cases-2019/ (http://outbreaknewstoday.com/measles-outbreak-ukraine-21000-cases-2019/), accessed 16 April 2019.
3
https://www.theglobeandmail.com/canada/article-canada-could-see-large-amount-of-measles-outbreaks-health-experts/ (https://www.theglobeandmail.com/canada/article-canada-could-see-large-amount-of-measles-outbreaks-health-experts/), accessed 16 April 2019.
4
E. M. Mirkes, T. J. Coats, J. Levesley, and A. N. Gorban, “Handling missing data in large healthcare dataset: A case study of unknown trauma outcomes.” Computers in Biology and Medicine 75 (2016): 203-16.
5
https://www.livescience.com/24380-hurricane-sandy-status-data.html (https://www.livescience.com/24380-hurricane-sandy-status-data.html).
6
D. Rumsfeld, Department of Defense News Briefing, 12 February 2002.
7
http://archive.defense.gov/Transcripts/Transcript.aspx?TranscriptID=2636 (http://archive.defense.gov/Transcripts/Transcript.aspx?TranscriptID=2636), accessed 31 July 2018.
8
https://er.jsc.nasa.gov/seh/explode.html (https://er.jsc.nasa.gov/seh/explode.html).
9
https://xkcd.com/552/ (https://xkcd.com/552/); отчет комиссии Роджерса см. https://forum.nasaspaceflight.com/index.php?topic=8535.0 (https://forum.nasaspaceflight.com/index.php?topic=8535.0).
10
R. Pattinson, Arctic Ale: History by the Glass, issue 66 (July 2102), https://www.beeradvocate.com/articles/6920/arctic-ale/ (https://www.beeradvocate.com/articles/6920/arctic-ale/), accessed 31 July 2018.
11
В действительности оказалось, что победившая заявка была шуткой и участник торгов не собирался платить. Но даже при этом Вудул мог рассчитывать на приличную прибыль: частный коллекционер из Шотландии недавно продал с аукциона бутылку из экспедиции 1875 г. за ?3300, что равняется примерно $4300.
12
D. J. Hand, F. Daly, A. D. Lunn, K. J. McConway, and E. Ostrowski, A Handbook of Small Data Sets (London: Chapman and Hall, 1994).
13
D. J. Hand, “Statistical challenges of administrative and transaction data (with discussion),” Journal of the Royal Statistical Society, Series A181 (2018): 555-605.
14
https://www.quora.com/How-many-credit-and-debit-card-transactions-are-there-every-year (https://www.quora.com/How-many-credit-and-debit-card-transactions-are-there-every-year), accessed 24 August 2018.
Все книги на сайте предоставены для ознакомления и защищены авторским правом