Елена Капаца "Машинное обучение доступным языком"

grade 4,8 - Рейтинг книги по мнению 20+ читателей Рунета

Краткий гайд для новичков по машинному и глубокому обучению. Здесь вы найдете необходимый минимум по предмету, истолкованный языком, понятным школьнику. Книга намеренно сделана короткой, ибо студентам здесь и так часто приходится адаптироваться к переизбытку информации. Некоторые разделы написаны с помощью chatGPT. Подходит студентам технических специальностей.

date_range Год издания :2023

foundation Издательство :Автор

person Автор : Елена Капаца

workspaces ISBN :

child_care Возрастное ограничение : 999

update Дата обновления : 03.06.2023

Читать Елена Капаца "Машинное обучение доступным языком
Отзывы на книгу Елена Капаца "Машинное обучение доступным языком

Все столбцы мы отображать здесь, конечно, не будем

Удаление дубликатов

(duplicates removing) Повторяющиеся записи искажают статистические показатели. Всего несколько повторов – и среднее значение столбца сместится в их пользу. Дубликаты также снижают качество обучения модели. Для начала уточним, сколько у нас строк с помощью df.shape. Затем удалим повторы с помощью drop_duplicates() и обновим данные о размере данных:

print(df.shape)

df.drop_duplicates(inplace=True)

print(df.shape)

Библиотека pandas вообще сопровождает любителей и профессионалов на каждом шагу, так что у некоторых ее компонентов параметры одинаковые. Чтобы удалить повторы “на месте”, без излишнего перекопирования датафрейма, дополняем drop_duplicates() параметром inplace, равным True.

Ячейка выдает, что удалила 41188 – 41176 = 12 дубликатов:

(41188, 21)

(41176, 21)

Хоть число и небольшое, все же качество набора мы повысили.

Обработка пропусков

(omission handling) Если пропусков у признака-столбца слишком много (более 70%), такой признак удаляют. Проверим, насколько разрежены наши признаки:

df.isnull().mean() * 100

Метод isnull() пройдется по каждой ячейке каждого столбца и определит, кто пуст, а кто нет. Метод mean() определит концентрацию пропусков в каждом столбце. На 100 мы умножаем, чтобы получить значение в процентах:

Конец ознакомительного фрагмента.

Текст предоставлен ООО «ЛитРес».

Прочитайте эту книгу целиком, купив полную легальную версию (https://www.litres.ru/pages/biblio_book/?art=69273385&lfrom=174836202) на ЛитРес.

Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.

notes

Примечания

Информационный стиль – инструмент для очистки текста от лишнего, для обнажения самой сердцевины текста.

Решение задачи

Исходная англоязычная версия датасета: kaggle.com/datasets/volodymyrgavrysh/bank-marketing-campaigns-dataset

Здесь и далее ячейка с импортом библиотек будет пропущена. С полной версией кода можно ознакомиться в конце главы по QR-коду со ссылкой.

Елена Капаца "Машинное обучение доступным языком"

Читать Елена Капаца "Машинное обучение доступным языком

Отзывы на книгу Елена Капаца "Машинное обучение доступным языком

Похожие книги

Humpty