9785006072121
ISBN :Возрастное ограничение : 12
Дата обновления : 26.10.2023
Обнаружение знаний из данных (KDD) является последовательным по характеру процессом извлечения закономерностей либо знаний из огромного массива данных. Обычно люди интересуются данными, отличающимися потенциальной полезностью, нетривиальностью, неизвестностью.
KDD определяется как метод поиска, преобразования и уточнения значимых данных и шаблонов из необработанной базы данных для использования в разных приложениях либо областях.
Помимо анализа необработанных данных, в DM также включаются аспекты управления данными и базами данных, предварительной обработки данных, соображений моделей и выводов, метрик интересности, соображений сложности, постобработки обнаруженных структур, визуализации, онлайн-обновлений.
Пересечение Ml и DM
Машинным обучением и DM нередко применяются одни и те же методы и они в значительной мере пересекаются. В то же время Ml фокусируется на прогнозировании на основе известных свойств, полученных из обучающих данных, а DM – на обнаружении ранее неизвестных свойств в данных (это этап анализа обнаружения знаний в базах данных). В DM практикуется использование множества Ml- методов, но с иными целями; с другой стороны, Ml использует DM- методы как «обучение без учителя». либо в качестве этапа предварительной обработки для повышения уровня точности обучения.
Возникновение большей части путаницы между 2-мя исследовательскими сообществами (зачастую имеющими отдельные журнальные издания и конференции, ECML PKDD – серьезное исключение) происходит из-за основных предположений, с которыми они работают:
в Ml производительность обычно оценивается по способности воспроизводить известные знания, тогда как при обнаружении знаний и интеллектуальном анализе данных (KDD) ключевой задачей является обнаружение ранее неизвестных знаний. При оценке по известным знаниям неинформированному (неконтролируемому) методу легко превзойти контролируемые методы, в то время как в типичной KDD-задаче контролируемые методы не могут использоваться – из-за отсутствия обучающих данных.
2.2 Ml и физика. Ml и статистика. ML и оптимизация
Ml и физика
Полученные из глубинной физики неупорядоченных систем методы вычислительные и аналитические) могут быть распространены на крупномасштабные задачи, не исключая машинное обучение, к примеру, для анализа весового пространства глубоких нейронных сетей. Таким образом, статистическая физика находит применение в области медицинской диагностики.
Ml и статистика
Ml и статистика являются тесно связанными с точки зрения методов областями. Однако между ними имеется отличие по критерию своей основной цели: статистика делает выводы о численности населения на основе выборки, а Ml находит обобщаемые прогнозные закономерности.
У Ml-идей – от методологических принципов до теоретических инструментов – имеется длительная предыстория в статистике. Известен также применяемый для обозначения всей области термин «наука о данных».
Если говорить о традиционном статистическом анализе, ему требуется априорный выбор модели, которая наиболее подходит для набора данных исследования. Помимо этого, практикуется включение в анализ лишь значимых или теоретически значимых переменных, базирующихся на предшествующем опыте.
Построение Ml, наоборот, не происходит на предварительно структурированной модели; скорее, данные формируют модель, обнаруживая имеющиеся основные закономерности.
Чем больше входных данных (переменных) используется в целях обучения модели, тем большая точность будет у конечной модели. Лео Брейманом выделены 2 парадигмы статистического моделирования [1]:
модель данных и алгоритмическую модель, где «алгоритмическая модель» означает более или менее алгоритмы машинного обучения, такие как Random Forest.
Некоторыми статистиками были взяты на вооружение методы машинного обучения, что привело к созданию объединенной области, которую они назвали «статистическим обучением».
ML и оптимизация
ML также имеет существенную связь с оптимизацией: формулирование многих задач обучения происходит как минимизация некоторой функции потерь на обучающем наборе примеров.
Функции потерь выражают расхождение между предсказаниями обучаемой модели и реальными примерами задачи (к примеру, при осуществлении классификации требуется присвоение метки примерам, и модели обучаются правильному предсказанию заранее присвоенных меток на солидном количестве примеров).
Различие между оптимизацией и ML машинным обучением связано с целью обобщения: если алгоритмы оптимизации позволяют минимизировать потери на обучающем множестве, то машинное обучение нацелено на минимизацию потерь на невидимых выборках. Характеристика обобщения различных алгоритмов обучения является активной темой современных исследований, особенно для алгоритмов глубокого обучения.
Обобщение является концепцией, согласно которой люди, животные и искусственно созданные нейросети прибегают к использованию прошлого опыта в настоящих ситуациях обучения, когда условия в данных ситуациях считаются схожими. Обучающимся ради более эффективной ориентации в мире используются обобщенные модели, принципы и иные сходства между опытом прошлым и опытом новым.
Примером может служить узнавание человека о том, что каждый раз, когда он ест инжир, его горло начинает чесаться и опухать. В итоге он может прийти к предположению, что у него имеется аллергия на все фрукты. Поэтому если вы предложите данному человеку съесть мандарин, он ответит вам отказом, думая, что у него на мандарины тоже аллергия, обобщая, что всеми фруктами вызывается одна и и та же проблема.
Базирующееся на опыте человека с одним фруктом обобщение об аллергии в некоторых случаях может являться правильным, но в других случаях – нет. В образовании были продемонстрированы как отрицательные, так и положительные эффекты обобщения, а также эффекты противоположного обобщению понятия, известного как дискриминационное обучение.
Источник: https://vk.com/wall-25712960_386
III История и Цели современного машинного обучения
3.1 Введение термина «машинное обучение». Разработка экспериментальной «самообучающейся машины»
Введение термина «машинное обучение»
«Артур Самуэль (англ. Arthur Samuel, 5 декабря 1901 – 29 июля 1990) – пионер в области компьютерных игр, искусственного интеллекта и машинного обучения. Его программа Checkers-playing – одна из первых самообучающихся программ в мире и одна из первых демонстраций базовых понятий искусственного интеллекта». Xl2085 – собственная работа. CC BY-SA 4.0. Без изменений. Источник https://ru.wikipedia.org/wiki/Сэмюэл,_Артур
Термин «машинное обучение» был введен в 1959 г. Артуром Сэмюэлем, сотрудником компании IBM, пионером в области компьютерных игр и искусственного интеллекта. В этот период также использовался синоним «самообучающиеся компьютеры».
Разработка экспериментальной «самообучающейся машины»
К началу 1960-х годов компанией Raytheon была разработана экспериментальная «самообучающаяся машина» с памятью на перфоленте под названием Cybertron, которая анализировала сигналы гидролокаторов, электрокардиограммы и речевые шаблоны, используя рудиментарное обучение с подкреплением. Она многократно «тренировалась» человеком-оператором/преподавателем на распознавание паттернов и была оснащена кнопкой «goof», заставляющей ее повторно оценивать неверные решения.
3.2 Книга Нильссона «Learning Machines». Сохранение интереса к распознаванию образов
Книга Нильссона «Learning Machines»
Репрезентативной книгой по исследованиям в области машинного обучения в 1960-х годах была книга Нильссона «Learning Machines», посвященная в основном машинному обучению классификации паттернов.
Сохранение интереса к распознаванию образов
Интерес к распознаванию образов сохранялся и в 1970-е годы, о чем писали Дуда и Харт в 1973 г. В 1981 г. был сделан доклад об использовании стратегий обучения, позволяющих нейронной сети научиться распознавать 40 символов (26 букв, 10 цифр и 4 специальных символа) с компьютерного терминала.
3.3 Определение Тома М. Митчелла. Цели современного машинного обучения
Определение Тома М. Митчелла
Том М. Митчелл дал широко цитируемое, более формальное определение алгоритмов, изучаемых в области машинного обучения: «Считается, что компьютерная программа обучается на основе опыта E в отношении некоторого класса задач T и меры производительности P, если ее производительность на задачах из T, измеряемая P, улучшается с опытом E.» Это определение задач, в которых применяется машинное обучение, предлагает фундаментальное операциональное определение, а не определение области в когнитивных терминах. Это следует предложению Алана Тьюринга в его работе «Вычислительная техника и интеллект», в которой вопрос «Могут ли машины мыслить?» заменяется вопросом «Могут ли машины делать то, что можем делать мы (как мыслящие существа)?».
Конец ознакомительного фрагмента.
Текст предоставлен ООО «Литрес».
Прочитайте эту книгу целиком, купив полную легальную версию (https://www.litres.ru/chitat-onlayn/?art=69871264&lfrom=174836202) на Литрес.
Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.
Все книги на сайте предоставены для ознакомления и защищены авторским правом