ISBN :
Возрастное ограничение : 16
Дата обновления : 17.01.2024
C
.
При Y = {(?1,…,?l ) |?1,…,?l {0,1 говорят о задаче классификации на l пересекающихся классов. Здесь i-й класс – Ci = {ob Ob | y(ob) = (?1,…,?l), ?i = 1}.
Для решения задачи, то есть поиска оптимального алгоритма A, вводится функция потерь или функция стоимости (cost function) J(A(ob), y(ob)), которая описывает, насколько «плох» ответ A(ob) по сравнению с верным ответом y(ob). В задаче классификации можно считать, что
а в задаче регрессии
J(A(ob), y(ob)) = | A(ob) – y(ob) |
или
J(A(ob), y(ob)) = (A(ob) – y(ob))2.
Возникает закономерный вопрос: что же такое объект? В задачах машинного обучения объект – это некоторое множество параметров (признаков). Если некоторую сущность можно описать конечным набором параметров, то она может рассматриваться как объект в машинном обучении, причем ее физическая природа не имеет значения. Параметры могут задаваться исследователем, исходя из его представлений о наилучшем описании объекта, так, как это делается в «классических» задачах машинного обучения, или, с другой стороны, формироваться путем выполнения некоторой процедуры так, как это делается в глубоком обучении.
Таким образом, каждый объект ob описывается конечным набором (входных) параметров или свойств (input values or features) x
,x
,….x
, одинаковым для каждого ob
? Ob , а y называется целевой переменной (целевым параметром) (target value) в задаче регрессии или классом в задаче классификации.
Алгоритм А может описываться конечным набором параметров ?
? ? или, как часто говорится при описании нейронных сетей, весов (weights) w
? W.
Задача обучения по примерам рассматривается как задача оптимизации, которую решают путем настройки множества параметров ? алгоритма А так, чтобы минимизировать значение функции стоимости J(?) по всем примерам m.
В задаче регрессии алгоритм A часто называется функцией гипотезы, а функция стоимости определяется как сумма квадратов разности «предсказываемого» алгоритмом (функцией гипотезы) значения и реального значения у по множеству примеров m. При этом подбирается такая функция гипотезы h
(x), которая при некотором наборе параметров ?
? ? обеспечивает минимальное значение J(?).
где m – множество обучающих примеров или объектов; x
– значение параметров или свойств для i-го объекта; y
– фактическое значение объясняемой или целевой переменной для i-го примера; h
– функция гипотезы, которая может быть линейной (h
= ?
+ ?
x) или нелинейной (например, квадратичная функция гипотезы одной переменной – (h
= ?
+ ?
x + ?
x
).
Например, если мы рассматриваем задачу прогнозирования стоимости автомобиля, исходя из года его производства, то год производства будет являться входной переменной или свойством (x), а стоимость – целевой переменной (y) (рисунок 2.1).
Рисунок 2.1. Зависимость стоимости автомобиля от года выпуска
В таком случае мы решаем задачу регрессии одной переменной. Случай регрессии многих переменных возникает тогда, когда мы будем учитывать кроме года выпуска объем двигателя, количество посадочных мест, марку и т.п. Перечисленные параметры образуют множество свойств или входных параметров, которые определяют единственную целевую переменную – стоимость.
Забегая вперед, можно сказать, что для подбора параметров ?
необходимо, чтобы параметры x
?X (в многомерном случае), описывающие объекты, были выражены единицами одинаковой размерности и примерно одинаковой величины. Чаще всего путем нормализации стремятся представить все параметры в виде чисел в диапазоне 0?x?1 или –1?x?1. Вообще говоря, выбор функции нормализации зависит от класса задачи. Кроме того, в процессе предварительной обработки данных могут быть использованы методы, обеспечивающие исключение аномальных значений, исключение шумов (например, высокочастотных) путем сглаживания и т.п. Выбор этих методов также зависит от класса задачи. После того как параметры нормализованы и очищены от аномальных значений, а также исключены объекты, которые определены не полностью (то есть объекты, для которых часть свойств неизвестна), выполняется поиск функции гипотезы h
(x), которая минимизирует стоимость J(?).
2.2. Линейная регрессия одной переменной
Задача линейной регрессии формулируется как поиск минимальной функции стоимости (см. формулу 2.1) при условии, что функция гипотезы является линейной h
= ?
+ ?
x. Очевидно, что подобная функция соответствует линии в двумерном пространстве (рисунок 3.1a). Для нахождения оптимальной функции h
(x) применяется алгоритм градиентного спуска (gradient descent), суть которого заключается в последовательном изменении параметров ?
, ?
с использованием выражения:
где ? – параметр обучения; а
является производной функции стоимости по ?
. Знак := означает присваивание, в отличие от знака равенства (=), применяемого в алгебраических выражениях.
При этом шаги алгоритма выполняются так, что вначале происходит одновременное изменение обоих параметров на основании выражения 2.2 и только затем использование их для расчета новых значений функции стоимости. Другими словами, алгоритмическая последовательность одного из шагов цикла для случая двух параметров, выраженная на псевдокоде, будет следующей:
Отметим, что выражение функции гипотезы можно преобразовать следующим образом:
и записать в виде:
Все книги на сайте предоставены для ознакомления и защищены авторским правом