Регуляризованный метод наименьших квадратов - Regularized least squares - Wikipedia

Регуляризованный метод наименьших квадратов (RLS) представляет собой семейство методов решения наименьших квадратов проблема при использовании регуляризация для дальнейшего ограничения полученного решения.

RLS используется по двум основным причинам. Первый возникает, когда количество переменных в линейной системе превышает количество наблюдений. В таких условиях обыкновенный метод наименьших квадратов проблема в том некорректно и поэтому невозможно подобрать, потому что соответствующая задача оптимизации имеет бесконечно много решений. RLS позволяет вводить дополнительные ограничения, которые однозначно определяют решение.

Вторая причина, по которой используется RLS, возникает, когда количество переменных не превышает количества наблюдений, но изученная модель страдает от плохого обобщение. В таких случаях RLS можно использовать для улучшения обобщаемости модели, ограничивая ее во время обучения. Это ограничение может либо заставить решение быть «разреженным» каким-то образом, либо отражать другие предшествующие знания о проблеме, такие как информация о корреляциях между функциями. А Байесовский понимания этого можно достичь, показав, что методы RLS часто эквивалентны приоры о решении задачи наименьших квадратов.

Общая формулировка

Рассмотрим обучающую среду, заданную вероятностным пространством ${ Displaystyle (Х раз Y, rho (X, Y))}$ , ${ displaystyle Y in R}$ . Позволять ${ Displaystyle S = {x_ {i}, y_ {i} } _ {i = 1} ^ {n}}$ обозначают обучающий набор ${ displaystyle n}$ пары i.i.d. относительно ${ displaystyle rho}$ . Позволять ${ displaystyle V: Y times R rightarrow [0; infty)}$ - функция потерь. Определять ${ displaystyle F}$ как пространство функций, предполагающих риск:

{ Displaystyle varepsilon (е) = int V (y, f (x)) , d rho (x, y)}

хорошо определено. Основная цель - минимизировать ожидаемый риск:

{ Displaystyle Inf _ {е в F} varepsilon (е)}

Поскольку проблема не может быть решена точно, необходимо указать, как измерить качество решения. Хороший алгоритм обучения должен обеспечивать оценку с небольшим риском.

Как совместное распространение ${ displaystyle rho}$ обычно неизвестно, принимается эмпирический риск. Для регуляризованных наименьших квадратов вводится квадратичная функция потерь:

{ displaystyle varepsilon (f) = { frac {1} {n}} sum _ {i = 1} ^ {n} V (y_ {i}, f (x_ {i})) = { frac {1} {n}} sum _ {i = 1} ^ {n} (y_ {i} -f (x_ {i})) ^ {2}}

Однако, если функции взяты из относительно неограниченного пространства, такого как набор интегрируемых с квадратом функций на ${ displaystyle X}$ , этот подход может перекрыть обучающие данные и привести к плохому обобщению. Таким образом, он должен как-то ограничивать или наказывать сложность функции. ${ displaystyle f}$ . В RLS это достигается путем выбора функций из воспроизводящего гильбертова пространства ядра (RKHS) ${ displaystyle { mathcal {H}}}$ , и добавляя член регуляризации к целевой функции, пропорциональный норме функции в ${ displaystyle { mathcal {H}}}$ :

{ displaystyle inf _ {е in F} varepsilon (f) + lambda R (f), lambda> 0}

Состав ядра

Определение РКХС

RKHS может быть определен симметричный положительно определенная функция ядра ${ Displaystyle К (х, г)}$ с воспроизводящим свойством:

{ displaystyle langle K_ {x}, f rangle _ { mathcal {H}} = f (x),}

куда ${ Displaystyle К_ {х} (г) = К (х, г)}$ . РХС для ядра ${ displaystyle K}$ состоит из завершение пространства функций, натянутого на ${ displaystyle left {K_ {x} mid x in X right }}$ : ${ displaystyle f (x) = sum _ {i = 1} ^ {n} alpha _ {i} K_ {x_ {i}} (x), , f in { mathcal {H}}}$ , где все ${ displaystyle alpha _ {я}}$ настоящие числа. Некоторые часто используемые ядра включают линейное ядро, порождающее пространство линейных функций:

{ Displaystyle К (х, z) = х ^ {T} z,}

полиномиальное ядро, индуцирующее пространство полиномиальных функций порядка ${ displaystyle d}$ :

{ Displaystyle К (х, z) = (х ^ {T} z + 1) ^ {d},}

и гауссово ядро:

{ displaystyle K (x, z) = e ^ {- { frac { | x-z | ^ {2}} { sigma ^ {2}}}}.}

Отметим, что для произвольной функции потерь ${ displaystyle V}$ , этот подход определяет общий класс алгоритмов, называемый регуляризацией Тихонова. Например, используя потеря петли приводит к Машина опорных векторов алгоритм, и используя эпсилон-нечувствительная потеря приводит к опорная векторная регрессия.

Произвольное ядро

В теорема о представителе гарантирует, что решение может быть записано как:

{ Displaystyle е (х) = сумма _ {я = 1} ^ {п} с_ {я} К (х_ {я}, х)}

для некоторых

{ displaystyle c in mathbb {R} ^ {n}}

.

Проблема минимизации может быть выражена как:

{ displaystyle min _ {c in R ^ {n}} { frac {1} {n}} | Y-Kc | _ {R ^ {n}} ^ {2} + lambda | f | _ {H} ^ {2}}

,

где, с некоторым злоупотреблением обозначениями, ${ displaystyle i, j}$ запись матрицы ядра ${ displaystyle K}$ (в отличие от функции ядра ${ Displaystyle К ( cdot, cdot)}$ ) является ${ Displaystyle К (x_ {i}, x_ {j})}$ .

Для такой функции

{ displaystyle { begin {align} & | f | _ {H} ^ {2} = langle f, f rangle _ {H} = left langle sum _ {i = 1} ^ { n} c_ {i} K (x_ {i}, cdot), sum _ {j = 1} ^ {n} c_ {j} K (x_ {j}, cdot) right rangle _ {H } = {} & sum _ {i = 1} ^ {n} sum _ {j = 1} ^ {n} c_ {i} c_ {j} langle K (x_ {i}, cdot ), K (x_ {j}, cdot) rangle _ {H} = sum _ {i = 1} ^ {n} sum _ {j = 1} ^ {n} c_ {i} c_ {j } K (x_ {i}, x_ {j}) = c ^ {T} Kc, end {выравнивается}}}

Можно получить следующую задачу минимизации:

{ displaystyle min _ {c in R ^ {n}} { frac {1} {n}} | Y-Kc | _ {R ^ {n}} ^ {2} + lambda c ^ {T} Kc}

.

Поскольку сумма выпуклых функций является выпуклой, решение единственно, и его минимум можно найти, задав градиент относительно ${ displaystyle c}$ к ${ displaystyle 0}$ :

{ displaystyle - { frac {1} {n}} K (Y-Kc) + lambda Kc = 0 Rightarrow K (K + lambda nI) c = KY Rightarrow c = (K + lambda nI) ^ { -1} Y}

,

куда ${ displaystyle c in R ^ {n}}$ .

Сложность

Сложность обучения - это, в основном, стоимость вычисления матрицы ядра плюс стоимость решения линейной системы, которая примерно равна ${ Displaystyle О (п ^ {3})}$ . Вычисление матрицы ядра для линейного или Гауссово ядро является ${ Displaystyle О (п ^ {2} D)}$ . Сложность тестирования составляет ${ Displaystyle О (п)}$ .

Прогноз

Прогноз на новой контрольной точке ${ displaystyle x _ {*}}$ является:

{ displaystyle f (x _ {*}) = sum _ {i = 1} ^ {n} c_ {i} K (x_ {i}, x _ {*}) = K (X, X _ {*}) ^ {T} c}

Линейное ядро

Для удобства введены векторные обозначения. Позволять ${ displaystyle X}$ быть ${ Displaystyle п раз d}$ матрица, где строки являются входными векторами, и ${ displaystyle Y}$ а ${ Displaystyle п раз 1}$ вектор, где записи являются соответствующими выходами. В терминах векторов матрицу ядра можно записать как ${ displaystyle operatorname {K} = operatorname {X} operatorname {X} ^ {T}}$ . Функцию обучения можно записать как:

{ displaystyle f (x _ {*}) = operatorname {K} _ {x _ {*}} c = x _ {*} ^ {T} operatorname {X} ^ {T} c = x _ {*} ^ { T} w}

Здесь мы определяем ${ displaystyle w = X ^ {T} c, w in R ^ {d}}$ . Целевая функция может быть переписана как:

{ displaystyle { begin {align} & { frac {1} {n}} | Y- operatorname {K} c | _ {R ^ {n}} ^ {2} + lambda c ^ { T} operatorname {K} c [4pt] = {} & { frac {1} {n}} | y- operatorname {X} operatorname {X} ^ {T} c | _ { R ^ {n}} ^ {2} + lambda c ^ {T} operatorname {X} operatorname {X} ^ {T} c = { frac {1} {n}} | y- operatorname {X} w | _ {R ^ {n}} ^ {2} + lambda | w | _ {R ^ {d}} ^ {2} end {align}}}

Первый член - целевая функция от обыкновенный метод наименьших квадратов (OLS) регрессия, соответствующая остаточная сумма квадратов. Второй член - это член регуляризации, которого нет в OLS, который штрафует большие ${ displaystyle w}$ Поскольку рассматривается гладкая конечномерная задача, можно применять стандартные средства исчисления. Чтобы минимизировать целевую функцию, градиент вычисляется относительно ${ displaystyle w}$ и установите его на ноль:

{ displaystyle operatorname {X} ^ {T} operatorname {X} w- operatorname {X} ^ {T} y + lambda nw = 0}

{ displaystyle w = ( operatorname {X} ^ {T} operatorname {X} + lambda n operatorname {I}) ^ {- 1} operatorname {X} ^ {T} y}

Это решение очень похоже на решение стандартной линейной регрессии с дополнительным членом ${ displaystyle lambda operatorname {I}}$ . Если предположения регрессии OLS верны, решение ${ displaystyle w = ( operatorname {X} ^ {T} operatorname {X}) ^ {- 1} operatorname {X} ^ {T} y}$ , с ${ displaystyle lambda = 0}$ , является несмещенной оценкой и является линейной несмещенной оценкой с минимальной дисперсией в соответствии с Теорема Гаусса – Маркова. Период, термин ${ displaystyle lambda n operatorname {I}}$ поэтому приводит к необъективному решению; однако это также имеет тенденцию к уменьшению дисперсии. Это легко увидеть, поскольку ковариация матрица ${ displaystyle w}$ -значения пропорциональны ${ displaystyle ( operatorname {X} ^ {T} operatorname {X} + lambda n operatorname {I}) ^ {- 1}}$ , и, следовательно, большие значения ${ displaystyle lambda}$ приведет к снижению дисперсии. Следовательно, манипулируя ${ displaystyle lambda}$ соответствует смещению и дисперсии компромисса. Для проблем с высокой дисперсией ${ displaystyle w}$ оценки, например, случаи с относительно небольшими ${ displaystyle n}$ или с коррелированными регрессорами, оптимальная точность прогноза может быть получена с помощью ненулевого ${ displaystyle lambda}$ и, таким образом, вносит некоторую предвзятость для уменьшения дисперсии. Кроме того, это не редкость в машинное обучение иметь случаи, когда ${ displaystyle n$ , в таком случае ${ displaystyle X ^ {T} X}$ является классифицировать -дефицитный и ненулевой ${ displaystyle lambda}$ необходимо вычислить ${ displaystyle ( operatorname {X} ^ {T} operatorname {X} + lambda n operatorname {I}) ^ {- 1}}$ .

Сложность

Параметр ${ displaystyle lambda}$ контролирует обратимость матрицы ${ displaystyle X ^ {T} X + lambda nI}$ .Для решения указанной выше линейной системы можно использовать несколько методов.Разложение Холецкого вероятно, метод выбора, поскольку матрица ${ displaystyle X ^ {T} X + lambda nI}$ является симметричный и положительно определенный. Сложность этого метода составляет ${ displaystyle O (nD ^ {2})}$ для обучения и ${ Displaystyle O (D)}$ для тестирования. Цена ${ displaystyle O (nD ^ {2})}$ по сути, это вычисление ${ displaystyle X ^ {T} X}$ , тогда как обратное вычисление (или, скорее, решение линейной системы) примерно ${ displaystyle O (D ^ {3})}$ .

Карты признаков и теорема Мерсера

В этом разделе будет показано, как расширить RLS до любого типа воспроизводящего ядра K. Вместо линейного ядра рассматривается карта характеристик. ${ displaystyle Phi: X rightarrow F}$ для некоторого гильбертова пространства ${ displaystyle F}$ , называется пространством функций. В этом случае ядро определяется как: Матрица ${ displaystyle X}$ заменяется новой матрицей данных ${ displaystyle Phi}$ , куда ${ Displaystyle Phi _ {ij} = phi _ {j} (x_ {i})}$ , или ${ displaystyle j}$ -й компонент ${ displaystyle phi (x_ {i})}$ .

{ Displaystyle К (х, х ') = langle Phi (x), Phi (x') rangle _ {F}.}

Это означает, что для данного обучающего набора ${ Displaystyle K = Phi Phi ^ {T}}$ . Таким образом, целевую функцию можно записать как:

{ displaystyle min _ {c in mathbb {R} ^ {n}} | Y- Phi Phi ^ {T} c | _ {R ^ {n}} ^ {2} + lambda c ^ {T} Phi Phi ^ {T} c}

Этот подход известен как трюк с ядром. Этот метод позволяет значительно упростить вычислительные операции. Если ${ displaystyle F}$ большой размер, вычисление ${ displaystyle phi (x_ {i})}$ может быть довольно интенсивным. Если известен явный вид функции ядра, нам просто нужно вычислить и сохранить ${ Displaystyle п раз п}$ матрица ядра ${ displaystyle operatorname {K}}$ .

Фактически, Гильбертово пространство ${ displaystyle F}$ не обязательно изоморфен ${ Displaystyle mathbb {R} ^ {m}}$ , и может быть бесконечномерным. Это следует из Теорема Мерсера, в котором говорится, что непрерывная, симметричная, положительно определенная функция ядра может быть выражена как:

${ Displaystyle К (х, z) = сумма _ {я = 1} ^ { infty} sigma _ {я} е_ {я} (х) е_ {я} (г)}$

куда ${ Displaystyle е_ {я} (х)}$ для мужчин ортонормированный базис за ${ displaystyle ell ^ {2} (X)}$ , и ${ Displaystyle sigma _ {я} in mathbb {R}}$ . Если карты функций определены ${ Displaystyle фи (х)}$ с компонентами ${ Displaystyle phi _ {я} (х) = { sqrt { sigma _ {я}}} е_ {я} (х)}$ , следует, что ${ Displaystyle К (Икс, Z) = langle фи (х), фи (г) rangle}$ . Это демонстрирует, что любое ядро может быть связано с картой признаков, и что RLS обычно состоит из линейного RLS, выполняемого в некотором, возможно, многомерном пространстве признаков. В то время как теорема Мерсера показывает, как одна карта функций может быть связана с ядром, на самом деле несколько карт функций могут быть связаны с данным воспроизводящим ядром. Например, карта ${ Displaystyle фи (х) = К_ {х}}$ удовлетворяет свойству ${ Displaystyle К (Икс, Z) = langle фи (х), фи (г) rangle}$ для произвольного воспроизводящего ядра.

Байесовская интерпретация

Метод наименьших квадратов можно рассматривать как максимизацию правдоподобия в предположении нормально распределенных остатков. Это потому, что показатель степени Гауссово распределение квадратична по данным, как и целевая функция наименьших квадратов. В этой структуре термины регуляризации RLS можно понимать как кодирование приоры на ${ displaystyle w}$ . Например, регуляризация Тихонова соответствует нормально распределенному априорному положению ${ displaystyle w}$ с центром в 0. Чтобы увидеть это, сначала обратите внимание, что цель OLS пропорциональна логарифмическая вероятность функция при каждой выборке ${ Displaystyle у ^ {я}}$ обычно распространяется вокруг ${ Displaystyle ш ^ {Т} cdot х ^ {я}}$ . Затем обратите внимание, что нормальный приор на ${ displaystyle w}$ с центром в 0 имеет логарифмическую вероятность вида

{ Displaystyle журнал п (ш) = д- альфа сумма _ {j = 1} ^ {d} w_ {j} ^ {2}}

куда ${ displaystyle q}$ и ${ displaystyle alpha}$ - константы, зависящие от дисперсии априорной величины и не зависящие от ${ displaystyle w}$ . Таким образом, минимизация логарифма вероятности, умноженной на априор, эквивалентна минимизации суммы функции потерь OLS и члена регуляризации гребневой регрессии.

Это дает более интуитивную интерпретацию того, почему Тихоновская регуляризация приводит к единственному решению задачи наименьших квадратов: существует бесконечно много векторов ${ displaystyle w}$ удовлетворяющие ограничениям, полученным из данных, но поскольку мы подходим к проблеме с предварительным убеждением, что ${ displaystyle w}$ обычно распределяется вокруг начала координат, мы выберем решение с учетом этого ограничения.

Другие методы регуляризации соответствуют другим априорным значениям. Увидеть список ниже для более подробной информации.

Конкретные примеры

Регрессия хребта (или регуляризация Тихонова)

Один из наиболее распространенных вариантов штрафной функции ${ displaystyle R}$ это квадрат ${ displaystyle ell _ {2}}$ норма, т.е.

{ Displaystyle R (ш) = сумма _ {j = 1} ^ {d} w_ {j} ^ {2}}

{ displaystyle { frac {1} {n}} | Y- operatorname {X} w | _ {2} ^ {2} + lambda sum _ {j = 1} ^ {d} | w_ {j} | ^ {2} rightarrow min _ {w in mathbf {R ^ {d}}}}

Наиболее распространенные названия для этого называются Тихоновская регуляризация и регресс гребня. Он допускает решение в замкнутой форме для ${ displaystyle w}$ :

{ Displaystyle ш = (X ^ {T} X + альфа I) ^ {- 1} X ^ {T} Y}

Название «регрессия гребня» намекает на то, что ${ displaystyle alpha I}$ термин добавляет положительные записи по диагонали "гребня" образца ковариационная матрица ${ displaystyle X ^ {T} X}$ .

Когда ${ Displaystyle альфа = 0}$ , т.е. в случае обыкновенный метод наименьших квадратов, условие, что ${ displaystyle d> n}$ вызывает образец ковариационная матрица ${ displaystyle X ^ {T} X}$ не иметь полного ранга, поэтому его нельзя инвертировать для получения уникального решения. Вот почему может быть бесконечное множество решений обыкновенный метод наименьших квадратов проблема, когда ${ displaystyle d> n}$ . Однако когда ${ displaystyle alpha> 0}$ , т.е. при использовании гребневой регрессии добавление ${ displaystyle alpha I}$ к образцовой ковариационной матрице гарантирует, что все ее собственные значения будут строго больше нуля. Другими словами, она становится обратимой, и решение становится уникальным.

По сравнению с обычным методом наименьших квадратов регрессия гребня не является беспристрастной. Он допускает небольшую предвзятость, чтобы уменьшить дисперсию и среднеквадратичная ошибка, и помогает повысить точность прогнозов. Таким образом, оценка гребня дает более стабильные решения за счет сокращения коэффициентов, но страдает отсутствием чувствительности к данным.

Регрессия лассо

Другой популярный выбор - метод наименьшего абсолютного отбора и усадки (LASSO). В регресс лассо, штрафная функция лассо ${ displaystyle R}$ это ${ displaystyle ell _ {1}}$ норма, т.е.

{ Displaystyle R (ш) = сумма _ {j = 1} ^ {d} left | w_ {j} right |}

{ displaystyle { frac {1} {n}} | Y- operatorname {X} w | _ {2} ^ {2} + lambda sum _ {j = 1} ^ {d} | w_ {j} | rightarrow min _ {w in mathbf {R ^ {d}}}}

Обратите внимание, что функция штрафа лассо является выпуклой, но не строго выпуклой. В отличие от Тихоновская регуляризация, эта схема не имеет удобного решения в замкнутой форме: вместо этого решение обычно находится с использованием квадратичное программирование или более общий выпуклая оптимизация методы, а также специальные алгоритмы, такие как регрессия по наименьшему углу алгоритм.

Важное различие между регрессией лассо и регуляризацией Тихонова состоит в том, что регрессия лассо заставляет большее количество записей ${ displaystyle w}$ фактически равным 0, чем было бы в противном случае. Напротив, в то время как Тихонов заставляет записи ${ displaystyle w}$ чтобы быть маленьким, он не заставляет большее их количество равняться 0, чем было бы в противном случае. Таким образом, регуляризация LASSO более уместна, чем регуляризация Тихонова, в тех случаях, когда мы ожидаем, что число ненулевых элементов ${ displaystyle w}$ быть маленьким, и регуляризация Тихонова более уместна, когда мы ожидаем, что элементы ${ displaystyle w}$ обычно будет небольшим, но не обязательно нулевым. Какой из этих режимов более актуален, зависит от конкретного набора данных.

Помимо выбора функций, описанного выше, LASSO имеет некоторые ограничения. Регрессия гребня обеспечивает лучшую точность в случае ${ displaystyle n> d}$ для сильно коррелированных переменных.^[1] В другом случае ${ displaystyle n$ , LASSO выбирает не более ${ displaystyle n}$ переменные. Более того, LASSO имеет тенденцию выбирать некоторые произвольные переменные из группы сильно коррелированных выборок, поэтому эффект группировки отсутствует.

ℓ₀ Пенализация

{ displaystyle { frac {1} {n}} | Y- operatorname {X} w | _ {2} ^ {2} + lambda | w_ {j} | _ {0} rightarrow min _ {w in mathbf {R ^ {d}}}}

Самый крайний способ усилить разреженность - сказать, что действительная величина коэффициентов ${ displaystyle w}$ Не важно; скорее, единственное, что определяет сложность ${ displaystyle w}$ - количество ненулевых записей. Это соответствует настройке ${ Displaystyle R (ш)}$ быть ${ displaystyle ell _ {0}}$ норма из ${ displaystyle w}$ . Эту функцию регуляризации, хотя и привлекательную из-за разреженности, которую она гарантирует, очень трудно решить, потому что для этого требуется оптимизация функции, которая даже не является слабой. выпуклый. Регрессия лассо - это минимально возможное расслабление ${ displaystyle ell _ {0}}$ пенализация, которая дает слабовыпуклую задачу оптимизации.

Эластичная сетка

Для любых неотрицательных ${ displaystyle lambda _ {1}}$ и ${ displaystyle lambda _ {2}}$ цель имеет следующий вид:

{ displaystyle { frac {1} {n}} | Y- operatorname {X} w | _ {2} ^ {2} + lambda _ {1} sum _ {j = 1} ^ { d} | w_ {j} | + lambda _ {2} sum _ {j = 1} ^ {d} | w_ {j} | ^ {2} rightarrow min _ {w in mathbf {R ^ {d}}}}

Позволять ${ displaystyle alpha = { frac { lambda _ {1}} { lambda _ {1} + lambda _ {2}}}}$ , то решение задачи минимизации описывается как:

{ displaystyle { frac {1} {n}} | Y- operatorname {X} w | _ {2} ^ {2} rightarrow min _ {w in mathbf {R ^ {d} }} { text {st}} (1- alpha) | w | _ {1} + alpha | w | _ {2} leq t}

для некоторых

{ displaystyle t}

.

Учитывать ${ Displaystyle (1- альфа) | ш | _ {1} + альфа | ш | _ {2} leq t}$ как функция штрафа Elastic Net.

Когда ${ Displaystyle альфа = 1}$ , эластичная сетка становится регрессией гребня, тогда как ${ Displaystyle альфа = 0}$ он становится лассо. ${ displaystyle forall alpha in (0,1]}$ Функция штрафа Elastic Net не имеет первой производной в 0 и является строго выпуклой ${ displaystyle forall alpha> 0}$ взяв свойства как регресс лассо и регресс гребня.

Одним из основных свойств Elastic Net является возможность выбора групп коррелированных переменных. Разница между весовыми векторами выборок ${ displaystyle x_ {i}}$ и ${ displaystyle x_ {j}}$ дан кем-то:

{ displaystyle | w_ {i} ^ {*} ( lambda _ {1}, lambda _ {2}) - w_ {j} ^ {*} ( lambda _ {1}, lambda _ {2} ) | leq { frac { sum _ {i = 1} ^ {n} | y_ {i} |} { lambda _ {2}}} { sqrt {2 (1- rho _ {ij} )}}}

, куда

{ displaystyle rho _ {ij} = x_ {i} ^ {T} x_ {j}}

.^[2]

Если ${ displaystyle x_ {i}}$ и ${ displaystyle x_ {j}}$ сильно коррелированы ( ${ displaystyle rho _ {ij} rightarrow 1}$ ) весовые векторы очень близки. В случае отрицательно коррелированных выборок ( ${ displaystyle rho _ {ij} rightarrow -1}$ ) образцы ${ displaystyle -x_ {j}}$ может быть принято. Подводя итог, для сильно коррелированных переменных весовые векторы имеют тенденцию быть равными с точностью до знака в случае отрицательно коррелированных переменных.

Неполный список методов RLS

Ниже приводится список возможных вариантов функции регуляризации. ${ Displaystyle R ( cdot)}$ , наряду с именем для каждого, соответствующим предшествующим, если есть простой, и способами вычисления решения полученной задачи оптимизации.

Имя	Функция регуляризации	Соответствующий предыдущий	Методы решения
Тихоновская регуляризация	${ Displaystyle \| ш \| _ {2} ^ {2}}$	Нормальный	Закрытая форма
Регрессия лассо	${ Displaystyle \| ш \| _ {1}}$	Лаплас	Проксимальный градиентный спуск, наименьшая угловая регрессия
${ displaystyle ell _ {0}}$ наказание	${ Displaystyle \| ш \| _ {0}}$	–	Прямой выбор, Обратное устранение, использование априорных значений, таких как шип и плита
Эластичные сетки	${ Displaystyle бета \| вес \| _ {1} + (1- бета) \| ш \| _ {2} ^ {2}}$	Нормальный и лаплас смесь	Проксимальный градиентный спуск
Полная регуляризация вариаций	${ displaystyle sum _ {j = 1} ^ {d-1} \| w_ {j + 1} -w_ {j} \|}$	–	Метод Сплита – Брегмана, среди прочего

Смотрите также

Наименьших квадратов
Регуляризация по математике.
Ошибка обобщения, одна из причин использования регуляризации.
Тихоновская регуляризация
Регрессия лассо
Упругая сетевая регуляризация
Регрессия наименьшего угла

внешняя ссылка

http://www.stanford.edu/~hastie/TALKS/enet_talk.pdf Регуляризация и выбор переменных через эластичную сеть (презентация)
Регуляризованные наименьшие квадраты и машины опорных векторов (презентация)
Регуляризованные наименьшие квадраты (презентация)

[1] Тибширани Роберт (1996). «Регрессионное сжатие и отбор с помощью лассо» (PDF). Журнал Королевского статистического общества, серия B. 58: стр. 266–288.

[2] Хуэй, Цзоу; Хасти, Тревор (2003). «Регуляризация и выбор переменных через эластичную сеть» (PDF). JRSSB. 67 (2): стр. 301–320.

[1]

[2]

Регуляризованный метод наименьших квадратов - Regularized least squares - Wikipedia

Содержание

Общая формулировка