Регуляризованный метод наименьших квадратов - Regularized least squares - Wikipedia

Регуляризованный метод наименьших квадратов (RLS) представляет собой семейство методов решения наименьших квадратов проблема при использовании регуляризация для дальнейшего ограничения полученного решения.

RLS используется по двум основным причинам. Первый возникает, когда количество переменных в линейной системе превышает количество наблюдений. В таких условиях обыкновенный метод наименьших квадратов проблема в том некорректно и поэтому невозможно подобрать, потому что соответствующая задача оптимизации имеет бесконечно много решений. RLS позволяет вводить дополнительные ограничения, которые однозначно определяют решение.

Вторая причина, по которой используется RLS, возникает, когда количество переменных не превышает количества наблюдений, но изученная модель страдает от плохого обобщение. В таких случаях RLS можно использовать для улучшения обобщаемости модели, ограничивая ее во время обучения. Это ограничение может либо заставить решение быть «разреженным» каким-то образом, либо отражать другие предшествующие знания о проблеме, такие как информация о корреляциях между функциями. А Байесовский понимания этого можно достичь, показав, что методы RLS часто эквивалентны приоры о решении задачи наименьших квадратов.

Общая формулировка

Рассмотрим обучающую среду, заданную вероятностным пространством , . Позволять обозначают обучающий набор пары i.i.d. относительно . Позволять - функция потерь. Определять как пространство функций, предполагающих риск:

хорошо определено. Основная цель - минимизировать ожидаемый риск:

Поскольку проблема не может быть решена точно, необходимо указать, как измерить качество решения. Хороший алгоритм обучения должен обеспечивать оценку с небольшим риском.

Как совместное распространение обычно неизвестно, принимается эмпирический риск. Для регуляризованных наименьших квадратов вводится квадратичная функция потерь:

Однако, если функции взяты из относительно неограниченного пространства, такого как набор интегрируемых с квадратом функций на , этот подход может перекрыть обучающие данные и привести к плохому обобщению. Таким образом, он должен как-то ограничивать или наказывать сложность функции. . В RLS это достигается путем выбора функций из воспроизводящего гильбертова пространства ядра (RKHS) , и добавляя член регуляризации к целевой функции, пропорциональный норме функции в :

Состав ядра

Определение РКХС

RKHS может быть определен симметричный положительно определенная функция ядра с воспроизводящим свойством:

куда . РХС для ядра состоит из завершение пространства функций, натянутого на : , где все настоящие числа. Некоторые часто используемые ядра включают линейное ядро, порождающее пространство линейных функций:

полиномиальное ядро, индуцирующее пространство полиномиальных функций порядка :

и гауссово ядро:

Отметим, что для произвольной функции потерь , этот подход определяет общий класс алгоритмов, называемый регуляризацией Тихонова. Например, используя потеря петли приводит к Машина опорных векторов алгоритм, и используя эпсилон-нечувствительная потеря приводит к опорная векторная регрессия.

Произвольное ядро

В теорема о представителе гарантирует, что решение может быть записано как:

для некоторых .

Проблема минимизации может быть выражена как:

,

где, с некоторым злоупотреблением обозначениями, запись матрицы ядра (в отличие от функции ядра ) является .

Для такой функции

Можно получить следующую задачу минимизации:

.

Поскольку сумма выпуклых функций является выпуклой, решение единственно, и его минимум можно найти, задав градиент относительно к :

,

куда .

Сложность

Сложность обучения - это, в основном, стоимость вычисления матрицы ядра плюс стоимость решения линейной системы, которая примерно равна . Вычисление матрицы ядра для линейного или Гауссово ядро является . Сложность тестирования составляет .

Прогноз

Прогноз на новой контрольной точке является:

Линейное ядро

Для удобства введены векторные обозначения. Позволять быть матрица, где строки являются входными векторами, и а вектор, где записи являются соответствующими выходами. В терминах векторов матрицу ядра можно записать как . Функцию обучения можно записать как:

Здесь мы определяем . Целевая функция может быть переписана как:

Первый член - целевая функция от обыкновенный метод наименьших квадратов (OLS) регрессия, соответствующая остаточная сумма квадратов. Второй член - это член регуляризации, которого нет в OLS, который штрафует большие Поскольку рассматривается гладкая конечномерная задача, можно применять стандартные средства исчисления. Чтобы минимизировать целевую функцию, градиент вычисляется относительно и установите его на ноль:

Это решение очень похоже на решение стандартной линейной регрессии с дополнительным членом . Если предположения регрессии OLS верны, решение , с , является несмещенной оценкой и является линейной несмещенной оценкой с минимальной дисперсией в соответствии с Теорема Гаусса – Маркова. Период, термин поэтому приводит к необъективному решению; однако это также имеет тенденцию к уменьшению дисперсии. Это легко увидеть, поскольку ковариация матрица -значения пропорциональны , и, следовательно, большие значения приведет к снижению дисперсии. Следовательно, манипулируя соответствует смещению и дисперсии компромисса. Для проблем с высокой дисперсией оценки, например, случаи с относительно небольшими или с коррелированными регрессорами, оптимальная точность прогноза может быть получена с помощью ненулевого и, таким образом, вносит некоторую предвзятость для уменьшения дисперсии. Кроме того, это не редкость в машинное обучение иметь случаи, когда , в таком случае является классифицировать -дефицитный и ненулевой необходимо вычислить .

Сложность

Параметр контролирует обратимость матрицы .Для решения указанной выше линейной системы можно использовать несколько методов.Разложение Холецкого вероятно, метод выбора, поскольку матрица является симметричный и положительно определенный. Сложность этого метода составляет для обучения и для тестирования. Цена по сути, это вычисление , тогда как обратное вычисление (или, скорее, решение линейной системы) примерно .

Карты признаков и теорема Мерсера

В этом разделе будет показано, как расширить RLS до любого типа воспроизводящего ядра K. Вместо линейного ядра рассматривается карта характеристик. для некоторого гильбертова пространства , называется пространством функций. В этом случае ядро ​​определяется как: Матрица заменяется новой матрицей данных , куда , или -й компонент .

Это означает, что для данного обучающего набора . Таким образом, целевую функцию можно записать как:

Этот подход известен как трюк с ядром. Этот метод позволяет значительно упростить вычислительные операции. Если большой размер, вычисление может быть довольно интенсивным. Если известен явный вид функции ядра, нам просто нужно вычислить и сохранить матрица ядра .

Фактически, Гильбертово пространство не обязательно изоморфен , и может быть бесконечномерным. Это следует из Теорема Мерсера, в котором говорится, что непрерывная, симметричная, положительно определенная функция ядра может быть выражена как:

куда для мужчин ортонормированный базис за , и . Если карты функций определены с компонентами , следует, что . Это демонстрирует, что любое ядро ​​может быть связано с картой признаков, и что RLS обычно состоит из линейного RLS, выполняемого в некотором, возможно, многомерном пространстве признаков. В то время как теорема Мерсера показывает, как одна карта функций может быть связана с ядром, на самом деле несколько карт функций могут быть связаны с данным воспроизводящим ядром. Например, карта удовлетворяет свойству для произвольного воспроизводящего ядра.

Байесовская интерпретация

Метод наименьших квадратов можно рассматривать как максимизацию правдоподобия в предположении нормально распределенных остатков. Это потому, что показатель степени Гауссово распределение квадратична по данным, как и целевая функция наименьших квадратов. В этой структуре термины регуляризации RLS можно понимать как кодирование приоры на . Например, регуляризация Тихонова соответствует нормально распределенному априорному положению с центром в 0. Чтобы увидеть это, сначала обратите внимание, что цель OLS пропорциональна логарифмическая вероятность функция при каждой выборке обычно распространяется вокруг . Затем обратите внимание, что нормальный приор на с центром в 0 имеет логарифмическую вероятность вида

куда и - константы, зависящие от дисперсии априорной величины и не зависящие от . Таким образом, минимизация логарифма вероятности, умноженной на априор, эквивалентна минимизации суммы функции потерь OLS и члена регуляризации гребневой регрессии.

Это дает более интуитивную интерпретацию того, почему Тихоновская регуляризация приводит к единственному решению задачи наименьших квадратов: существует бесконечно много векторов удовлетворяющие ограничениям, полученным из данных, но поскольку мы подходим к проблеме с предварительным убеждением, что обычно распределяется вокруг начала координат, мы выберем решение с учетом этого ограничения.

Другие методы регуляризации соответствуют другим априорным значениям. Увидеть список ниже для более подробной информации.

Конкретные примеры

Регрессия хребта (или регуляризация Тихонова)

Один из наиболее распространенных вариантов штрафной функции это квадрат норма, т.е.

Наиболее распространенные названия для этого называются Тихоновская регуляризация и регресс гребня. Он допускает решение в замкнутой форме для :

Название «регрессия гребня» намекает на то, что термин добавляет положительные записи по диагонали "гребня" образца ковариационная матрица .

Когда , т.е. в случае обыкновенный метод наименьших квадратов, условие, что вызывает образец ковариационная матрица не иметь полного ранга, поэтому его нельзя инвертировать для получения уникального решения. Вот почему может быть бесконечное множество решений обыкновенный метод наименьших квадратов проблема, когда . Однако когда , т.е. при использовании гребневой регрессии добавление к образцовой ковариационной матрице гарантирует, что все ее собственные значения будут строго больше нуля. Другими словами, она становится обратимой, и решение становится уникальным.

По сравнению с обычным методом наименьших квадратов регрессия гребня не является беспристрастной. Он допускает небольшую предвзятость, чтобы уменьшить дисперсию и среднеквадратичная ошибка, и помогает повысить точность прогнозов. Таким образом, оценка гребня дает более стабильные решения за счет сокращения коэффициентов, но страдает отсутствием чувствительности к данным.

Регрессия лассо

Другой популярный выбор - метод наименьшего абсолютного отбора и усадки (LASSO). В регресс лассо, штрафная функция лассо это норма, т.е.

Обратите внимание, что функция штрафа лассо является выпуклой, но не строго выпуклой. В отличие от Тихоновская регуляризация, эта схема не имеет удобного решения в замкнутой форме: вместо этого решение обычно находится с использованием квадратичное программирование или более общий выпуклая оптимизация методы, а также специальные алгоритмы, такие как регрессия по наименьшему углу алгоритм.

Важное различие между регрессией лассо и регуляризацией Тихонова состоит в том, что регрессия лассо заставляет большее количество записей фактически равным 0, чем было бы в противном случае. Напротив, в то время как Тихонов заставляет записи чтобы быть маленьким, он не заставляет большее их количество равняться 0, чем было бы в противном случае. Таким образом, регуляризация LASSO более уместна, чем регуляризация Тихонова, в тех случаях, когда мы ожидаем, что число ненулевых элементов быть маленьким, и регуляризация Тихонова более уместна, когда мы ожидаем, что элементы обычно будет небольшим, но не обязательно нулевым. Какой из этих режимов более актуален, зависит от конкретного набора данных.

Помимо выбора функций, описанного выше, LASSO имеет некоторые ограничения. Регрессия гребня обеспечивает лучшую точность в случае для сильно коррелированных переменных.[1] В другом случае , LASSO выбирает не более переменные. Более того, LASSO имеет тенденцию выбирать некоторые произвольные переменные из группы сильно коррелированных выборок, поэтому эффект группировки отсутствует.

0 Пенализация

Самый крайний способ усилить разреженность - сказать, что действительная величина коэффициентов Не важно; скорее, единственное, что определяет сложность - количество ненулевых записей. Это соответствует настройке быть норма из . Эту функцию регуляризации, хотя и привлекательную из-за разреженности, которую она гарантирует, очень трудно решить, потому что для этого требуется оптимизация функции, которая даже не является слабой. выпуклый. Регрессия лассо - это минимально возможное расслабление пенализация, которая дает слабовыпуклую задачу оптимизации.

Эластичная сетка

Для любых неотрицательных и цель имеет следующий вид:

Позволять , то решение задачи минимизации описывается как:

для некоторых .

Учитывать как функция штрафа Elastic Net.

Когда , эластичная сетка становится регрессией гребня, тогда как он становится лассо. Функция штрафа Elastic Net не имеет первой производной в 0 и является строго выпуклой взяв свойства как регресс лассо и регресс гребня.

Одним из основных свойств Elastic Net является возможность выбора групп коррелированных переменных. Разница между весовыми векторами выборок и дан кем-то:

, куда .[2]

Если и сильно коррелированы ( ) весовые векторы очень близки. В случае отрицательно коррелированных выборок ( ) образцы может быть принято. Подводя итог, для сильно коррелированных переменных весовые векторы имеют тенденцию быть равными с точностью до знака в случае отрицательно коррелированных переменных.

Неполный список методов RLS

Ниже приводится список возможных вариантов функции регуляризации. , наряду с именем для каждого, соответствующим предшествующим, если есть простой, и способами вычисления решения полученной задачи оптимизации.

ИмяФункция регуляризацииСоответствующий предыдущийМетоды решения
Тихоновская регуляризацияНормальныйЗакрытая форма
Регрессия лассоЛапласПроксимальный градиентный спуск, наименьшая угловая регрессия
наказаниеПрямой выбор, Обратное устранение, использование априорных значений, таких как шип и плита
Эластичные сеткиНормальный и лаплас смесьПроксимальный градиентный спуск
Полная регуляризация вариацийМетод Сплита – Брегмана, среди прочего

Смотрите также

Рекомендации

  1. ^ Тибширани Роберт (1996). «Регрессионное сжатие и отбор с помощью лассо» (PDF). Журнал Королевского статистического общества, серия B. 58: стр. 266–288.
  2. ^ Хуэй, Цзоу; Хасти, Тревор (2003). «Регуляризация и выбор переменных через эластичную сеть» (PDF). JRSSB. 67 (2): стр. 301–320.

внешняя ссылка