Обобщенный метод наименьших квадратов - Generalized least squares

В статистика, обобщенный метод наименьших квадратов (GLS) - метод оценки неизвестного параметры в линейная регрессия модель, когда есть определенная степень корреляция между остатки в регрессионная модель. В этих случаях, обыкновенный метод наименьших квадратов и взвешенный метод наименьших квадратов может быть статистически неэффективный, или даже ввести в заблуждение выводы. GLS был впервые описан Александр Айткен в 1936 г.[1]

Схема метода

В стандартной линейная регрессия модели мы наблюдаем данные на п статистические единицы. Значения ответа помещаются в вектор , а значения предикторов помещаются в матрица дизайна , где вектор k переменные-предикторы (включая константу) для яй блок. Модель заставляет условное среднее из данный быть линейной функцией , и предполагает условное отклонение приведенного срока ошибки это известный неособый ковариационная матрица . Обычно это записывается как

Здесь представляет собой вектор неизвестных констант (известных как «коэффициенты регрессии»), которые необходимо оценить на основе данных.

Предположим это примерная оценка для . Тогда остаточный вектор для будет . Оценки методом обобщенных наименьших квадратов путем минимизации квадрата Длина Махаланобиса этого остаточного вектора:

Поскольку цель - квадратичная форма от , оценка имеет явную формулу:

Характеристики

Оценка GLS беспристрастный, последовательный, эффективный, и асимптотически нормальный с и . GLS эквивалентен применению обычного метода наименьших квадратов к линейно преобразованной версии данных. Чтобы увидеть это, фактор , например, используя Разложение Холецкого. Тогда, если мы предварительно умножим обе части уравнения к , получаем эквивалентную линейную модель где , , и . В этой модели , где это единичная матрица. Таким образом, мы можем эффективно оценить путем применения OLS к преобразованным данным, что требует минимизации

Это приводит к стандартизации шкалы ошибок и их «декорреляции». Поскольку OLS применяется к данным с гомоскедастическими ошибками, Теорема Гаусса – Маркова применяется, и поэтому оценка GLS является лучшая линейная несмещенная оценка за β.

Взвешенный метод наименьших квадратов

Особый случай GLS, называемый взвешенным методом наименьших квадратов (WLS), возникает, когда все недиагональные элементы Ω равны 0. Эта ситуация возникает, когда дисперсии наблюдаемых значений неравны (т.е.гетероскедастичность присутствует), но где нет корреляции между наблюдаемыми отклонениями. Вес за единицу я пропорциональна обратной величине дисперсии ответа для единицы я.[2]

Возможные обобщенные методы наименьших квадратов

Если ковариация ошибок неизвестно, можно получить непротиворечивую оценку , сказать ,[3] используя реализуемую версию GLS, известную как допустимые обобщенные методы наименьших квадратов (ФГЛС) оценщик. В FGLS моделирование осуществляется в два этапа: (1) модель оценивается с помощью OLS или другого согласованного (но неэффективного) средства оценки, а остатки используются для построения согласованного средства оценки ковариационной матрицы ошибок (для этого часто требуется для изучения модели с добавлением дополнительных ограничений, например, если ошибки следуют процессу временных рядов, статистику обычно требуются некоторые теоретические допущения по этому процессу, чтобы гарантировать, что доступна согласованная оценка); и (2) используя согласованную оценку ковариационной матрицы ошибок, можно реализовать идеи GLS.

В то время как GLS более эффективен, чем OLS при гетероскедастичности или автокорреляции, это неверно для FGLS. Возможная оценка: при условии, что ковариационная матрица ошибок оценивается последовательно, асимптотически более эффективен, но для выборки малого или среднего размера он может быть менее эффективным, чем OLS. Вот почему некоторые авторы предпочитают использовать OLS и переформулировать свои выводы, просто рассматривая альтернативную оценку дисперсии оценки, устойчивую к гетероскедастичности или последовательной автокорреляции, но для больших выборок FGLS предпочтительнее, чем OLS при гетероскедастичности или последовательной корреляции.[3] [4]Предупреждение: оценка FGLS не всегда согласована. Один случай, когда FGLS может быть непоследовательным, - это наличие индивидуальных фиксированных эффектов.[5]

В целом эта оценка имеет другие свойства, чем GLS. Для больших выборок (т. Е. Асимптотически) все свойства (при соответствующих условиях) являются общими по отношению к GLS, но для конечных выборок свойства оценок FGLS неизвестны: они сильно различаются для каждой конкретной модели, и, как правило, их точные распределения не может быть получен аналитически. Для конечных выборок FGLS может быть даже менее эффективным, чем OLS в некоторых случаях. Таким образом, хотя GLS можно сделать выполнимым, не всегда разумно применять этот метод, когда выборка небольшая. Метод, который иногда используется для повышения точности оценок в конечных выборках, заключается в повторении, т. Е. Взятии остатков из FGLS для обновления оценка ковариации ошибок, а затем обновление оценки FGLS, применяя ту же идею итеративно до тех пор, пока оценки не изменятся меньше некоторого допуска. Но этот метод не обязательно значительно повышает эффективность оценщика, если исходная выборка была небольшой. Разумным вариантом, когда выборки не слишком большие, является применение МНК, но отказ от классической оценки дисперсии

(что несовместимо в этой структуре) и с использованием оценки HAC (Heteroskedasticity and Autocorrelation Consistent). Например, в контексте автокорреляции мы можем использовать оценку Бартлетта (часто известную как оценка Ньюи-Уэста, поскольку эти авторы популяризировали использование этой оценки среди эконометристов в своей работе 1987 г. Econometrica article), а в гетероскедастическом контексте мы можем использовать Оценка Эйкера – Уайта. Этот подход намного безопаснее, и это подходящий путь, если только выборка не большая, а «большой» иногда является скользкой проблемой (например, если распределение ошибок асимметрично, требуемая выборка будет намного больше).

В обыкновенный метод наименьших квадратов (OLS) оценка рассчитывается как обычно

и оценки остатков построены.

Для простоты рассмотрим модель гетероскедастических ошибок. Предположим, что матрица дисперсии-ковариации вектора ошибок диагонален, или, что то же самое, ошибки отдельных наблюдений некоррелированы. Тогда каждая диагональная запись может быть оценена с помощью подобранных остатков так может быть построен

Важно отметить, что возведенные в квадрат остатки нельзя использовать в предыдущем выражении; нам нужна оценка дисперсии ошибок. Для этого мы можем использовать параметрическую модель гетероскедастичности или непараметрическую оценку. Как только этот шаг будет выполнен, мы можем продолжить:

Оценить с помощью с помощью[4] взвешенный метод наименьших квадратов

Процедуру можно повторять. Первая итерация дается формулой

Эта оценка можно повторить до сходимости.

В условиях регулярности любая оценка FGLS (или оценка любой из ее итераций, если мы повторяем конечное число раз) асимптотически распределена как

где n - размер выборки, а

здесь p-lim означает предел вероятности

Смотрите также

использованная литература

  1. ^ Эйткен, А. С. (1936). «О методах наименьших квадратов и линейных комбинациях наблюдений». Труды Королевского общества Эдинбурга. 55: 42–48.
  2. ^ Струтц, Т. (2016). Подгонка данных и неопределенность (практическое введение в взвешенный метод наименьших квадратов и не только). Springer Vieweg. ISBN  978-3-658-11455-8., Глава 3
  3. ^ а б Балтаги, Б. Х. (2008). Эконометрика (4-е изд.). Нью-Йорк: Спрингер.
  4. ^ а б Грин, В. Х. (2003). Эконометрический анализ (5-е изд.). Река Аппер Сэдл, Нью-Джерси: Prentice Hall.
  5. ^ Хансен, Кристиан Б. (2007). «Обобщенный вывод наименьших квадратов в панельных и многоуровневых моделях с последовательной корреляцией и фиксированными эффектами». Журнал эконометрики. 140 (2): 670–694. Дои:10.1016 / j.jeconom.2006.07.011.

дальнейшее чтение