Объединенная дисперсия - Pooled variance

В статистика, совокупная дисперсия (также известен как комбинированная дисперсия, составная дисперсия, или общая дисперсия, и написано ${displaystyle sigma ^ {2}}$ ) - метод для оценка отклонение из нескольких разных популяций, когда среднее значение каждой популяции может быть различным, но можно предположить, что дисперсия каждой популяции одинакова. Числовая оценка, полученная в результате использования этого метода, также называется объединенной дисперсией.

При условии равных дисперсий совокупности дисперсия объединенной выборки обеспечивает более высокую точность оценка дисперсии, чем дисперсии отдельных выборок. Эта более высокая точность может привести к увеличению статистическая мощность при использовании в статистические тесты которые сравнивают популяции, такие как t-тест.

Квадратный корень из общей оценки дисперсии известен как объединенное стандартное отклонение (также известен как комбинированное стандартное отклонение, составное стандартное отклонение, или общее стандартное отклонение).

Мотивация

В статистика, часто данные собираются за зависимая переменная, y, в диапазоне значений для независимая переменная, Икс. Например, наблюдение за расходом топлива может быть изучено как функция скорости двигателя при постоянной нагрузке на двигатель. Если для достижения небольшого отклонение в y, требуются многочисленные повторные испытания при каждом значении Икс, стоимость тестирования может стать непомерно высокой. Разумные оценки дисперсии можно определить, используя принцип совокупная дисперсия после повторения каждого тестовое задание на конкретном Икс всего несколько раз.

Определение и расчет

Определение

Объединенная дисперсия - это оценка фиксированной общей дисперсии. ${displaystyle sigma ^ {2}}$ лежащие в основе различных популяций, которые имеют разные средства.

Вычисление

Если популяции проиндексированы ${displaystyle i = 1, ldots, k}$ , то объединенная дисперсия ${displaystyle s_ {p} ^ {2}}$ можно вычислить средневзвешенное

{displaystyle s_ {p} ^ {2} = {frac {sum _ {i = 1} ^ {k} (n_ {i} -1) s_ {i} ^ {2}} {sum _ {i = 1} ^ {k} (n_ {i} -1)}} = {frac {(n_ {1} -1) s_ {1} ^ {2} + (n_ {2} -1) s_ {2} ^ {2 } + cdots + (n_ {k} -1) s_ {k} ^ {2}} {n_ {1} + n_ {2} + cdots + n_ {k} -k}},}

где ${displaystyle n_ {i}}$ это размер образца населения ${displaystyle i}$ и выборочные отклонения находятся

{displaystyle s_ {i} ^ {2}}

=

{displaystyle {frac {1} {n_ {i} -1}} sum _ {j = 1} ^ {n_ {i}} left (y_ {j} - {overline {y_ {i}}} ight) ^ { 2}}

.

Использование ${displaystyle (n_ {i} -1)}$ весовые коэффициенты вместо ${displaystyle n_ {i}}$ происходит от Поправка Бесселя.

Варианты

Несмещенная оценка методом наименьших квадратов ${displaystyle sigma ^ {2},}$

{displaystyle s_ {p} ^ {2} = {frac {sum _ {i = 1} ^ {k} (n_ {i} -1) s_ {i} ^ {2}} {sum _ {i = 1} ^ {k} (n_ {i} -1)}},}

и смещенная оценка максимального правдоподобия

{displaystyle s_ {p} ^ {2} = {frac {sum _ {i = 1} ^ {k} (n_ {i} -1) s_ {i} ^ {2}} {sum _ {i = 1} ^ {k} n_ {i}}},}

используются в разных контекстах.^{[нужна цитата ]} Первый может дать объективный ${displaystyle s_ {p} ^ {2}}$ оценить ${displaystyle sigma ^ {2}}$ когда две группы имеют одинаковую дисперсию населения. Последний может дать больше эффективный ${displaystyle s_ {p} ^ {2}}$ оценить ${displaystyle sigma ^ {2}}$ предвзято. Обратите внимание, что количество ${displaystyle s_ {i} ^ {2}}$ в правых частях обоих уравнений - несмещенные оценки.

пример

Рассмотрим следующий набор данных для y полученные на разных уровнях независимой переменнойИкс.

Икс	y
1	31, 30, 29
2	42, 41, 40, 39
3	31, 28
4	23, 22, 21, 19, 18
5	21, 20, 19, 18,17

Количество испытаний, среднее значение, дисперсия и стандартное отклонение представлены в следующей таблице.

Икс	п	y_{значить}	s_я²	s_я
1	3	30.0	1.0	1.0
2	4	40.5	1.67	1.29
3	2	29.5	4.5	2.12
4	5	20.6	4.3	2.07
5	5	19.0	2.5	1.58

Эти статистические данные представляют собой дисперсию и среднеквадратичное отклонение для каждого подмножества данных на различных уровнях Икс. Если мы можем предположить, что одни и те же явления порождают случайная ошибка на каждом уровне Икс, приведенные выше данные могут быть «объединены», чтобы выразить единую оценку дисперсии и стандартного отклонения. В некотором смысле это предполагает поиск значить дисперсия или стандартное отклонение пяти приведенных выше результатов. Эта средняя дисперсия рассчитывается путем взвешивания отдельных значений с размером подмножества для каждого уровня Икс. Таким образом, объединенная дисперсия определяется как

{displaystyle s_ {P} ^ {2} = {frac {(n_ {1} -1) s_ {1} ^ {2} + (n_ {2} -1) s_ {2} ^ {2} + cdots + (n_ {k} -1) s_ {k} ^ {2}} {(n_ {1} -1) + (n_ {2} -1) + cdots + (n_ {k} -1)}}}

где п₁, п₂, . . ., п_k - размеры подмножеств данных на каждом уровне переменной Икс, и s₁², s₂², . . ., s_k² - их соответствующие отклонения.

Таким образом, совокупная дисперсия данных, показанных выше:

{displaystyle s_ {p} ^ {2} = 2,764,}

Влияние на точность

Объединенная дисперсия - это оценка, когда существует корреляция между объединенными наборами данных или среднее значение наборов данных не идентично. Объединенная вариация менее точна, чем больше ненулевое значение корреляции или чем дальше средние значения между наборами данных.

Разновидности данных для неперекрывающихся наборов данных:

{displaystyle {egin {align} sigma _ {X} ^ {2} & = {frac {left (sum _ {i} {left [(N_ {X_ {i}}} - 1) sigma _ {X_ {i}}) ^ {2} + N_ {X_ {i}} mu _ {X_ {i}} ^ {2} ight]} - влево [сумма _ {i} {N_ {X_ {i}}} ight] mu _ {X } ^ {2} ight)} {sum _ {i} {N_ {X_ {i}} - 1}}} конец {выровнено}}}

Где среднее значение определяется как:

{displaystyle {egin {align} mu _ {X} & = {frac {left (sum _ {i} {N_ {X_ {i}} mu _ {X_ {i}}} ight)} {sum _ {i} {N_ {X_ {i}}}}} конец {выровнено}}}

Учитывая предвзятую максимальную вероятность, определяемую как:

{displaystyle s_ {p} ^ {2} = {frac {sum _ {i = 1} ^ {k} (n_ {i} -1) s_ {i} ^ {2}} {sum _ {i = 1} ^ {k} n_ {i}}},}

Тогда ошибка в смещенной оценке максимального правдоподобия составляет:

{displaystyle {egin {align} Error = s_ {p} ^ {2} -sigma _ {X} ^ {2} [3pt] = {frac {sum _ {i} (N_ {X_ {i}} - 1 ) s_ {i} ^ {2}} {sum _ {i} N_ {X_ {i}}}} - {frac {1} {sum _ {i} {N_ {X_ {i}} - 1}}} left (сумма _ {i} {left [(N_ {X_ {i}} - 1) sigma _ {X_ {i}} ^ {2} + N_ {X_ {i}} mu _ {X_ {i}} ^ {2} ight]} - влево [сумма _ {i} {N_ {X_ {i}}} ight] mu _ {X} ^ {2} ight) конец {выровнено}}}

Предполагая, что N такое большое, что:

{displaystyle {egin {align} sum _ {i} N_ {X_ {i}} приблизительная сумма _ {i} {N_ {X_ {i}} - 1} конец {выровнено}}}

Тогда погрешность оценки сводится к:

{displaystyle {egin {выровнено} E = - {frac {left (sum _ {i} {left [N_ {X_ {i}} mu _ {X_ {i}} ^ {2} ight]} - left [sum _ {i} {N_ {X_ {i}}} полет] mu _ {X} ^ {2} полет)} {сумма _ {i} N_ {X_ {i}}}} [3pt] = mu _ {X } ^ {2} - {frac {sum _ {i} {left [N_ {X_ {i}} mu _ {X_ {i}} ^ {2} ight]}} {sum _ {i} N_ {X_ { i}}}} [3pt] конец {выровнено}}}

Или альтернативно:

{displaystyle {egin {align} E = left [{frac {sum _ {i}} {N_ {X_ {i}} mu _ {X_ {i}}}}} {sum _ {i} {N_ {X_ {i}} }}}} ight] ^ {2} - {frac {sum _ {i} {left [N_ {X_ {i}} mu _ {X_ {i}} ^ {2} ight]}} {sum _ {i } N_ {X_ {i}}}} [3pt] = {frac {left [сумма _ {i} {N_ {X_ {i}} mu _ {X_ {i}}} ight] ^ {2} -сумма _ {i} N_ {X_ {i}} сумма _ {i} {left [N_ {X_ {i}} mu _ {X_ {i}} ^ {2} ight]}} {left [sum _ {i} N_ {X_ {i}} ight] ^ {2}}} конец {выровнено}}}

Агрегирование данных стандартного отклонения

Вместо оценки объединенного стандартного отклонения следующий способ точно агрегировать стандартное отклонение, когда доступно больше статистической информации.

Статистика по населению

Популяции наборов, которые могут перекрываться, можно просто рассчитать следующим образом:

{Displaystyle {начало {выровнено} && N_ {Xcup Y} & = N_ {X} + N_ {Y} -N_ {Xcap Y} end {align}}}

Популяции наборов, которые не пересекаются, можно вычислить просто следующим образом:

{displaystyle {egin {выравнивается} Xcap Y = varnothing & Rightarrow & N_ {Xcap Y} & = 0 & Rightarrow & N_ {Xcup Y} & = N_ {X} + N_ {Y} end {align}}}

Стандартные отклонения неперекрытия (Икс ∩ Y = ∅) подгруппы могут быть агрегированы следующим образом, если размер (фактический или относительно друг друга) и средства каждой известны:

{displaystyle {egin {align} mu _ {Xcup Y} & = {frac {N_ {X} mu _ {X} + N_ {Y} mu _ {Y}} {N_ {X} + N_ {Y}}} [3pt] sigma _ {Xcup Y} & = {sqrt {{frac {N_ {X} sigma _ {X} ^ {2} + N_ {Y} sigma _ {Y} ^ {2}} {N_ {X } + N_ {Y}}} + {frac {N_ {X} N_ {Y}} {(N_ {X} + N_ {Y}) ^ {2}}} (mu _ {X} -mu _ {Y }) ^ {2}}} конец {выровнено}}}

Например, предположим, что известно, что средний рост американского мужчины составляет 70 дюймов со стандартным отклонением в три дюйма, а средний рост средней американки - 65 дюймов со стандартным отклонением в два дюйма. Также предположим, что количество мужчин, N, равно количеству женщин. Тогда среднее и стандартное отклонение роста взрослых американцев можно рассчитать как

{displaystyle {egin {выравнивается} mu & = {frac {Ncdot 70 + Ncdot 65} {N + N}} = {frac {70 + 65} {2}} = 67,5 [3pt] sigma & = {sqrt {{ гидроразрыв {3 ^ {2} + 2 ^ {2}} {2}} + {гидроразрыв {(70-65) ^ {2}} {2 ^ {2}}}}} = {sqrt {12.75}} прибл. 3.57end {выровнено}}}

В более общем случае M неперекрывающиеся популяции, Икс₁ через Икс_M, а совокупное население ${displaystyle scriptstyle X, =, igcup _ {i} X_ {i}}$ ,

{displaystyle {egin {align} mu _ {X} & = {frac {sum _ {i} N_ {X_ {i}} mu _ {X_ {i}}}} {sum _ {i} N_ {X_ {i} }}} [3pt] sigma _ {X} & = {sqrt {{frac {sum _ {i} N_ {X_ {i}} sigma _ {X_ {i}} ^ {2}} {sum _ {i } N_ {X_ {i}}}} + {frac {sum _ {i

,

где

{displaystyle X_ {i} cap X_ {j} = varnothing, quad forall i

Если размер (фактический или относительно друг друга), среднее значение и стандартное отклонение двух перекрывающихся популяций известны для популяций, а также их пересечение, то стандартное отклонение для всей совокупности все же можно рассчитать следующим образом:

{displaystyle {egin {align} mu _ {Xcup Y} & = {frac {1} {N_ {Xcup Y}}} влево (N_ {X} mu _ {X} + N_ {Y} mu _ {Y} - N_ {Xcap Y} mu _ {Xcap Y} ight) [3pt] sigma _ {Xcup Y} & = {sqrt {{frac {1} {N_ {Xcup Y}}} влево (N_ {X} [sigma _ {X} ^ {2} + mu _ {X} ^ {2}] + N_ {Y} [sigma _ {Y} ^ {2} + mu _ {Y} ^ {2}] - N_ {Xcap Y} [sigma _ {Xcap Y} ^ {2} + mu _ {Xcap Y} ^ {2}] ight) -mu _ {Xcup Y} ^ {2}}} конец {выровнено}}}

Если два или более набора данных складываются вместе точка данных за точкой данных, стандартное отклонение результата может быть вычислено, если стандартное отклонение каждого набора данных и ковариация между каждой парой наборов данных известно:

{displaystyle sigma _ {X} = {sqrt {sum _ {i} {sigma _ {X_ {i}} ^ {2}} + 2sum _ {i, j} имя оператора {cov} (X_ {i}, X_ { j})}}}

Для особого случая, когда нет корреляции между какой-либо парой наборов данных, отношение сводится к корневой сумме квадратов:

{displaystyle {egin {align} & operatorname {cov} (X_ {i}, X_ {j}) = 0, четырехъядерный для всех i

Статистика на основе выборки

Стандартные отклонения неперекрытия (Икс ∩ Y = ∅) подвыборки можно объединить следующим образом, если известны фактический размер и средства каждой:

{displaystyle {egin {align} mu _ {Xcup Y} & = {frac {1} {N_ {Xcup Y}}} влево (N_ {X} mu _ {X} + N_ {Y} mu _ {Y} ight ) [3pt] sigma _ {Xcup Y} & = {sqrt {{frac {1} {N_ {Xcup Y} -1}} left ([N_ {X} -1] sigma _ {X} ^ {2} + N_ {X} mu _ {X} ^ {2} + [N_ {Y} -1] sigma _ {Y} ^ {2} + N_ {Y} mu _ {Y} ^ {2} - [N_ { X} + N_ {Y}] mu _ {Xcup Y} ^ {2} ight)}} конец {выровнено}}}

В более общем случае M неперекрывающиеся наборы данных, Икс₁ через Икс_M, а совокупный набор данных ${displaystyle scriptstyle X, =, igcup _ {i} X_ {i}}$ ,

{displaystyle {egin {align} mu _ {X} & = {frac {1} {sum _ {i} {N_ {X_ {i}}}}} left (sum _ {i} {N_ {X_ {i}) } mu _ {X_ {i}}} ight) [3pt] sigma _ {X} & = {sqrt {{frac {1} {sum _ {i} {N_ {X_ {i}} - 1}}} left (сумма _ {i} {left [(N_ {X_ {i}} - 1) sigma _ {X_ {i}} ^ {2} + N_ {X_ {i}} mu _ {X_ {i}} ^ {2} ight]} - слева [сумма _ {i} {N_ {X_ {i}}} ight] mu _ {X} ^ {2} ight)}} конец {выровнено}}}

где

{displaystyle X_ {i} cap X_ {j} = varnothing, quad forall i

Если размер, среднее значение и стандартное отклонение двух перекрывающихся выборок известны для выборок, а также их пересечение, то стандартное отклонение агрегированной выборки все же можно рассчитать. В общем,

{displaystyle {egin {align} mu _ {Xcup Y} & = {frac {1} {N_ {Xcup Y}}} влево (N_ {X} mu _ {X} + N_ {Y} mu _ {Y} - N_ {Xcap Y} mu _ {Xcap Y} ight) [3pt] sigma _ {Xcup Y} & = {sqrt {frac {[N_ {X} -1] sigma _ {X} ^ {2} + N_ { X} mu _ {X} ^ {2} + [N_ {Y} -1] sigma _ {Y} ^ {2} + N_ {Y} mu _ {Y} ^ {2} - [N_ {Xcap Y} -1] sigma _ {Xcap Y} ^ {2} -N_ {Xcap Y} mu _ {Xcap Y} ^ {2} - [N_ {X} + N_ {Y} -N_ {Xcap Y}] mu _ { Xcup Y} ^ {2}} {N_ {Xcup Y} -1}}} конец {выровнено}}}

Смотрите также

Используется для расчета Коэна d (размер эффекта)
Объединенная ковариационная матрица
Объединенная степень свободы
Объединенное среднее

использованная литература

Killeen PR (май 2005 г.). «Альтернатива тестам значимости нулевой гипотезы». Психологические науки. 16 (5): 345–53. Дои:10.1111 / j.0956-7976.2005.01538.x. ЧВК 1473027. PMID 15869691.