Априорная вероятность - Prior probability

В Байесовский статистические выводы, а априорное распределение вероятностей, часто называемый просто прежнийнеопределенной величины распределение вероятностей это могло бы выразить мнение об этом количестве до того, как будут приняты во внимание некоторые свидетельства. Например, априорное может быть распределением вероятностей, представляющим относительную долю избирателей, которые проголосуют за конкретного политика на будущих выборах. Неизвестная величина может быть параметр модели или скрытая переменная а не наблюдаемая переменная.

Теорема Байеса вычисляет перенормированное поточечное произведение априорной и функция правдоподобия, чтобы произвести апостериорное распределение вероятностей, которое является условным распределением неопределенной величины с учетом данных.

Точно так же априорная вероятность из случайное событие или неопределенное предложение - это безусловная вероятность который назначается до того, как будут приняты во внимание любые соответствующие доказательства.

Приоры могут быть созданы несколькими способами.[1](стр. 27–41) Априорность может быть определена из прошлой информации, такой как предыдущие эксперименты. Апор может быть вызванный из чисто субъективной оценки опытного специалиста. An малоинформативный приор могут быть созданы для отражения баланса между результатами при отсутствии информации. Априорные значения также могут быть выбраны в соответствии с некоторыми принципами, такими как симметрия или максимизация энтропии с учетом ограничений; примерами являются Джеффрис приор или предварительная ссылка Бернардо. Когда семья сопряженные приоры существует, выбор априорного из этого семейства упрощает вычисление апостериорного распределения.

Параметры априорных распределений являются своего рода гиперпараметр. Например, если вы используете бета-распространение для моделирования распределения параметра п из Распределение Бернулли, тогда:

  • п является параметром базовой системы (распределение Бернулли), и
  • α и β - параметры априорного распределения (бета-распределение); следовательно гиперпараметры.

Сами гиперпараметры могут иметь гиперприор распределения, выражающие убеждения относительно своих ценностей. Байесовская модель с более чем одним уровнем априорной вероятности называется иерархическая байесовская модель.

Информативные приоры

An информативный приор выражает конкретную, определенную информацию о переменной. Примером может служить априорное распределение температуры в полдень завтра. Разумный подход состоит в том, чтобы сделать априорное распределение нормальное распределение с ожидаемое значение равной сегодняшней полуденной температуре, с отклонение равной дневной изменчивости атмосферной температуры или распределению температуры для этого дня в году.

Этот пример имеет общее свойство со многими априорными задачами, а именно, что апостериорное значение одной проблемы (сегодняшняя температура) становится апостериорным для другой проблемы (завтрашняя температура); ранее существовавшие доказательства, которые уже были приняты во внимание, являются частью предшествующих, и по мере накопления большего количества доказательств апостериор определяется в основном доказательствами, а не каким-либо исходным предположением, при условии, что исходное предположение допускало возможность того, что является свидетельством предлагая. Термины «предшествующий» и «апостериорный» обычно относятся к конкретным данным или наблюдениям.

Слабо информативная приоры

А слабо информативный приор выражает частичную информацию о переменной. Например, при установке предварительного распределения для температуры в полдень завтра в Сент-Луисе использовать нормальное распределение со средним значением 50 градусов по Фаренгейту и стандартным отклонением 40 градусов, что очень слабо ограничивает температуру диапазоном (10 градусов, 90 градусов). градусов) с небольшой вероятностью быть ниже -30 градусов или выше 130 градусов. Цель малоинформативного априора - регуляризация, то есть сохранять выводы в разумном диапазоне.

Неинформативные приоры


An малоинформативный приор или распространять до выражает расплывчатую или общую информацию о переменной. Термин «малоинформативный априор» употребляется неправильно. Такой априор можно также назвать не очень информативный приор, или объективный предварительный, т.е. тот, который не выявлен субъективно.

Неинформативные априорные значения могут выражать «объективную» информацию, такую ​​как «переменная положительна» или «переменная меньше некоторого предела». Самым простым и старым правилом определения неинформативности априора является принцип безразличия, который присваивает равные вероятности всем возможностям. В задачах оценки параметров использование неинформативного априорного значения обычно дает результаты, которые не слишком отличаются от обычного статистического анализа, поскольку функция правдоподобия часто дает больше информации, чем неинформативное априорное значение.

Были предприняты попытки найти априорные вероятности, т.е. распределения вероятностей в некотором смысле, логически требуемые природой состояния неопределенности; они являются предметом философских споров, причем байесовцы примерно делятся на две школы: «объективные байесовцы», которые считают, что такие априорные значения существуют во многих полезных ситуациях, и «субъективные байесовцы», которые полагают, что на практике априорные взгляды обычно представляют собой субъективные суждения мнения, которое не может быть строго оправдан (Williamson 2010). Возможно, самые сильные аргументы в пользу объективного байесовства были даны Эдвин Т. Джейнс, основанный в основном на следствиях симметрии и принципе максимума энтропии.

В качестве примера априорного априори, согласно Джейнсу (2003), рассмотрим ситуацию, в которой известно, что шар был спрятан под одной из трех чашек, A, B или C, но никакой другой информации о его местонахождении нет. . В этом случае униформа приора из п(А) = п(B) = п(C) = 1/3 интуитивно кажется единственно разумным выбором. Более формально, мы можем видеть, что проблема остается той же самой, если мы поменяем местами метки («A», «B» и «C») на чашках. Поэтому было бы странно выбирать априор, для которого перестановка меток привела бы к изменению наших прогнозов относительно того, под какой чашкой будет находиться мяч; равномерный приор - единственный, который сохраняет эту инвариантность. Если принять этот принцип инвариантности, то можно увидеть, что единый априор является логически правильным до представления этого состояния знания. Этот априор является «объективным» в том смысле, что он является правильным выбором для представления определенного состояния знаний, но он не объективен в том смысле, что он является независимой от наблюдателя особенностью мира: в действительности мяч существует под определенной чашей. , и в этой ситуации имеет смысл говорить о вероятностях только при наличии наблюдателя с ограниченными знаниями о системе.

В качестве более спорного, например, Джейнс опубликовал аргумент (Джейнс 1968) на основе Группы Ли это предполагает, что априорное представление полной неопределенности относительно вероятности должно быть Холдейн приор п−1(1 − п)−1. Джейнс приводит пример, когда он находит химическое вещество в лаборатории и спрашивает, растворяется ли оно в воде в повторных экспериментах. Холдейн приор[2] придает наибольшее значение и , что указывает на то, что образец либо будет растворяться каждый раз, либо никогда не растворяется с равной вероятностью. Однако, если кто-то заметил, что образцы химического вещества растворяются в одном эксперименте и не растворяются в другом эксперименте, тогда это предварительное значение обновляется до равномерное распределение на интервале [0, 1]. Это достигается применением Теорема Байеса к набору данных, состоящему из одного наблюдения растворения и одного наблюдения отсутствия растворения, используя вышеупомянутые предварительные данные. Априор Холдейна - это неправильное априорное распределение (это означает, что оно имеет бесконечную массу). Гарольд Джеффрис разработал систематический способ создания неинформативных априорных значений, например, Джеффрис приор п−1/2(1 − п)−1/2 для случайной величины Бернулли.

Приоры могут быть построены пропорционально Мера Хаара если пространство параметров Икс несет естественная групповая структура что оставляет неизменным наше байесовское состояние знаний (Jaynes, 1968). Это можно рассматривать как обобщение принципа инвариантности, используемого для обоснования априорной униформы над тремя чашками в приведенном выше примере. Например, в физике мы можем ожидать, что эксперимент даст одни и те же результаты независимо от нашего выбора начала координат системы координат. Это индуцирует групповую структуру группа переводов на Икс, который определяет априорную вероятность как постоянную неподходящий предварительный. Точно так же некоторые измерения естественно инвариантны к выбору произвольного масштаба (например, используются ли сантиметры или дюймы, физические результаты должны быть одинаковыми). В таком случае масштабная группа является естественной структурой группы, а соответствующая предшествующая Икс пропорциональна 1 /Икс. Иногда имеет значение, используем ли мы левоинвариантную или правоинвариантную меру Хаара. Например, левая и правая инвариантные меры Хаара на аффинная группа не равны. Бергер (1985, стр. 413) утверждает, что правоинвариантная мера Хаара является правильным выбором.

Еще одна идея, отстаиваемая Эдвин Т. Джейнс, заключается в использовании принцип максимальной энтропии (МАКСЕНТ). Мотивация в том, что Энтропия Шеннона распределения вероятностей измеряет количество информации, содержащейся в распределении. Чем больше энтропия, тем меньше информации предоставляет распределение. Таким образом, максимизируя энтропию по подходящему набору вероятностных распределений на Икс, можно найти распределение, которое является наименее информативным в том смысле, что оно содержит наименьшее количество информации, совместимое с ограничениями, которые определяют набор. Например, максимальная энтропия априорного значения в дискретном пространстве при условии, что вероятность нормализована к 1, является априорным значением, которое присваивает равную вероятность каждому состоянию. А в непрерывном случае максимальная априорная энтропия при условии, что плотность нормализована со средним нулем, а единичная дисперсия является стандартной. нормальное распределение. Принцип минимальная кросс-энтропия обобщает MAXENT на случай «обновления» произвольного априорного распределения с подходящими ограничениями в смысле максимальной энтропии.

Связанная идея, справочные приоры, был представлен Хосе-Мигель Бернардо. Здесь идея состоит в том, чтобы максимизировать ожидаемую Дивергенция Кульбака – Лейблера апостериорного распределения относительно предыдущего. Это максимизирует ожидаемую апостериорную информацию о Икс когда априорная плотность п(Икс); таким образом, в некотором смысле, п(Икс) является «наименее информативным» априорным значением X. Ссылочное априорное значение определяется в асимптотическом пределе, то есть рассматривается предел априорных значений, полученных таким образом, когда количество точек данных стремится к бесконечности. В данном случае расхождение КЛ между априорным и апостериорным распределениями определяется выражением

Вот, является достаточной статистикой для некоторого параметра . Внутренний интеграл - это расхождение KL между задними и ранее распределений, а результатом является средневзвешенное значение по всем значениям . Разделив логарифм на две части, изменив порядок интегралов во второй части и отметив, что не зависит от дает

Внутренний интеграл во второй части - это интеграл по плотности стыков . Это предельное распределение , так что у нас есть

Теперь мы используем понятие энтропии, которая в случае вероятностных распределений представляет собой отрицательное математическое ожидание логарифма вероятностной массы или функции плотности или Используя это в последнем уравнении, получаем

Проще говоря, KL - это отрицательное математическое ожидание, превышающее энтропии при условии плюс предельная (т.е. безусловная) энтропия . В предельном случае, когда размер выборки стремится к бесконечности, Теорема Бернштейна-фон Мизеса заявляет, что распределение зависит от данного наблюдаемого значения является нормальным с дисперсией, равной обратной величине информации Фишера при "истинном" значении . Энтропия нормальной функции плотности равна половине логарифма где - дисперсия распределения. В этом случае поэтому где - произвольно большой размер выборки (которому пропорциональна информация Фишера) и является «истинным» значением. Поскольку это не зависит от его можно вынуть из интеграла, и, поскольку этот интеграл по вероятностному пространству, он равен единице. Следовательно, мы можем записать асимптотику KL в виде

где пропорциональна (асимптотически большому) размеру выборки. Мы не знаем ценности . Действительно, сама идея идет вразрез с философией байесовского вывода, в котором «истинные» значения параметров заменяются априорным и апостериорным распределениями. Итак, мы удаляем заменив его на и взяв ожидаемое значение нормальной энтропии, которое мы получаем умножением на и интегрируя . Это позволяет нам объединить логарифмы, давая

Это квази-KL-дивергенция («квази» в том смысле, что квадратный корень из информации Фишера может быть ядром неправильного распределения). Из-за знака минус нам нужно минимизировать это, чтобы максимизировать расхождение KL, с которого мы начали. Минимальное значение последнего уравнения возникает там, где два распределения логарифмического аргумента, неправильные или нет, не расходятся. Это, в свою очередь, происходит, когда априорное распределение пропорционально квадратному корню из информации Фишера функции правдоподобия. Следовательно, в случае с одним параметром, ссылочные априорные значения и априорные значения Джеффриса идентичны, хотя у Джеффриса есть совсем другое обоснование.

Справочные априорные значения часто являются объективным априорным выбором в многомерных задачах, поскольку другие правила (например, Правило Джеффриса ) может привести к априори с проблемным поведением.[требуется разъяснение Приор Джеффриса связан с расхождением KL?]

Объективные априорные распределения также могут быть получены из других принципов, таких как Информация или теория кодирования (см., например, минимальная длина описания ) или частотная статистика (увидеть частотное соответствие ). Такие методы используются в Теория индуктивного вывода Соломонова. Построение объективных априорных значений было недавно введено в биоинформатику и, в частности, в биологию раковых систем, где размер выборки ограничен, а огромное количество предварительное знание доступен. В этих методах используется критерий, основанный на теории информации, такой как дивергенция KL или функция логарифма правдоподобия для двоичных задач обучения с учителем.[3] и проблемы модели смеси.[4]

Философские проблемы, связанные с неинформативными априорными значениями, связаны с выбором подходящей метрики или шкалы измерения. Предположим, мы хотим получить априор для скорости бега неизвестного нам бегуна. Мы могли бы указать, скажем, нормальное распределение как априор для его скорости, но в качестве альтернативы мы могли бы указать нормальное априорное время для времени, которое ему требуется для прохождения 100 метров, которое пропорционально обратной величине первой априорной скорости. Это очень разные приоры, но не ясно, какой из них предпочесть. Часто упускаемый из виду Джейнс[кем? ] метод трансформации групп может ответить на этот вопрос в некоторых ситуациях.[5]

Точно так же, если бы нас попросили оценить неизвестную пропорцию между 0 и 1, мы могли бы сказать, что все пропорции равновероятны, и использовать единый априор. С другой стороны, мы могли бы сказать, что все порядки величины пропорции равновероятны, логарифмический априор, который является единообразным априорным логарифмом пропорции. В Джеффрис приор пытается решить эту проблему, вычисляя априор, который выражает одно и то же убеждение, независимо от того, какая метрика используется. Приор Джеффри неизвестной пропорции п является п−1/2(1 − п)−1/2, что отличается от рекомендации Джейнса.

Приоры на основе представлений алгоритмическая вероятность используются в индуктивный вывод в качестве основы для индукции в очень общих условиях.

Практические проблемы, связанные с неинформативными априорными числами, включают требование правильности апостериорного распределения. Обычные неинформативные априоры для непрерывных неограниченных переменных неуместны. Это не должно быть проблемой, если апостериорное распределение правильное. Другой важный вопрос заключается в том, что если будет использоваться неинформативный априорный обычно, т.е. с множеством разных наборов данных, он должен иметь хорошие частотник характеристики. Обычно Байесовский не будет беспокоиться о таких вопросах, но это может быть важно в данной ситуации. Например, хотелось бы правило принятия решения на основе апостериорного распределения быть допустимый при принятой функции потерь. К сожалению, часто бывает трудно проверить допустимость, хотя некоторые результаты известны (например, Berger and Strawderman 1996). Особенно остро стоит вопрос с иерархические байесовские модели; обычные априорные решения (например, априор Джеффриса) могут давать крайне недопустимые правила принятия решений, если они используются на более высоких уровнях иерархии.

Неправильные приоры

Пусть события быть взаимоисключающими и исчерпывающими. Если теорема Байеса записана как

тогда ясно, что тот же результат был бы получен, если бы все априорные вероятности п(Ая) и п(Аj) были умножены на заданную константу; то же самое было бы верно для непрерывная случайная величина. Если суммирование в знаменателе сходится, апостериорные вероятности все равно будут суммироваться (или интегрироваться) до 1, даже если предыдущие значения этого не делают, и поэтому априорные вероятности могут быть указаны только в правильной пропорции. Продолжая эту идею, во многих случаях сумма или интеграл априорных значений может даже не быть конечной, чтобы получить разумные ответы для апостериорных вероятностей. В этом случае априор называется неподходящий предварительный. Однако апостериорное распределение не обязательно должно быть правильным, если апостериорное распределение неверно. Это ясно из того случая, когда событие B не зависит от всех Аj.

Статистики иногда[нужна цитата ][6] использовать неправильные приоры как малоинформативный априор. Например, если им нужно предварительное распределение для среднего и дисперсии случайной величины, они могут принять п(мv) ~ 1/v (за v > 0), что предполагает, что любое значение среднего «одинаково вероятно», а значение положительной дисперсии становится «менее вероятным» обратно пропорционально его значению. Многие авторы (Линдли, 1973; Де Гроот, 1937; Касс, Вассерман, 1996)[нужна цитата ] предостеречь от опасности чрезмерной интерпретации этих априорных значений, поскольку они не являются плотностями вероятностей. Единственная релевантность, которую они имеют, - это соответствующая апостериорная оценка, если она четко определена для всех наблюдений. (The Холдейн приор это типичный контрпример.[требуется разъяснение ][нужна цитата ])

Напротив, функции правдоподобия не нужно интегрировать, а функция правдоподобия, равная 1, соответствует отсутствию данных (все модели равновероятны, при отсутствии данных): правило Байеса умножает априорное значение на вероятность, а пустой продукт - это просто постоянная вероятность 1. Однако, не начав с априорного распределения вероятностей, нельзя получить апостериорное распределение вероятностей и, таким образом, невозможно интегрировать или вычислить ожидаемые значения или потери. Видеть Функция правдоподобия § Неинтегрируемость для подробностей.

Примеры

Примеры неправильных априорных порядков включают:

Обратите внимание, что эти функции, интерпретируемые как равномерные распределения, также могут интерпретироваться как функция правдоподобия при отсутствии данных, но не являются надлежащими приорами.

Примечания

  1. ^ Карлин, Брэдли П.; Луи, Томас А. (2008). Байесовские методы анализа данных (Третье изд.). CRC Press. ISBN  9781584886983.
  2. ^ Этот приор был предложен J.B.S. Холдейн в «Примечании об обратной вероятности», Mathematical Proceedings of the Cambridge Philosophical Society 28, 55–61, 1932, Дои:10.1017 / S0305004100010495. См. Также Дж. Холдейн, «Точность наблюдаемых значений малых частот», Biometrika, 35: 297–300, 1948, Дои:10.2307/2332350, JSTOR  2332350.
  3. ^ Исфахани, М. С .; Догерти, Э. Р. (2014). «Включение знаний о биологическом пути в построение априорных значений для оптимальной байесовской классификации - журналы и журнал IEEE». IEEE / ACM Transactions по вычислительной биологии и биоинформатике. 11 (1): 202–18. Дои:10.1109 / TCBB.2013.143. PMID  26355519.
  4. ^ Болуки, Шахин; Исфахани, Мохаммад Шахрох; Цянь, Сяонин; Догерти, Эдвард Р. (декабрь 2017 г.). «Включение предшествующих биологических знаний для байесовского обучения через максимальные информационные априоры, основанные на знаниях». BMC Bioinformatics. 18 (S14): 552. Дои:10.1186 / s12859-017-1893-4. ISSN  1471-2105. ЧВК  5751802. PMID  29297278.
  5. ^ Джейнс (1968), стр. 17, см. Также Джейнс (2003), глава 12. Обратите внимание, что глава 12 не доступна в онлайн-препринте, но ее можно предварительно просмотреть в Google Книгах.
  6. ^ Кристенсен, Рональд; Джонсон, Уэсли; Бранскум, Адам; Хэнсон, Тимоти Э. (2010). Байесовские идеи и анализ данных: введение для ученых и статистиков. Хобокен: CRC Press. п. 69. ISBN  9781439894798.

Рекомендации