Модель бинарного выбора

Модель бинарного выбора

Модель бинарного выбора — применяемая в эконометрике модель зависимости бинарной переменной (принимающей всего два значения — 0 и 1) от совокупности факторов. Построение обычной линейной регрессии для таких переменных теоретически некорректно, так как условное математическое ожидание таких переменных равно вероятности того, что зависимая переменная примет значение 1, а линейная регрессия допускает и отрицательные значения и значения выше 1. Поэтому обычно используются некоторые интегральные функции распределения. Чаще всего используются нормальное распределение (пробит), логистическое распределение (логит) , распределение Гомперца (гомпит).

Содержание

Сущность модели

Пусть переменная Y является бинарной, то есть может принимать только два значения, которые для упрощения предполагаются равными 1 и 0. Например, Y может означать наличие/отсутствие каких либо условий, успех или провал чего-либо, ответ да/нет в опросе и т. д. Пусть также имеется вектор регрессоров (факторов) X, которые оказывают влияние на Y.

Регрессионная модель имеет дело с условным по факторам математическим ожиданием зависимой переменной, которая в данном случае равна вероятности того, что зависимая переменная равна 1. В самом деле, по определению математического ожидания и с учетом всего двух возможных значений имеем:

  E(Y\mid X=x)=1 \cdot P(Y=1 \mid X=x)+0 \cdot P(Y=0 \mid X=x) =P(Y=1 \mid X=x)=p(x)

В связи с этим применение, например, стандартной модели линейной регрессии y=x^Tb+\varepsilon теоретически некорректно хотя бы потому, что вероятность по определению принимает ограниченные значения от 0 до 1. В связи с этим разумно моделировать p(x) через интегральные функции тех или иных распределений.

Обычно предполагается, что имеется некая скрытая (не наблюдаемая) "обычная" переменная Y^*, в зависимости от значений которой наблюдаемая переменная Y принимает значение 0 или единица:

Y=
\begin{cases}
1, Y^*>0\\
0, Y^*<0
\end{cases}

Предполагается, что скрытая переменная зависит от факторов X в смысле обычной линейной регрессии y^*=x^Tb+\varepsilon, где случайная ошибка имеет распределение F. Тогда

p(x)=P(Y^*>0|X=x)=P(x^Tb+\varepsilon>0)=P(\varepsilon>-x^Tb)=1-F(-x^Tb)

Если распределение симметричное, то можно записать

p(x)=F(x^Tb)

Экономическая интерпретация

Ещё одно обоснование заключается в использовании понятия полезности альтернатив — не наблюдаемой функции U(y,x), то есть фактически двух функций U_1(x)=x^Tb_1+\varepsilon_1 и U_0(x)=x^Tb_0+\varepsilon_0 соответственно для двух альтернатив. Логично предположить, что если при заданных значениях факторов полезность одной альтернативы больше полезности другой, то выбирается первая и наоборот. В связи с этим разумно рассмотреть функцию разности полезностей альтернатив \Delta U(x)=U_1(x)-U_0(x)=x^T(b_1-b_0)+(\varepsilon_1-\varepsilon_0)=x^Tb+\varepsilon. Если она больше нуля, то выбирается первая альтернатива, если меньше или равна нулю — то вторая. Таким образом, функция разности полезностей альтернатив здесь выполняет роль той самой скрытой переменной. Наличие случайной ошибки в моделях полезностей позволяет учесть не абсолютную детерминированность выбора (по крайней мене не детерминированность данным набором факторов, хотя элемент случайности выбора есть при любом наборе факторов).

Модели по видам распределений

Пробит. В пробит-модели в качестве F используется интегральная функция стандартного нормального распределения \Phi:

p(x)=1-\Phi(-x^Tb)=\Phi(x^Tb)

Логит. В логит-модели используется CDF логистического распределения:

p(x)=1-e^{-x^Tb}/(1+e^{-x^Tb})=e^{x^Tb}/(1+e^{x^Tb})

Гомпит. Используется распределение экстремальных значений - распределение Гомперца:

p(x)=1-(1-e^{e^{-x^Tb}})=e^{e^{-x^Tb}}

Оценка параметров

Оценка обычно производится методом максимального правдоподобия. Пусть имеется выборка объёма n факторов X и зависимой переменной Y. Для данного номера наблюдения используем индекс t. Вероятность получения в наблюдении t значения y_t можно смоделировать следующим образом:

P(Y=y_t) = p^{y_t}(x_t)(1-p(x_t))^{1-y_t} = (1-F(-x^T_tb))^{y_t}F^{1-y_t}(-x^T_tb)

В самом деле, если y_t=1, то второй множитель очевидно равен 1, а первый как раз p(x_t), если же y_t=0, то первый множитель равен единице, а второй — (1-p(x_t)). Предполагается, что данные независимы. Поэтому функцию правдоподобия можно получить как произведение вышеуказанных вероятностей:

L(b)=\prod^n_{t=1} (1-F(-x^T_tb))^{y_t}F^{1-y_t}(-x^T_tb)

Соответственно логарифмическая функция правдоподобия имеет вид:

 l(b)=\sum^n_{t=1} y_t \ln (1-F(-x^T_tb))+(1-y_t)\ln F(-x^T_tb)

Максимизация данной функции по неизвестным параметрам позволяет получить состоятельные, асимптотически эффективные и асимптотически нормальные оценки параметров. Последнее означает, что:

\sqrt{n}(\hat b - b)\ \xrightarrow{d}\ \mathcal{N}(0,\,\Omega^{-1}),

где \Omega^{-1} — асимптотическая ковариационная матрица оценок параметров, которая определяется стандартным для метода максимального правдоподобия способом (через гессиан или градиент логарифмической функции правдоподобия в оптимальной точке).

Показатели качества и тестирование модели

LR= 2(l_1-l_0),

где l_1,  l_0 — значения логарифмической функции правдоподобия оцененной модели и ограниченной модели, в которой p(x) является константой (не зависит от факторов x, исключая константу из множества факторов).

Данная статистика, как и в общем случае использования метода максимального правдоподобия, позволяет тестировать статистическую значимость модели в целом. Если её значение достаточно большое (больше критического значения распределения \chi^2(k), где k-количество факторов (без константы) модели), то модель можно признать статистически значимой.

Также используются аналоги классического коэффициента детерминации, например:

  • Псевдо-коэффициент детерминации:
R^2_{pseudo} = 1-\frac {1}{1+LR/n}=\frac {LR}{LR+n}
  • Коэффициент детерминации МакФаддена (индекс отношения правдоподобия):
R^2_{McFadden}=LRI = 1-l_1/l_0

Оба показателя меняются в пределах от 0 до 1.

  • Информационные критерии: информационный критерий Акаике (AIC), байесовский информационный критерий Шварца (BIC, SC), критерий Хеннана-Куина (HQ).

Важное значение имеет анализ доли правильных прогнозов в зависимости от выбранного порога классификации (с какого уровня вероятности принимается значение 1). Обычно применяется ROC-кривая для оценки качества модели и показатель AUC - площадь под ROC-кривой.

  • Статистика Хосмера-Лемешоу (H-L, HL, Hosmer-Lemeshow). Для расчета данной статистики выборка разбивается на несколько подвыборок, по каждой из которых определяются — фактическая доля данных со значением зависимой переменной 1, то есть фактически среднее значение зависимой переменной по подвыборке
p_j=\overline{y}_j=\sum^{n_j}_{i=1} {y}_{ij}/n_j
и предсказанная средняя вероятность по подруппе
\overline{\hat p}_j=\sum^{n_j}_{i=1}\hat {p}_{ij}/n_j.
Тогда значение статистики HL определяется по формуле
HL=\sum^J_{j=1}\frac {n_j(p_j-\overline {\hat{p}}_j)^2}{\overline {\hat{p}}_j (1-\overline {\hat{p}}_j)}

Точное распределение данной статистики неизвестно, однако авторы методом симуляций установили, что оно аппроксимируется распределением \chi^2(J-2).

  • Статистика Эндрюса (Andrews)

См. также

Литература

  • Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Начальный курс. — М.: Дело, 2007. — 504 с. — ISBN 978-5-7749-0473-0.
  • Greene, William H. (1997) Econometric Analysis, 3rd edition, Prentice-Hall.
  • Andrews, Donald W.K. (1988) “Chi-Square Diagnostic Tests for Econometric Models: Theory,” Econometrica, 56, 1419–1453.
  • Andrews, Donald W.K. (1988) “Chi-Square Diagnostic Tests for Econometric Models: Introduction and Applications,” Journal of Econometrics, 37, 135–156.
  • Hosmer, David W. Jr. and Stanley Lemeshow (1989) Applied Logistic Regression, John Wiley & Sons.

Wikimedia Foundation. 2010.

Игры ⚽ Нужен реферат?

Полезное


Смотреть что такое "Модель бинарного выбора" в других словарях:

  • Пробит-регрессия — (пробит модель, англ. probit)  применяемая в различных областях (эконометрика, токсикология и др.) статистическая (нелинейная) модель и метод анализа зависимости качественных (в первую очередь  бинарных) переменных от множества… …   Википедия

  • Цензурированная регрессия — (англ. Censored regression) регрессия, с зависимой переменной, наблюдаемой с ограничением (цензурированием) возможных значений. При этом модель может быть цензурирована только с одной стороны (снизу или сверху) или с обоих сторон.… …   Википедия

  • Логистическая регрессия — или логит регрессия (англ. logit model)  это статистическая модель, используемая для предсказания вероятности возникновения некоторого события путём подгонки данных к логистической кривой. Содержание 1 Описание 1.1 Подбор параметров …   Википедия

  • ROC-кривая — ROC кривые трёх методов предсказания эпитопов ROC кривая (англ. receiver operating characteristic, операционная характеристика приёмника)  график, позволяющий оцен …   Википедия

  • Перцептрон — Логическая схема перцептрона с тремя выходами Перцептрон, или персептрон[nb 1] (англ. perceptron от …   Википедия

  • Персептрон — Логическая схема перцептрона с тремя выходами Перцептрон, или персептрон[nb 1] (англ. perceptron от лат. perceptio  восприятие; нем. perzeptron)  математическая и компьютерная модель восприятия информации мозгом (кибернетическая модель мозга),… …   Википедия

  • Список алгоритмов — Эта страница информационный список. Основная статья: Алгоритм Ниже приводится список алгоритмов, группированный по категориям. Более детальные сведения приводятся в списке структур данных и …   Википедия

  • Программируемые алгоритмы —       Служебный список статей, созданный для координации работ по развитию темы.   Данное предупреждение не устанавл …   Википедия


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»