Мультиколлинеарность

Мультиколлинеарность

Мультиколлинеарность (multicollinearity) — в эконометрике (регрессионный анализ) — наличие линейной зависимости между независимыми переменными (факторами) регрессионной модели. При этом различают полную коллинеарность, которая означает наличие функциональной (тождественной) линейной зависимости и частичную или просто мультиколлинеарность — наличие сильной корреляции между факторами.

Полная коллинеарность приводит к неопределенности параметров в линейной регрессиионной модели независимо от методов оценки. Рассмотрим это на примере следующей линейной модели

y=b_1 x_1+b_2 x_2 +b_3 x_3+\varepsilon

Пусть факторы этой модели тождественно связаны следующим образом:  x_1=x_2 + x_3. Тогда рассмотрим исходную линейную модель, в которой к первому коэффициенту добавим произвольное число a, а из двух других коэффициентов это же число вычтем. Тогда имеем (без случайной ошибки):

y=(b_1+a) x_1+(b_2-a) x_2 +(b_3-a) x_3=b_1 x_1+b_2 x_2 +b_3 x_3+a(x_1- x_2 - x_3)=b_1 x_1+b_2 x_2 +b_3 x_3

Таким образом, несмотря на относительно произвольное изменение коэффициентов модели мы получили ту же модель. Такая модель принципиально неидентифицируема. Неопределенность существует уже в самой модели. Если рассмотреть 3-мерное пространство коэффициентов, то в этом пространстве вектор истинных коэффициентов в данном случае не единственный, а представляет собой целую прямую линию! Любая точка этой прямой — истинный вектор коэффициентов.

В связи с этим проблема полной коллинеарности факторов решается уже на стадии отбора переменных при моделировании и поэтому к проблеме качества эконометрических оценок параметров отношения не имеет. На практике чаще возникает другая ситуация — сильная корреляция между факторами.

Содержание

Последствия мультиколлинеарности

Если полная коллинеарность приводит к неопределенности значений параметров, то частичная мультиколлинеарность приводит к неустойчивости их оценок. Неустойчивость выражается в увеличении статистической неопределенности — дисперсии оценок. Это означает, что конкретные результаты оценки могут сильно различаться для разных выборок несмотря на то, что выборки однородны.

Как известно ковариационная матрица оценок параметров множественной регрессии методом наименьших квадратов равна \frac {\sigma^2} {n} V^{-1}_x. Тем самым чем «меньше» ковариационная матрица (ее определитель), тем «больше» ковариационная матрица оценок параметров, и, в частности, больше диагональные элементы этой матрицы, то есть дисперсии оценок параметров. Для большей наглядности рассмотрим это на примере двухфакторной модели:

y=b_0+b_1 x_1 + b_2 x_2+\varepsilon

Тогда дисперсия оценки параметра, например, при первом факторе равна:

\sigma_{\hat{b}_1}^2=\frac {\sigma^2} {n \hat{\sigma}^2_{x_2} (1-\hat{r}^2)}

где \hat{r} — выборочный коэффициент корреляции между факторами.

Здесь наглядно видно, что чем больше по модулю корреляция между факторами, тем больше дисперсия оценок параметров. При |r| \rightarrow 1~ (полная коллинеарность) дисперсия стремится к бесконечности, что соответствует сказанному ранее.

Таким образом, оценки параметров получаются неточными, а значит сложно будет дать интерпретацию влияния тех или иных факторов на объясняемую переменную. При этом на качество модели в целом мультиколлинеарность не сказывается — она может признаваться статистически значимой, даже тогда, когда все коэффициенты незначимы (это один из признаков мультиколлинеарности).

Обнаружение мультиколлинеарности

Косвенными признаками мультиколлинеарности являются высокие стандартные ошибки оценок параметров модели, малые t-статистики (то есть назначимость коэффициентов), неправильные знаки оценок, при том, что модель в целом признается статистически значимой (большое значение F-статистики). О мультиколлинеарности также может свидетельствовать сильное изменение оценок параметров от добавления (или удаления) выборочных данных (если соблюдены требования достаточной однородности выборки).

Для обнаружения мультиколлинеарности факторов можно проанализировать непосредственно корреляционную матрицу факторов. Уже наличие больших по модулю (выше 0,7-0,8) значений коэффициентов парной корреляции свидетельствует о возможных проблемах с качеством получаемых оценок.

Однако, анализ парных коэффициентов корреляции недостаточен. Необходимо проанализировать коэффициенты детерминации регрессий факторов на остальные факторы (R^2_i). Рекомендуется рассчитывать показатель VIF=1/(1-R^2_j). Слишком высокие значения последнего означают наличие мультиколлинеарности.

Способы решения проблемы мультиколлинеарности

Метод главных компонент

Применение метода главных компонент к факторам модели позволяет преобразовать исходные факторы и получить совокупность ортогональных (некоррелированных) факторов. При этом наличие мультиколлинеарности позволит ограничится небольшим количеством главных компонент. Тем не менее, может возникнуть проблема содержательной интерпретации главных компонент.

'УЧЁТ ЗНАКОВ КОЭФФИЦИЕНТОВ КОРРЕЛЯЦИИ'''' В линейных моделях коэффициенты корреляции между параметрами могут быть положительными и отрицательными. В первом случае увеличение одного параметра сопровождается увеличением и другого параметра. Во втором случае при повышении одного параметра происходит снижение другого. Исходя из этого, можно установить допустимую и недопустимую мультиколлинеарность. Недопустимая мультиколлинеарность будет тогда, когда между факторами 1 и 2 существует значительная положительная корреляция и при этом влияние каждого фактора на корреляционную связь с функцией у однонаправленное, то есть увеличение обоих факторов 1 и 2 ведёт к увеличению или снижению функции у: ry1/ ry2 > 0. Другими словами, оба фактора действуют на функцию у одинаково и значительная положительная корреляция между ними может позволить исключить один из них. Допустимая мультиколлинеарность такова, при которой факторы действуют на функцию у неодинаково. Здесь возможны два случая: а) при значительной положительной корреляции между факторами влияние каждого фактора на корреляционную связь с функцией у разнонаправленное, т.е. увеличение одного фактора ведёт к росту функции у (ry1> 0), а увеличение другого фактора приводит к уменьшению функции у (ry2 < 0): ry1/ ry2<0; б) при значительной отрицательной корреляции между факторами увеличение одного фактора сопровождается уменьшением другого фактора и это делает факторы разнозначными, поэтому возможен любой знак влияния факторов на функцию у: ry1/ ry2 > < 0.

     При наличии недопустимой  мультиколлинеарности исключение одного из факторов проводится в следующей последовательности [Кремер, Путко], этот же подход полезен для проверки наличии допустимой  мультиколлинеарности : 

-- из двух факторов, связанных значительной корреляцией, исключается, прежде всего, фактор на основании теоретических соображений. Если такой подход не даёт результата, то исключается тот фактор, которому соответствует меньший коэффициент корреляции с функцией; -- после удаления фактора математической модели должен соответствовать больший коэффициент корреляции, чем до удаления фактора. Тогда это подтверждает наличие недопустимой мультиколлинеарности между рассмотренными факторами и правильность удаления одного из них. ( Боровский Б.И. Теория экспериментальных исследований.- Симферополь, НАПКС, 2012 )

Рекурсивный МНК

Ридж-регрессия

Ридж-регрессия или гребневая регрессия предполагает оценку параметров по следующей формуле:

\hat{b}=(X^TX+\lambda I)^{-1}X^Ty

Добавление параметра \lambda решает проблему плохой обусловленности матрицы X^TX. Эти оценки смещены, в отличие от МНК-оценок. Однако доказано, что существует такое \lambda, при котором эти оценки более эффективны, чем оценки МНК (МНК наиболее эффективны среди несмещенных оценок). Тем не менее, четких правил выбора этого параметра нет.

См. также



Wikimedia Foundation. 2010.

Игры ⚽ Нужен реферат?

Полезное


Смотреть что такое "Мультиколлинеарность" в других словарях:

  • МУЛЬТИКОЛЛИНЕАРНОСТЬ — (multicollinearity) Проблема, которая возникает в множественной регрессии (multiple regression), когда объясняющие переменные сами не являются независимыми. Это делает невозможным установление значимых коэффициентов для объясняющих переменных,… …   Экономический словарь

  • мультиколлинеарность — сущ., кол во синонимов: 1 • взаимосвязь (8) Словарь синонимов ASIS. В.Н. Тришин. 2013 …   Словарь синонимов

  • Мультиколлинеарность — [mu­l­ticollinearity] понятие математической статистики, тесная корреляционная взаимосвязь (см. Корреляция) между отбираемыми для анализа фак­торами, совместно воздействующими на общий результат. Эта связь затрудняет оценивание параметров… …   Экономико-математический словарь

  • Мультиколлинеарность — положение, при котором одна или более независимых переменных, входящих в уравнение регрессии, являются точными линейными функциями от одной или более других независимых переменных того же уравнения …   Социологический словарь Socium

  • мультиколлинеарность — Два предиктора коллинеарны, если сильна линейная связь между ними; в этом случае их можно представить в виде линейной комбинации друг друга. Когда число предикторов может быть больше двух, говорят о мультиколлинеарности. Она делает проводимые в… …   Словарь социологической статистики

  • Регрессионный анализ — Регрессионный (линейный) анализ  статистический метод исследования влияния одной или нескольких независимых переменных на зависимую переменную . Независимые переменные иначе называют регрессорами или предикторами, а зависимые… …   Википедия

  • Коэффициент детерминации — ( R квадрат) это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью зависимости, то есть объясняющими переменными. Более точно это единица минус доля необъяснённой дисперсии (дисперсии случайной ошибки модели, или условной… …   Википедия

  • взаимосвязь — взаимозависимость, взаимоотношение; координация, контакт, общение, связь, корреляция, взаимосвязанность. Ant. независимость Словарь русских синонимов. взаимосвязь см. связь 1 Словарь синонимов русского языка. Практический справочник. М.: Русский… …   Словарь синонимов

  • ИНТЕРКОРРЕЛЯЦИЯ — корреляция независимых переменных в регрессионных моделях ( Анализ регрессионный), в частности, в уравнении регрессии линейной множественной y = sum bixi а. Высокая степень выраженности И. (мультиколлинеарность), может затруднить и даже сделать… …   Социология: Энциклопедия

  • Коллинеарность — (collinearity) свойство статистических величин, элементов множества. затрудяющее анализ: когда точки находятся на одной прямой, а векторы  параллельны друг другу, отличаясь только скалярными множителями. См. Мультиколлинеарность …   Экономико-математический словарь


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»