Регрессия (математика)

Регрессия (математика)

Регре́ссия (лат. regressio — обратное движение, отход), в теории вероятностей и математической статистике, зависимость среднего значения какой-либо величины от некоторой другой величины или от нескольких величин. В отличие от чисто функциональной зависимости y=f(x), когда каждому значению независимой переменной x соответствует одно определённое значение величины y, при регрессионной связи одному и тому же значению x могут соответствовать в зависимости от случая различные значения величины y. Если при каждом значении x=xi наблюдается ni значений yi1yin1 величины y, то зависимость средних арифметических \bar y_i=(yi1+…+yin1)/ni от x=xi и является регрессией в статистическом понимании этого термина[1].

Этот термин в статистике впервые был использован Френсисом Гальтоном (1886) в связи с исследованием вопросов наследования физических характеристик человека. В качестве одной из характеристик был взят рост человека; при этом было обнаружено, что в целом сыновья высоких отцов, что не удивительно, оказались более высокими, чем сыновья отцов с низким ростом. Более интересным было то, что разброс в росте сыновей был меньшим, чем разброс в росте отцов. Так проявлялась тенденция возвращения роста сыновей к среднему (regression to mediocrity), то есть «регресс». Этот факт был продемонстрирован вычислением среднего роста сыновей отцов, рост которых равен 56 дюймам, вычислением среднего роста сыновей отцов, рост которых равен 58 дюймам, и т. д. После этого результаты были изображены на плоскости, по оси ординат которой откладывались значения среднего роста сыновей, а по оси абсцисс — значения среднего роста отцов. Точки (приближённо) легли на прямую с положительным углом наклона меньше 45°; важно, что регрессия была линейной.

Итак, допустим, имеется выборка из двумерного распределения пары случайных переменных (X, Y). Прямая линия в плоскости (x, y) была выборочным аналогом функции

g(x)=E(Y\mid X=x).

В теории вероятностей под термином «регрессия» и понимают эту функцию, которая есть не что иное как условное математическое ожидание случайной переменной Y при условии, что другая случайная переменная X приняла значение x. Если, например, пара (X, Y) имеет двумерное нормальное распределение с E(X)=μ1, E(Y)=μ2, var(X)=σ12, var(Y)=σ22, cor(X, Y)=ρ, то можно показать, что условное распределение Y при X=x также будет нормальным с математическим ожиданием, равным

E(Y\mid X=x)=\mu_2+\varrho\frac{\sigma_2}{\sigma_1}(x-\mu_1),

и дисперсией

\mathrm{var}(Y\mid X=x)=\sigma_2^2(1-\varrho^2).

В этом примере регрессия Y на X является линейной функцией. Если регрессия Y на X отлична от линейной, то приведённые уравнения суть линейная аппроксимация истинного уравнения регрессии.

В общем случае регрессия одной случайной переменной на другую не обязательно будет линейной. Также не обязательно ограничиваться парой случайных переменных. Статистические проблемы регрессии связаны с определением общего вида уравнения регрессии, построением оценок неизвестных параметров, входящих в уравнение регрессии, и проверкой статистических гипотез о регрессии[2]. Эти проблемы рассматриваются в рамках регрессионного анализа.

Простым примером регрессии Y по X является зависимость между Y и X, которая выражается соотношением: Y=u(X)+ε, где u(x)=E(Y | X=x), а случайные величины X и ε независимы. Это представление полезно, когда планируется эксперимент для изучения функциональной связи y=u(x) между неслучайными величинами y и x. На практике обычно коэффициенты регрессии в уравнении y=u(x) неизвестны и их оценивают по экспериментальным данным.

Линейная регрессия (пропедевтика)

Представим зависимость y от x в виде линейной модели первого порядка:

y=\beta_0+\beta_1 x+\varepsilon.\!

Будем считать, что значения x определяются без ошибки, β0 и β1 — параметры модели, а ε — ошибка, распределение которой подчиняется нормальному закону с нулевым средним значением и постоянным отклонением σ2. Значения параметров β заранее не известны и их нужно определить из набора экспериментальных значений (xi, yi), i=1, …, n. Таким образом мы можем записать:

\widehat{y_i}=b_0+b_1x_i+e_i, i=1,\dots , n

где \widehat{y} означает предсказанное моделью значение y при данном x, b0 и b1 — выборочные оценки параметров модели, а e_i=y_i-\widehat{y_i} — значения ошибок аппроксимации.

Для вычисления параметров модели по экспериментальным данным зачастую используют различные программы, предназначенные для статистической обработки данных. Однако для этого простого случая не сложно выписать подробные формулы[3][4].

Метод наименьших квадратов даёт следующие формулы для вычисления параметров данной модели и их отклонений:

b_1=\frac{\sum_{i=1} ^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1} ^n (x_i-\bar{x})^2};
b_0=\bar{y}-b_1\bar{x};
s_e^2=\frac{\sum_{i=1}^n (y_i-\widehat{y})^2}{n-2};
s_{b_0}=s_e \sqrt{\frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n(x_i-\bar x)^2}};
s_{b_1}=s_e \sqrt{\frac{1}{\sum_{i=1}^n(x_i-\bar x)^2}},

здесь средние значения определяются как обычно: \bar x=\frac{\sum_{i=1}^nx_i}{n}, \bar y=\frac{\sum_{i=1}^ny_i}{n} и se2 обозначает остаточное отклонение регрессии, которое является оценкой дисперсии σ2 в том случае, если модель верна.

Стандартные ошибки коэффициентов регрессии используются аналогично стандартной ошибке среднего — для нахождения доверительных интервалов и проверки гипотез. Используем, например, критерий Стьюдента для проверки гипотезы о равенстве коэффициента регрессии нулю, то есть о его незначимости для модели. Статистика Стьюдента: t=b/sb. Если вероятность для полученного значения и n−2 степеней свободы достаточно мала, например, <0,05 — гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем b1 — есть основание задуматься о существовании искомой регрессии, хотя бы в данной форме, или о сборе дополнительных наблюдений. Если же нулю равен свободный член b0, то прямая проходит через начало координат и оценка углового коэффициента равна

b=\frac{\sum_{i=1}^n x_iy_i}{\sum_{i=1}^n x_i^2},

а её стандартной ошибки

s_{b}=s_e \sqrt{\frac{1}{\sum_{i=1}^n x_i^2}}.
Линия регрессии и 95%-е доверительные области для линии регрессии (пунктиром) и для значений (сплошные границы)

Обычно истинные величины коэффициентов регрессии β0 и β1 не известны. Известны только их оценки b0 и b1. Иначе говоря истинная прямая регрессии может пройти иначе, чем построенная по выборочным данным. Можно вычислить доверительную область для линии регрессии. При любом значении x соответствующие значения y распределены нормально. Средним является значение уравнения регрессии \widehat{y}. Неопределённость его оценки характеризуется стандартной ошибкой регрессии:

s_{\widehat{y}}=s_e \sqrt{\frac{1}{n} + \frac{(x-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar x)^2}};

Теперь можно вычислить 100(1−α/2)-процентный доверительный интервал для значения уравнения регрессии в точке x:

\widehat{y}-t_{(1-\alpha/2, n-2)}s_{\widehat{y}}<y<\widehat{y}+t_{(1-\alpha/2, n-2)}s_{\widehat{y}},

где t(1−α/2, n−2)t-значение распределения Стьюдента. На рисунке показана линия регрессии, построенная по 10 точкам (сплошные точки), а также 95%-я доверительная область линии регрессии, которая ограничена пунктирными линиями. С 95%-й вероятностью можно утверждать, что истинная линия находится где-то внутри этой области. Или иначе, если мы соберём аналогичные наборы данных (обозначены кружками) и построим по ним линии регрессии (обозначены голубым цветом), то в 95 случаях из 100 эти прямые не покинут пределов доверительной области. (Для визуализации кликните по картинке) Обратите внимание, что некоторые точки оказались вне доверительной области. Это совершенно естественно, поскольку речь идёт о доверительной области линии регрессии, а не самих значений. Разброс значений складывается из разброса значений вокруг линии регрессии и неопределённости положения самой этой линии, а именно:

s_Y=s_e \sqrt{\frac{1}{m} + \frac{1}{n} + \frac{(x-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar x)^2}};

Здесь m — кратность измерения y при данном x. И 100(1−α/2)-процентный доверительный интервал (интервал прогноза) для среднего из m значений y будет:

\widehat{y}-t_{(1-\alpha/2, n-2)}s_Y<y<\widehat{y}+t_{(1-\alpha/2, n-2)}s_Y.

На рисунке эта 95%-я доверительная область при m=1 ограничена сплошными линиями. В эту область попадает 95 % всех возможных значений величины y в исследованном диапазоне значений x.

Литература

  1. БСЭ. Статья «Регрессия»
  2. Справочник по прикладной статистике. В 2-х т. Т. 1: Пер. с англ. / Под ред. Э. Ллойда, У. Ледермана, Ю. Н. Тюрина. — М.: Финансы и статистика, 1989. — 510 с. — ISBN 5-279-00245-3
  3. Лаваньини И., Маньо Ф., Сералья Р., Тральди П. Количественные методы в масс-спектрометрии — М.: Техносфера, 2008. — 176 с. — ISBN 978-5-94836-190-1; ISBN 978-0-470-02516-1 (англ.)
  4. Сергиенко В. И., Бондарева И. Б. Математическая статистика в клинических исследованиях. — 2-е изд., перераб. и доп. — М.: ГЭОТАР-Медиа, 2006. — 304 с. — ISBN 5-9704-0197-8

Ссылки

Логотип Викисловаря
В Викисловаре есть статья «регрессия»

Wikimedia Foundation. 2010.

Игры ⚽ Нужно сделать НИР?

Полезное


Смотреть что такое "Регрессия (математика)" в других словарях:

  • Регрессия — В Викисловаре есть статья «регрессия» Регрессия (лат. regressio «обратное движение, возвращение») многознач …   Википедия

  • Портал:Математика — Начинающим · Сообщество · Порталы · Награды · Проекты · Запросы · Оценивание География · История · Общество · Персоналии · Религия · Спорт · Техника · Наука · Искусство · Философия …   Википедия

  • Интерполяция — О функции, см.: Интерполянт. Интерполяция, интерполирование  в вычислительной математике способ нахождения промежуточных значений величины по имеющемуся дискретному набору известных значений. Многим из тех, кто сталкивается с научными и… …   Википедия

  • Среднее арифметическое — У этого термина существуют и другие значения, см. среднее значение. В математике и статистике среднее арифметическое одна из наиболее распространённых мер центральной тенденции, представляющая собой сумму всех наблюденных значений деленную на их… …   Википедия

  • Ящик с усами — Не следует путать с японскими свечами. График 1. Результаты эксперимента Майкельсона Морли …   Википедия

  • П:М — Начинающим · Сообщество · Порталы · Награды · Проекты · Запросы · Оценивание География · История · Общество · Персоналии · Религия · Спорт · Техника · Наука · Искусство · Философия …   Википедия

  • РЕГРЕССИОННЫЙ И КОРРЕЛЯЦИОННЫЙ АНАЛИЗ — REGRESSION AND CORRELATION ANALYSISР.а. представляет собой вычисления на основе статистической информации с целью математической оценки усредненной связи между зависимой переменной и некоторой независимой переменной или переменными. Простая… …   Энциклопедия банковского дела и финансов

  • MATLAB — Логотип Тип Программы математического моделирования Разработчик …   Википедия

  • Список эпизодов сериала «4исла» — «4исла» (англ. Numb3rs)  детективный телевизионный сериал, созданный Николасом Фалаччи и Шерил Хьютон. Премьера телесериала состоялась 23 января 2005 года, 18 мая 2010 года CBS закрыл сериал …   Википедия

  • Коэффициент корреляции — (Correlation coefficient) Коэффициент корреляции это статистический показатель зависимости двух случайных величин Определение коэффициента корреляции, виды коэффициентов корреляции, свойства коэффициента корреляции, вычисление и применение… …   Энциклопедия инвестора


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»