Парадокс Симпсона

Парадокс Симпсона

Парадокс Симпсона (Парадокс Юла-Симпсона, парадокс объединения) – эффект, явление в статистике, когда при наличии двух групп данных, в каждой из которых наблюдается одинаково направленная зависимость, при объединении этих групп, направление зависимости меняется на противоположное.

Это явление было описано Эдвардом Симпсоном в 1951 году и Удни Юлом в 1903 году. Название «парадокс Симпсона» впервые предложил Колин Блит в 1972 году. Однако, так как Симпсон не был первооткрывателем этого эффекта, некоторые авторы используют безличные названия, например, «парадокс объединений».

Содержание

История открытия парадокса

Первый раз рассматриваемая ситуация отмечена Карлом Пирсоном в книге «Математический вклад в теорию эволюции» (Philosophical Transactions of the Royal Society A, 192, (1899), p. 278). Он рассматривает зависимость признаков разнородных групп лошадей. У.Юл делает более подробный анализ подобных популяционных изменений, изучая механизмы наследственности. Симпсон рассматривает то, что он называет «любопытным случаем» в нескольких разделах статьи "The Interpretation of Interaction in Contingency Tables", Journal of the Royal Statistical Society, B, 13, (1951), pp. 238-241. Симпсон был первым автором, изучавшим это явление с точки зрения статистики. Поэтому впоследствии математик К.Р.Блайт в статье "On Simpson’s Paradox and the Sure-Thing Principle", (Journal of the American Statistical Association, 67, (1972), p. 364) вводит термин парадокс Симпсона.

Примеры

Пример М. Гарднера с камнями

Пусть мы имеем четыре набора камней. Вероятность вытащить чёрный камень из набора № 1 выше, чем из набора № 2. В свою очередь, вероятность вытащить чёрный камень из набора № 3 больше, чем из набора № 4. Объединим набор № 1 с набором № 3 (получим набор I), а набор № 2 — с набором № 4 (набор II). Интуитивно можно ожидать, что вероятность вытащить чёрный камень из набора I будет выше, чем из набора II. Однако, в общем случае такое утверждение неверно.

Математическое доказательство такое. Пусть n_i~ — число чёрных камней в i~-ом наборе (выборке), m_i~ — общее число камней в i~-ом наборе при i=1, 2, 3, 4~. По условию:

\frac{n_1}{m_1} > \frac{n_2}{m_2}, \frac{n_3}{m_3} > \frac{n_4}{m_4}.

Вероятность вытащить чёрный камень из наборов I и II, соответственно:

\frac{n_1 + n_3}{m_1 + m_3}, \frac{n_2 + n_4}{m_2 + m_4}.

Выражение для набора I не всегда больше выражения для набора II. Например: n_1 = 6,~m_1 = 13,~n_2 = 4,~m_2 = 9,~n_3 = 6,~m_3 = 9,~n_4 = 9,~m_4 = 14.

Легко проверить, что 6/13 > 4/9,~6/9 > 9/14. В то время как 12/22 < 13/23~.


Применение

Парадокс Симпсона иллюстрирует неправомерность некоторых иногда опасных для жизни обобщений. Так, например, в ходе эксперимента в группе мужчин и группе женщин, больных одной и той же болезнью, к стандартному лечению прибавили новый лекарственный препарат. Результат по обеим группам в отдельности подтверждал эффективность нового средства.

Мужчины Принимавшие лекарство Не принимавшие лекарство
Выздоровевшие 700 80
Невыздоровевшие 800 130
Соотношение 0.875 0.615
Женщины Принимавшие лекарство Не принимавшие лекарство
Выздоровевшие 150 400
Невыздоровевшие 70 280
Соотношение 2.142 1.429


Интуитивно кажется, что если в обеих группах прослеживается зависимость, она должна проявиться и при объединении этих групп. Но хотя соотношение выздоровевших и больных среди и женщин, и мужчин, принимавших лекарство, больше чем среди тех из них, кто его не использовал, в агрегированных данных эта закономерность не сохраняется.


Сумма Принимавшие лекарство Не принимавшие лекарство
Выздоровевшие 850 480
Невыздоровевшие 870 410
Соотношение 0.977 1.171

Соотношение в агрегированных данных 850/870<480/410, то есть 0,977<1,171. Следовательно, доля выздоровевших среди принимавших лекарство меньше той же доли среди не принимавших.

Причина парадокса заключается в неправильном переносе выводов, справедливых для отдельных групп людей, на их объединение. Одним из способов разрешения парадокса является использование формулы полной вероятности. Парадокс Симпсона показывает, что выводы из результатов соцопросов и непрофессиональных с точки зрения статистики экспериментов, нельзя принимать, как неопровержимые, доказанные научным путем.

Ссылки и источники

См. также


Wikimedia Foundation. 2010.

Игры ⚽ Поможем написать реферат

Полезное


Смотреть что такое "Парадокс Симпсона" в других словарях:

  • Парадокс Уилла Роджерса — Феномен Уилла Роджерса  кажущийся парадокс, заключающийся в том, что перемещение (численного) элемента из одного множества в другое может увеличить среднее значение обоих множеств. Название основывается на следующей цитате, приписываемой… …   Википедия

  • Список парадоксов — …   Википедия

  • Парадоксы —       Служебный список статей, созданный для координации работ по развитию темы.   Данное предупреждение не устанавливается на информационные статьи списки и глоссари …   Википедия

  • Феномен Уилла Роджерса — Феномен Уилла Роджерса  кажущийся парадокс, заключающийся в том, что перемещение (численного) элемента из одного множества в другое может увеличить среднее значение обоих множеств. Название основывается на цитате, приписываемой американскому …   Википедия

  • Список эпизодов сериала «4исла» — «4исла» (англ. Numb3rs)  детективный телевизионный сериал, созданный Николасом Фалаччи и Шерил Хьютон. Премьера телесериала состоялась 23 января 2005 года, 18 мая 2010 года CBS закрыл сериал …   Википедия

  • Взвешенное среднее — Среднее взвешенное, точнее среднее арифметическое взвешенное набора вещественных чисел с вещественными весами определяется как Часто подразумевают, что сумма весов равна 1, тогда формула выглядит следующим образом: В том случае, если все веса… …   Википедия

  • Среднее арифметическое взвешенное — набора вещественных чисел с вещественными весами определяется как Часто подразумевают, что сумма весов равна 1, тогда формула выглядит следующим образом: В том случае, если все веса равны между собой, среднее арифметическое взвешенное будет равно …   Википедия

  • Биоразнообразие — (биологическое разнообразие)  разнообразие жизни во всех её проявлениях. Также под биоразнообразием понимают разнообразие на трёх уровнях организации: генетическое разнообразие (разнообразие генов и их вариантов  аллелей), видовое… …   Википедия

  • The Fall — Основная информация …   Википедия

  • Футурама — В данной статье или разделе имеется список источников или внешних ссылок, но источники отдельных утверждений остаются неясными из за отсутствия сносок …   Википедия


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»