- Парадокс Симпсона
-
В этой статье не хватает ссылок на источники информации. Информация должна быть проверяема, иначе она может быть поставлена под сомнение и удалена.
Вы можете отредактировать эту статью, добавив ссылки на авторитетные источники.
Эта отметка установлена 14 мая 2011.Парадокс Симпсона (Парадокс Юла-Симпсона, парадокс объединения) – эффект, явление в статистике, когда при наличии двух групп данных, в каждой из которых наблюдается одинаково направленная зависимость, при объединении этих групп, направление зависимости меняется на противоположное.
Это явление было описано Эдвардом Симпсоном в 1951 году и Удни Юлом в 1903 году. Название «парадокс Симпсона» впервые предложил Колин Блит в 1972 году. Однако, так как Симпсон не был первооткрывателем этого эффекта, некоторые авторы используют безличные названия, например, «парадокс объединений».
Содержание
История открытия парадокса
Первый раз рассматриваемая ситуация отмечена Карлом Пирсоном в книге «Математический вклад в теорию эволюции» (Philosophical Transactions of the Royal Society A, 192, (1899), p. 278). Он рассматривает зависимость признаков разнородных групп лошадей. У.Юл делает более подробный анализ подобных популяционных изменений, изучая механизмы наследственности. Симпсон рассматривает то, что он называет «любопытным случаем» в нескольких разделах статьи "The Interpretation of Interaction in Contingency Tables", Journal of the Royal Statistical Society, B, 13, (1951), pp. 238-241. Симпсон был первым автором, изучавшим это явление с точки зрения статистики. Поэтому впоследствии математик К.Р.Блайт в статье "On Simpson’s Paradox and the Sure-Thing Principle", (Journal of the American Statistical Association, 67, (1972), p. 364) вводит термин парадокс Симпсона.
Примеры
Пример М. Гарднера с камнями
Пусть мы имеем четыре набора камней. Вероятность вытащить чёрный камень из набора № 1 выше, чем из набора № 2. В свою очередь, вероятность вытащить чёрный камень из набора № 3 больше, чем из набора № 4. Объединим набор № 1 с набором № 3 (получим набор I), а набор № 2 — с набором № 4 (набор II). Интуитивно можно ожидать, что вероятность вытащить чёрный камень из набора I будет выше, чем из набора II. Однако, в общем случае такое утверждение неверно.
Математическое доказательство такое. Пусть — число чёрных камней в -ом наборе (выборке), — общее число камней в -ом наборе при . По условию:
Вероятность вытащить чёрный камень из наборов I и II, соответственно:
Выражение для набора I не всегда больше выражения для набора II. Например: .
Легко проверить, что . В то время как .
Применение
Парадокс Симпсона иллюстрирует неправомерность некоторых иногда опасных для жизни обобщений. Так, например, в ходе эксперимента в группе мужчин и группе женщин, больных одной и той же болезнью, к стандартному лечению прибавили новый лекарственный препарат. Результат по обеим группам в отдельности подтверждал эффективность нового средства.
Мужчины Принимавшие лекарство Не принимавшие лекарство Выздоровевшие 700 80 Невыздоровевшие 800 130 Соотношение 0.875 0.615 Женщины Принимавшие лекарство Не принимавшие лекарство Выздоровевшие 150 400 Невыздоровевшие 70 280 Соотношение 2.142 1.429
Интуитивно кажется, что если в обеих группах прослеживается зависимость, она должна проявиться и при объединении этих групп. Но хотя соотношение выздоровевших и больных среди и женщин, и мужчин, принимавших лекарство, больше чем среди тех из них, кто его не использовал, в агрегированных данных эта закономерность не сохраняется.Сумма Принимавшие лекарство Не принимавшие лекарство Выздоровевшие 850 480 Невыздоровевшие 870 410 Соотношение 0.977 1.171 Соотношение в агрегированных данных 850/870<480/410, то есть 0,977<1,171. Следовательно, доля выздоровевших среди принимавших лекарство меньше той же доли среди не принимавших.
Причина парадокса заключается в неправильном переносе выводов, справедливых для отдельных групп людей, на их объединение. Одним из способов разрешения парадокса является использование формулы полной вероятности. Парадокс Симпсона показывает, что выводы из результатов соцопросов и непрофессиональных с точки зрения статистики экспериментов, нельзя принимать, как неопровержимые, доказанные научным путем.
Ссылки и источники
- http://bayes.cs.ucla.edu/R264.pdf
- http://jeff560.tripod.com/s.html
- http://plato.stanford.edu/entries/paradox-simpson/
- Секей Г. Парадоксы в теории вероятности и математической статистики — М.: Мир, 1990. — С. 132 -133. — 240 с
- Практический пример парадокса Симпсона (на английском)
- Использование парадокса Симпсона в модели из живых бактерий
См. также
Категория:- Вероятностные парадоксы
Wikimedia Foundation. 2010.