Разное

Хи квадрат метод: Критерий хи-квадрат

Критерий хи-квадрат

Проведем мысленный эксперимент.

Мы скрестили два растения гороха. Получили следующее потомство:

Что же делать с полученными результатами???

Так как мы с Вами исследователи, будем предлагать различные гипотезы. Я предлагаю такую:

То есть я говорю, что мы получили в эксперименте расщепление 10 : 4 : 3 : 1.

Любой человек, который изучал генетику, скажет, что я говорю глупости, а в эксперименте наблюдается классическое расщепление 9 : 3 : 3 : 1.

Кто же прав?

Последователи Дарвина укрепляли позиции эволюционной теории в жарких спорах не без применения кулаков.

Мы с Вами живем, к сожалению не в 19 веке, сейчас в ученом сообществе для этих целей используют математику.

Инструментом для проверки гипотез расщепления служит хи-квадрат .

Как им пользоваться?

Хи-квадрат вычисляется по следующей формуле:

Т. е. сначала мы смотрим сколько у нас есть различных групп (растений/животных), чье соотношение мы проверяем. В нашем случае всего четыре группы: ЖГ, ЗГ, ЖМ и ЗМ. Затем мы выбираем гипотезу, которую хотим проверить. Выберем для начала мою: соотношение признаков 10 : 4 : 3 : 1.

В идеальном случае из 556 растений (315 + 108 + 101 + 32), которые получились в опыте, 10/18 (10/10+4+3+1) часть

имела бы желтые гладкие семена, 4/18 были бы с зелеными гладкими и т.д. В числах это 308,8 (556 * 10/18), 123,6 и т.д.

Такие гипотетические численные значения в формуле обозначены Ожидаемое . Соответственно Наблюдаемое — это то, что мы увидели в опыте: 315, 108 … Вычислим значение хи-квадрат для гипотезы 10 : 4 : 3 : 1. хи-квадрат = (315 — 308,8) 2 /308,8 + (108 — 123,6) 2 /123,6 + (101 — 92,7) 2 /92,7 + (32 — 30,9) 2 /30,9 = 2,88

Теперь самое главное.

Что делать с вычисленным значением хи-квадрат?

Итак, что мы можем сказать о значении хи-квадрат, думая своей головой?

Чем оно больше, тем меньше наше доверие к гипотезе.

Потому что это означает, что наблюдаемые значения очень сильно отличаются

от ожидаемых.

Оценивать это значение можно только с учетом количества групп в опыте (в нашем случае их четыре).

Оценивают хи-квадрат обычно с помощью таблиц.

В таких таблицах пишут: по вертикали количество степеней свободы (для наших целей это число на единицу меньшее количества групп). Количество степеней свободы часто обозначают df (degree of freedom), а формула для его вычисления: df = кол-во групп — 1 по горизонтали: вероятность наблюдаемого значения быть случайным отклонением .

Сделаем умственное упражнение: если эта вероятность мала, то мы доверяем гипотезе или нет? Правильно! Нет.

Как определить количество групп?

Для этого не нужно быть изобретателем хи-квадрата. Достаточно уметь считать.

В нашем случае у нас раз, два, три, четыре! группы: (Желтые гладкие, Зеленые гладкие,

Желтые морщинистые, Зеленые морщинистые). Теперь вопрос на засыпку: если мы будем смотреть только наследование цвета, то сколько будет групп? Правильный ответ: 2 (желтые и зеленые).А чему будет равно кол-во степеней свободы?

Правильный ответ: 1 (количество групп минус 1).

Но вернемся к нашим баранам горохам.

Табл. 1. Значения хи-квадрат

Попробуем оценить по этой таблице вероятность того, что отклонения от гипотезы 10 :4 : 3 : 1 в опыте случайны.

Количество степеней свободы: 3 . Значение хи-квадрат: 2,88 . Из табл. видно, что данная вероятность находится где-то между 0,9 и 0,1. Принято доверять гипотезе, если вероятность >= 0,1 (это называется уровень значимости 0,1), или если она >= 0,05 (уровень значимости 0,05).

Значит моя гипотеза вполне подходит, несмотря на то, что она мало согласуется с генетикой!

Попробуйте вычислить значение хи-квадрат для гипотезы 9 : 3 : 3 : 1 самостоятельно.

# Генетика

Распределение «хи-квадрат» и его применение

Министерство образования и науки Российской Федерации

Федеральное агентство по образованию города Иркутска

Байкальский государственный университет экономики и права

Кафедра Информатики и Кибернетики

Распределение «хи-квадрат» и его применение

Самостоятельная работа

Автор работы:

Колмыкова Анна Андреевна

студентка 2 курса

группы ИС-09-1

Иркутск 2010

Введение

1. Распределение «хи-квадрат»

2. «Хи-квадрат» в задачах статистического анализа данных

Приложение

Заключение

Список используемой литературы

Как подходы, идеи и результаты теории вероятностей используются в нашей жизни?

Базой является вероятностная модель реального явления или процесса, т.е. математическая модель, в которой объективные соотношения выражены в терминах теории вероятностей. Вероятности используются, прежде всего, для описания неопределенностей, которые необходимо учитывать при принятии решений. Имеются в виду, как нежелательные возможности (риски), так и привлекательные («счастливый случай»). Иногда случайность вносится в ситуацию сознательно, например, при жеребьевке, случайном отборе единиц для контроля, проведении лотерей или опросов потребителей.

Теория вероятностей позволяет по одним вероятностям рассчитать другие, интересующие исследователя.

Вероятностная модель явления или процесса является фундаментом математической статистики. Используются два параллельных ряда понятий – относящиеся к теории (вероятностной модели) и относящиеся к практике (выборке результатов наблюдений). Например, теоретической вероятности соответствует частота, найденная по выборке. Математическому ожиданию (теоретический ряд) соответствует выборочное среднее арифметическое (практический ряд). Как правило, выборочные характеристики являются оценками теоретических. При этом величины, относящиеся к теоретическому ряду, «находятся в головах исследователей», относятся к миру идей (по древнегреческому философу Платону), недоступны для непосредственного измерения. Исследователи располагают лишь выборочными данными, с помощью которых они стараются установить интересующие их свойства теоретической вероятностной модели.

Зачем же нужна вероятностная модель? Дело в том, что только с ее помощью можно перенести свойства, установленные по результатам анализа конкретной выборки, на другие выборки, а также на всю так называемую генеральную совокупность. Термин «генеральная совокупность» используется, когда речь идет о большой, но конечной совокупности изучаемых единиц. Например, о совокупности всех жителей России или совокупности всех потребителей растворимого кофе в Москве. Цель маркетинговых или социологических опросов состоит в том, чтобы утверждения, полученные по выборке из сотен или тысяч человек, перенести на генеральные совокупности в несколько миллионов человек. При контроле качества в роли генеральной совокупности выступает партия продукции.

Чтобы перенести выводы с выборки на более обширную совокупность, необходимы те или иные предположения о связи выборочных характеристик с характеристиками этой более обширной совокупности. Эти предположения основаны на соответствующей вероятностной модели.

Конечно, можно обрабатывать выборочные данные, не используя ту или иную вероятностную модель. Например, можно рассчитывать выборочное среднее арифметическое, подсчитывать частоту выполнения тех или иных условий и т.п. Однако результаты расчетов будут относиться только к конкретной выборке, перенос полученных с их помощью выводов на какую-либо иную совокупность некорректен. Иногда подобную деятельность называют «анализ данных». По сравнению с вероятностно-статистическими методами анализ данных имеет ограниченную познавательную ценность.

Итак, использование вероятностных моделей на основе оценивания и проверки гипотез с помощью выборочных характеристик – вот суть вероятностно-статистических методов принятия решений.

Мы остановимся на распределении («хи – квадрат»). Впервые это распределение было исследовано астрономом Ф.Хельмертом в 1876 году. В связи с гауссовской теорией ошибок он исследовал суммы квадратов n независимых стандартно нормально распределенных случайных величин. Позднее Карл Пирсон (Karl Pearson) дал имя данной функции распределения «хи – квадрат». И сейчас распределение носит его имя.

Благодаря тесной связи с нормальным распределением, χ2-распределение играет важную роль в теории вероятностей и математической статистике. χ2-распределение, и многие другие распределения, которые определяются посредством χ2-распределения (например — распределение Стьюдента), описывают выборочные распределения различных функций от нормально распределенных результатов наблюдений и используются для построения доверительных интервалов и статистических критериев.

Распределение Пирсона (хи — квадрат) – распределение случайной величины где X1, X2,…, Xn — нормальные независимые случайные величины, причем математическое ожидание каждой из них равно нулю, а среднее квадратическое отклонение — единице.

Сумма квадратов

распределена по закону («хи – квадрат»).

Функция распределения χ2 имеет вид:

если χ2≥0. (2.7.)

Рисунок 1 Зависимость плотности вероятности φ (x) в распределении χ2 (хи – квадрат) при разном числе степеней свободы.

Моменты распределения «хи-квадрат»:

M[χ2]=n

D[χ2]=2n

Распределение «хи-квадрат» используют при оценивании дисперсии (с помощью доверительного интервала), при проверке гипотез согласия, однородности, независимости, прежде всего для качественных (категоризованных) переменных, принимающих конечное число значений, и во многих других задачах статистического анализа данных.

Статистические методы анализа данных применяются практически во всех областях деятельности человека. Их используют всегда, когда необходимо получить и обосновать какие-либо суждения о группе (объектов или субъектов) с некоторой внутренней неоднородностью.

Современный этап развития статистических методов можно отсчитывать с 1900 г., когда англичанин К. Пирсон основал журнал «Biometrika». Первая треть ХХ в. прошла под знаком параметрической статистики. Изучались методы, основанные на анализе данных из параметрических семейств распределений, описываемых кривыми семейства Пирсона. Наиболее популярным было нормальное распределение. Для проверки гипотез использовались критерии Пирсона, Стьюдента, Фишера. Были предложены метод максимального правдоподобия, дисперсионный анализ, сформулированы основные идеи планирования эксперимента.

Распределение «хи-квадрат» является одним из наиболее широко используемых в статистике для проверки статистических гипотез. На основе распределения «хи-квадрат» построен один из наиболее мощных критериев согласия – критерий «хи-квадрата» Пирсона.

Критерием согласия называют критерий проверки гипотезы о предполагаемом законе неизвестного распределения.

Критерий χ2 («хи-квадрат») используется для проверки гипотезы различных распределений. В этом заключается его достоинство.

Расчетная формула критерия равна

где m и m’ — соответственно эмпирические и теоретические частоты

рассматриваемого распределения;

n — число степеней свободы.

Для проверки нам необходимо сравнивать эмпирические (наблюдаемые) и теоретические (вычисленные в предположении нормального распределения) частоты.

При полном совпадении эмпирических частот с частотами, вычисленными или ожидаемыми S (Э – Т) = 0 и критерий χ2 тоже будет равен нулю. Если же S ( Э – Т) не равно нулю это укажет на несоответствие вычисленных частот эмпирическим частотам ряда. В таких случаях необходимо оценить значимость критерия χ2, который теоретически может изменяться от нуля до бесконечности. Это производится путем сравнения фактически полученной величины χ2ф с его критическим значением (χ2st). Нулевая гипотеза, т. е. предположение, что расхождение между эмпирическими и теоретическими или ожидаемыми частотами носит случайный характер, опровергается, если χ2ф больше или равно χ2st для принятого уровня значимости (a) и числа степеней свободы (n).

Распределение вероятных значений случайной величины χ2 непрерывно и ассиметрично. Оно зависит от числа степеней свободы (n) и приближается к нормальному распределению по мере увеличения числа наблюдений. Поэтому применение критерия χ2 к оценке дискретных распределений сопряжено с некоторыми погрешностями, которые сказываются на его величине, особенно на малочисленных выборках. Для получения более точных оценок выборка, распределяемая в вариационный ряд, должна иметь не менее 50 вариантов. Правильное применение критерия χ2 требует также, чтобы частоты вариантов в крайних классах не были бы меньше 5; если их меньше 5, то они объединяются с частотами соседних классов, чтобы в сумме составляли величину большую или равную 5. Соответственно объединению частот уменьшается и число классов (N). Число степеней свободы устанавливается по вторичному числу классов с учетом числа ограничений свободы вариации.

Так как точность определения критерия χ2 в значительной степени зависит от точности расчета теоретических частот (Т), для получения разности между эмпирическими и вычисленными частотами следует использовать неокругленные теоретические частоты.

В качестве примера возьмем исследование, опубликованное на сайте, который посвящен применению статистических методов в гуманитарных науках.

Критерий «Хи-квадрат» позволяет сравнивать распределения частот вне зависимости от того, распределены они нормально или нет.

Под частотой понимается количество появлений какого-либо события. Обычно, с частотой появления события имеют дело, когда переменные измерены в шкале наименований и другой их характеристики, кроме частоты подобрать невозможно или проблематично. Другими словами, когда переменная имеет качественные характеристики. Так же многие исследователи склонны переводить баллы теста в уровни (высокий, средний, низкий) и строить таблицы распределений баллов, чтобы узнать количество человек по этим уровням. Чтобы доказать, что в одном из уровней (в одной из категорий) количество человек действительно больше (меньше) так же используется коэффициент Хи-квадрат.

Разберем самый простой пример.

Среди младших подростков был проведён тест для выявления самооценки. Баллы теста были переведены в три уровня: высокий, средний, низкий. Частоты распределились следующим образом:

Высокий (В) 27 чел.

Средний (С) 12 чел.

Низкий (Н) 11 чел.

Очевидно, что детей с высокой самооценкой большинство, однако это нужно доказать статистически. Для этого используем критерий Хи-квадрат.

Наша задача проверить, отличаются ли полученные эмпирические данные от теоретически равновероятных. Для этого необходимо найти теоретические частоты. В нашем случае, теоретические частоты – это равновероятные частоты, которые находятся путём сложения всех частот и деления на количество категорий.

В нашем случае:

(В + С + Н)/3 = (27+12+11)/3 = 16,6

Формула для расчета критерия хи-квадрат:

χ2 = ∑(Э — Т)² / Т

Для обработки полученных данных используем критерий хи-квадрат.

Для этого построим таблицу распределения эмпирических частот, т.е. тех частот, которые мы наблюдаем:

Теоретически, мы ожидаем, что частоты распределятся равновероятно, т. е. частота распределится пропорционально между мальчиками и девочками. Построим таблицу теоретических частот. Для этого умножим сумму по строке на сумму по столбцу и разделим получившееся число на общую сумму (s).

Итоговая таблица для вычислений будет выглядеть так:

Категория 1

χ2 = ∑(Э — Т)² / Т

n = (R — 1), где R – количество строк в таблице.

В нашем случае хи-квадрат = 4,21; n = 2.

По таблице критических значений критерия находим: при n = 2 и уровне ошибки 0,05 критическое значение χ2 = 5,99.

Полученное значение меньше критического, а значит принимается нулевая гипотеза.

Вывод: учителя не придают значение полу ребенка при написании ему характеристики.

Таблица 1

Студенты почти всех специальностей изучают в конце курса высшей математики раздел «теория вероятностей и математическая статистика», реально они знакомятся лишь с некоторыми основными понятиями и результатами, которых явно не достаточно для практической работы. С некоторыми математическими методами исследования студенты встречаются в специальных курсах (например, таких, как «Прогнозирование и технико-экономическое планирование», «Технико-экономический анализ», «Контроль качества продукции», «Маркетинг», «Контроллинг», «Математические методы прогнозирования», «Статистика» и др. – в случае студентов экономических специальностей), однако изложение в большинстве случаев носит весьма сокращенный и рецептурный характер. В результате знаний у специалистов по прикладной статистике недостаточно.

Поэтому большое значение имеет курс «Прикладная статистика» в технических вузах, а в экономических вузах – курса «Эконометрика», поскольку эконометрика – это, как известно, статистический анализ конкретных экономических данных.

  1. Орлов А.И. Прикладная статистика. М.: Издательство «Экзамен», 2004.

  2. Гмурман В.Е. Теория вероятностей и математическая статистика. М.: Высшая школа, 1999. – 479с.

  3. Айвозян С.А. Теория вероятностей и прикладная статистика, т.1. М.: Юнити, 2001. – 656с.

  4. Хамитов Г.П., Ведерникова Т.И. Вероятности и статистика. Иркутск: БГУЭП, 2006 – 272с.

  5. Ежова Л.Н. Эконометрика. Иркутск: БГУЭП, 2002. – 314с.

  6. Мостеллер Ф. Пятьдесят занимательных вероятностных задач с решениями. М. : Наука, 1975. – 111с.

  7. Мостеллер Ф. Вероятность. М. : Мир, 1969. – 428с.

  8. Яглом А.М. Вероятность и информация. М. : Наука, 1973. – 511с.

  9. Чистяков В.П. Курс теории вероятностей. М.: Наука, 1982. – 256с.

  10. Кремер Н.Ш. Теория вероятностей и математическая статистика. М.: ЮНИТИ, 2000. – 543с.

  11. Математическая энциклопедия, т.1. М.: Советская энциклопедия, 1976. – 655с.

  12. http://psystat.at.ua/ — Статистика в психологии и педагогике. Статья Критерий Хи-квадрат. Автор: Попов О.А.

Эмпирич. (Э)

Теоретич. (Т)

(Э — Т)² / Т

Высокий

27 чел.

16,6

6,41

Средний

12 чел.

16,6

1,31

Низкий

11 чел.

16,6

1,93

«Активный»

«Старательный»

«Дисциплинированный»

Мальчики

10

5

6

Девочки

6

12

9

«Активный»

«Старательный»

«Дисциплинированный»

Итого:

Мальчики

10

5

6

21

Девочки

6

12

9

27

Итого:

16

17

15

s=48

«Активный»

«Старательный»

«Дисциплинированный»

Итого:

Мальчики

(21 * 16)/48 = 7

(21 * 17)/48 = 7.44

(21 * 15)/48 = 6.56

21

Девочки

(27 * 16)/48 = 9

(27 * 17)/48 = 9.56

(27 * 15)/48 = 8.44

27

Итого:

16

17

15

s=48

Категория 2

Эмпирич. (Э)

Теоретич. (Т)

(Э — Т)² / Т

Мальчики

«Активный»

10

7

1,28

«Старательный»

5

7,74

0,8

«Дисциплинированный»

6

6,56

0,47

Девочки

«Активный»

6

9

1

«Старательный»

12

9,56

0,62

«Дисциплинированный»

9

8,44

0,04

Сумма: 4,21

Хи-квадрат (χ2) Статистика

Что такое статистика Хи-квадрат?

Статистика хи-квадрат ( х 2 ) — это тест, который измеряет, как модель сравнивается с фактическими наблюдаемыми данными. Данные, используемые при расчете статистики хи-квадрат, должны быть случайными, необработанными, взаимоисключающими, взятыми из независимых переменных и взятыми из достаточно большой выборки. Например, результаты подбрасывания правильной монеты соответствуют этим критериям.

Тесты хи-квадрат часто используются для проверки гипотез. Статистика хи-квадрат сравнивает размер любых расхождений между ожидаемыми результатами и фактическими результатами, учитывая размер выборки и количество переменных в отношениях.

Для этих тестов используются степени свободы, чтобы определить, можно ли отвергнуть определенную нулевую гипотезу на основе общего количества переменных и выборок в эксперименте. Как и в случае с любой статистикой, чем больше размер выборки, тем надежнее результаты.

Ключевые выводы

  • Хи-квадрат ( х 2 ) Статистика — это мера разницы между наблюдаемой и ожидаемой частотой результатов набора событий или переменных.
  • Хи-квадрат полезен для анализа таких различий в категориальных переменных, особенно номинальных по своей природе.
  • χ 2 зависит от размера разницы между фактическими и наблюдаемыми значениями, степеней свободы и размера выборки.
  • χ 2 можно использовать для проверки того, связаны ли две переменные или независимы друг от друга.
  • Его также можно использовать для проверки соответствия между наблюдаемым распределением и теоретическим распределением частот. 92}{E_i} \\&\textbf{где:}\\&c=\text{Степени свободы}\\&O=\text{Наблюдаемые значения}\\&E=\text{Ожидаемые значения) }\конец{выровнено} ​χc2​=∑Ei​(Oi​−Ei​)2​где: c = Степени свободы O = Наблюдаемое значение(я)​

    Что говорит вам статистика хи-квадрат?

    Существует два основных вида тестов хи-квадрат: тест на независимость, в котором задается вопрос о взаимосвязи, например: «Есть ли связь между полом учащегося и выбором курса?»; и тест на соответствие, который спрашивает что-то вроде «Насколько хорошо монета в моей руке соответствует теоретически честной монете?»

    Анализ хи-квадрат применяется к категориальным переменным и особенно полезен, когда эти переменные являются номинальными (где порядок не имеет значения, например, семейное положение или пол).

    Независимость

    При рассмотрении пола учащегося и выбора курса можно использовать тест на независимость х 2 . Чтобы провести этот тест, исследователь собирал данные по двум выбранным переменным (пол и выбранные курсы), а затем сравнивал частоту, с которой учащиеся мужского и женского пола выбирают среди предложенных классов, используя формулу, приведенную выше, и

    χ 2 статистическая таблица.

    Если между полом и выбором курса нет связи (т. е. если они независимы), то следует ожидать, что фактическая частота, с которой студенты мужского и женского пола выбирают каждый предлагаемый курс, будет примерно равной, или, наоборот, соотношение мужчин и женщин доля студенток на любом выбранном курсе должна быть примерно равна доле студентов мужского и женского пола в выборке.

    А х 2 Тест на независимость может сказать нам, насколько вероятно, что случайный случай может объяснить любую наблюдаемую разницу между фактическими частотами в данных и этими теоретическими ожиданиями.

    Качество посадки

    χ 2 позволяет проверить, насколько хорошо выборка данных соответствует (известным или предполагаемым) характеристикам большей совокупности, которую должна представлять выборка. Это известно как хорошее соответствие.

    Если данные выборки не соответствуют ожидаемым свойствам интересующей нас совокупности, то мы не хотели бы использовать эту выборку, чтобы делать выводы о большей совокупности.

    Пример

    Например, рассмотрим воображаемую монету, вероятность выпадения орла или решки ровно 50/50, и реальную монету, которую вы подбрасываете 100 раз. Если эта монета честная, то она также будет иметь одинаковую вероятность приземления на обе стороны, и ожидаемый результат 100-кратного подбрасывания монеты состоит в том, что орел выпадет 50 раз, а решка — 50 раз.

    В этом случае х 2 может сказать нам, насколько хорошо реальные результаты 100 подбрасываний монеты соотносятся с теоретической моделью, согласно которой честная монета даст результаты 50/50. Фактический бросок может выпасть 50/50, или 60/40, или даже 9.0/10. Чем дальше действительные результаты 100 подбрасываний от 50/50, тем хуже соответствие этого набора подбрасываний теоретическому ожиданию 50/50, и тем более вероятно, что мы могли бы заключить, что эта монета на самом деле не является монетой. честная монета.

    Когда использовать критерий хи-квадрат

    Тест хи-квадрат используется, чтобы помочь определить, соответствуют ли наблюдаемые результаты ожидаемым результатам, и исключить случайность наблюдений.

    Для этого подходит критерий хи-квадрат, когда анализируемые данные взяты из случайной выборки и когда рассматриваемая переменная является категориальной переменной. Категориальная переменная состоит из таких параметров, как тип автомобиля, раса, уровень образования, мужчина или женщина, или насколько кому-то нравится политический кандидат (от очень сильно до очень мало).

    Эти типы данных часто собираются с помощью ответов на опросы или анкет. Таким образом, анализ хи-квадрат часто наиболее полезен при анализе этого типа данных.

    Как выполнить критерий хи-квадрат

    Это основные шаги, независимо от того, выполняете ли вы тест на пригодность или тест на независимость:

    • Создать таблицу наблюдаемых и ожидаемых частот;
    • Используйте формулу для расчета значения хи-квадрат;
    • Найдите критическое значение хи-квадрат, используя таблицу значений хи-квадрат или статистическую программу;
    • Определите, является ли значение хи-квадрат или критическое значение большим из двух;
    • Отклонить или принять нулевую гипотезу.

    Ограничения критерия хи-квадрат

    Критерий хи-квадрат чувствителен к размеру выборки. Отношения могут казаться значимыми, хотя это не так просто потому, что используется очень большая выборка.

    Кроме того, тест хи-квадрат не может установить, имеет ли одна переменная причинно-следственную связь с другой. Он может только установить, связаны ли две переменные.

    Для чего используется критерий хи-квадрат?

    Хи-квадрат — это статистический критерий, используемый для изучения различий между категориальными переменными из случайной выборки, чтобы оценить соответствие между ожидаемыми и наблюдаемыми результатами.

    Кто использует анализ хи-квадрат?

    Поскольку хи-квадрат применяется к категориальным переменным, он чаще всего используется исследователями, изучающими данные ответов на опросы. Этот тип исследований может варьироваться от демографии до потребительских и маркетинговых исследований, политических наук и экономики.

    Используется ли анализ хи-квадрата, когда независимая переменная является номинальной или порядковой?

    Номинальная переменная — это категориальная переменная, отличающаяся качеством, но порядок номеров которой может не иметь значения. Например, если спросить кого-нибудь о его любимом цвете, получится номинальная переменная. С другой стороны, если спросить кого-то о возрасте, получится порядковый набор данных. Хи-квадрат лучше всего применять к номинальным данным.

    Статистика хи-квадрат: как ее рассчитать / распределение

    Наблюдаемые переменные: определение


    Содержание

    Определения

    1. Что такое критерий хи-квадрат?
    2. Что такое статистика хи-квадрат?
    3. Хи-квадрат P-значения.
    4. Распределение хи-квадрат и распределение хи

    Расчеты :


    1. Как рассчитать статистику хи-квадрат:
      • Вручную (с видео)
      • Инструкции SPSS.
    2. Как проверить гипотезу хи-квадрат (с видео)

    См. также:

    • Тест хи-квадрат на нормальность.

    Посмотрите видео с обзором тестов:

    Тест хи-квадрата Введение

    Посмотрите это видео на YouTube.

    Видео не видно? Кликните сюда.

    Существует два типа тестов хи-квадрат . Оба используют статистику хи-квадрат и распределение для разных целей:

    • Критерий согласия хи-квадрат определяет, соответствуют ли данные выборки генеральной совокупности. Для получения дополнительной информации об этом типе см.:
      Тест на пригодность
      .
    • Тест хи-квадрат на независимость сравнивает две переменные в таблице непредвиденных обстоятельств, чтобы определить, связаны ли они между собой. В более общем смысле он проверяет, отличаются ли распределения категориальных переменных друг от друга.

    Вернуться к началу

    Формула статистики хи-квадрат, используемая в тесте хи-квадрат:

    Формула хи-квадрат.

    Нижний индекс «с» — это степени свободы. «O» — это наблюдаемое значение, а E — ожидаемое значение. Очень редко вам понадобится на самом деле использовать эту формулу, чтобы найти критическое значение хи-квадрат вручную. Символ суммирования означает, что вам придется выполнять расчет для каждого отдельного элемента данных в вашем наборе данных. Как вы, вероятно, можете себе представить, расчеты могут быть очень, очень длинными и утомительными. Вместо этого вы, вероятно, захотите использовать технологии:

    • Тест хи-квадрат в SPSS.
    • Хи-квадрат P-значение в Excel.

    Статистика хи-квадрат — это один из способов показать взаимосвязь между двумя категориальными переменными. В статистике есть два типа переменных: числовые (исчисляемые) переменные и нечисловые (категориальные) переменные. Статистика хи-квадрат — это отдельное число, которое говорит вам, насколько велика разница между вашими наблюдаемыми подсчетами и подсчетами, которые вы могли бы ожидать, если бы в популяции вообще не было связи.

    Существует несколько вариантов статистики хи-квадрат. Какой из них вы используете, зависит от того, как вы собрали данные и какая гипотеза проверяется. Однако во всех вариантах используется одна и та же идея, заключающаяся в том, что вы сравниваете ожидаемые значения со значениями, которые вы фактически собираете. Одна из наиболее распространенных форм может использоваться для таблиц непредвиденных обстоятельств:

    Где O — наблюдаемое значение, E — ожидаемое значение, а «i» — это «i-я» позиция в таблице непредвиденных обстоятельств.

    Низкое значение для хи-квадрат означает, что существует высокая корреляция между двумя вашими наборами данных. Теоретически, если бы ваши наблюдаемые и ожидаемые значения были равны («нет разницы»), тогда хи-квадрат был бы равен нулю — событие, которое вряд ли произойдет в реальной жизни. Решить, достаточно ли велика статистика критерия хи-квадрат, чтобы указать на статистически значимую разницу, не так просто, как кажется. Было бы неплохо, если бы мы могли сказать, что статистика критерия хи-квадрат > 10 означает разницу, но, к сожалению, это не так.

    Вы можете взять вычисленное значение хи-квадрат и сравнить его с критическим значением из таблицы хи-квадрат. Если значение хи-квадрат больше критического значения, то существует значительная разница.

    Вы также можете использовать p-значение. Сначала сформулируйте нулевую гипотезу и альтернативную гипотезу. Затем создайте кривую хи-квадрат для ваших результатов вместе с p-значением (см. Вычисление p-значения хи-квадрат в Excel). Небольшие значения p (менее 5%) обычно указывают на то, что разница значительна (или «достаточно мала»).

    Совет : Статистика хи-квадрат может использоваться только для чисел. Их нельзя использовать для процентов, пропорций, средних или подобных статистических величин. Например, если у вас есть 10 процентов от 200 человек, вам нужно будет преобразовать это число в число (20), прежде чем вы сможете запустить тестовую статистику.
    Вернуться к началу

    Тест хи-квадрат даст вам p-значение. Значение p скажет вам, являются ли результаты вашего теста значимыми или нет. Чтобы выполнить тест хи-квадрат и получить p-значение, вам нужны две части информации:

    1. Степени свободы. Это просто количество категорий минус 1.
    2. Альфа-уровень(α). Это выбираете вы или исследователь. Обычный альфа-уровень равен 0,05 (5%), но вы также можете использовать другие уровни, например 0,01 или 0,10.

     
    В элементарной статистике или статистике AP в вопросе обычно указываются как степени свободы (df), так и альфа-уровень. Обычно вам не нужно выяснять, что они из себя представляют. Вы можете вычислить df самостоятельно, но это довольно просто: посчитайте категории и вычтите 1.

    Степени свободы помещаются в виде нижнего индекса после символа хи-квадрат (Χ 2 ). Например, следующий хи-квадрат показывает 6 df:
    X 2 6 .
    И этот хи-квадрат показывает 4 df:
    X 2 4 .
    Вернуться к началу

    Geek3|Wikimedia Commons GFDL

    Распределение хи-квадрат (также называемое распределением хи-квадрат) является частным случаем гамма-распределения; Распределение хи-квадрат с n степенями свободы равно гамма-распределению с a = n/2 и b = 0,5 (или β = 2).

    Допустим, у вас есть случайная выборка из нормального распределения. Распределение хи-квадрат представляет собой распределение суммы этих случайных выборок в квадрате . степеней свободы (k) равны количеству суммируемых отсчетов. Например, если вы взяли 10 выборок из нормального распределения, то df = 10. Степени свободы в распределении хи-квадрат также являются его средним значением . В этом примере среднее значение этого конкретного распределения будет равно 10. Распределения хи-квадрат всегда смещены вправо. Однако чем больше степеней свободы, тем больше распределение хи-квадрат похоже на нормальное распределение.

    Распределение хи-бар-квадрат представляет собой смесь распределений хи-квадрат, смешанных по их степеням свободы. Вы часто будете сталкиваться с ними при проверке гипотезы с помощью неравенства.

    Использование

    Распределение хи-квадрат имеет множество применений в статистике, в том числе:

    • Оценка доверительного интервала для стандартного отклонения генеральной совокупности нормального распределения от стандартного отклонения выборки [1].
    • Независимость двух критериев классификации качественных переменных.
    • Отношения между категориальными переменными (таблицы непредвиденных обстоятельств).
    • Выборочное исследование дисперсии, когда базовое распределение является нормальным.
    • Тесты отклонений разностей между ожидаемыми и наблюдаемыми частотами (односторонние таблицы).
    • Тест хи-квадрат (критерий согласия).

    Распределение Чи

    Аналогичным распределением является распределение Чи [2]. Это распределение описывает квадратный корень переменной, распределенной согласно распределению хи-квадрат; с df = n > 0 степеней свободы имеет функцию плотности вероятности:

    f(x) = 2 (1-n/2) x (n-1) e (-(x 2 )/2) / Γ(n/2)

    Для значений, где x положителен.

    CDF для этой функции не имеет закрытой формы, но ее можно аппроксимировать рядом интегралов, используя исчисление.

    Вернуться к началу

    Статистика хи-квадрат используется для проверки гипотез. Посмотрите это видео, Как вычислить хи-квадрат .

    Хи-квадрат Статистика (от руки)

    Посмотрите это видео на YouTube.

    Видео не видно? Кликните сюда.

    Формула хи-квадрат.

    С формулой хи-квадрата сложно работать. Это в основном потому, что вы должны добавить большое количество чисел. Самый простой способ решить формулу — составить таблицу.

    Пример вопроса : 256 художников были опрошены, чтобы определить их знак зодиака. Результатами стали: Овен (29), Телец (24), Близнецы (22), Рак (19), Лев (21), Дева (18), Весы (19).), Скорпион (20), Стрелец (23), Козерог (18), Водолей (20), Рыбы (23). Проверьте гипотезу о том, что знаки зодиака равномерно распределены среди художников.

    Шаг 1: Создайте таблицу со столбцами «Категории», «Наблюдаемые», «Ожидаемые», «Остатки (Наблюдения-Exp)», «(Наблюдения-Exp) 2 » и «Компоненты (Obs-Exp)». Exp) 2 / Exp.” Не беспокойтесь о том, что они означают прямо сейчас; Мы рассмотрим это в следующих шагах.

    Шаг 2: Заполните ваши категории . Категории должны быть даны вам в вопросе. Есть 12 знаков зодиака, поэтому:

    Шаг 3: Запишите свои числа . Подсчеты — это количество каждого элемента в каждой категории в столбце 2. Вам даны подсчеты в вопросе:

    Шаг 4: Рассчитайте ожидаемое значение для столбца 3. В этом вопросе мы ожидаем, что 12 зодиака знаки должны быть равномерно распределены среди всех 256 человек, поэтому 256/12 = 21,333. Запишите это в столбце 3.

    Шаг 5: Вычтите ожидаемое значение (шаг 4) из наблюдаемого значения (шаг 3) и поместите результат в столбец «Остаток». Например, первая строка — Овен: 29-21,333=7,667.

    Шаг 6: Возведите в квадрат результаты шага 5 и поместите суммы в столбец (Наблюдения-Эксперт) 2 .

    Шаг 7: Разделите суммы на шаге 6 на ожидаемое значение (шаг 4) и поместите эти результаты в последний столбец.

    Шаг 8: Сложите (суммируйте) все значения в последнем столбце .

    Это статистика хи-квадрат: 5,094.

    Нравится объяснение? Прочтите «Руководство по статистике практического мошенничества», в котором есть еще сотни пошаговых объяснений, таких как это!

    Вернуться к началу

    Тест хи-квадрат находится в SPSS в разделе «Перекрестные таблицы».

    Пример проблемы: Запустите тест хи-квадрат в SPSS.

    Примечание. Чтобы запустить тест хи-квадрат в SPSS, у вас уже должно быть написано утверждение гипотезы. См.: Как сформулировать нулевую гипотезу.

    Посмотрите видео с инструкциями:

    Как запустить тест хи-квадрат в SPSS

    Посмотрите это видео на YouTube.

    Видео не видно? Кликните сюда.

    Шаг 1: Нажмите «Анализ», затем нажмите «Описательная статистика», затем нажмите «Перекрестные таблицы».
    Хи-квадрат в SPSS находится в команде Crosstabs.

    Шаг 2: Нажмите кнопку «Статистика». Кнопка статистики находится справа от окна кросс-таблиц. Появится новое всплывающее окно.

    Шаг 3: Нажмите «Хи-квадрат» , чтобы установить флажок, а затем нажмите «Продолжить», чтобы вернуться в окно кросс-таблиц.

    Шаг 4: Выберите переменные, которые вы хотите запустить (другими словами, выберите две переменные, которые вы хотите сравнить с помощью критерия хи-квадрат). Щелкните одну переменную в левом окне, а затем щелкните стрелку вверху, чтобы переместить переменную в «Строки». Повторите, чтобы добавить вторую переменную в окно «Столбцы».

    Шаг 5: Нажмите «Ячейки», а затем отметьте «Строки» и «Столбцы». Нажмите «Продолжить».

    Шаг 6: Нажмите «ОК», чтобы запустить тест хи-квадрат. Тесты хи-квадрат будут возвращены в нижней части выходного листа в поле «Тесты хи-квадрат».

    Шаг 7: Сравните p-значение, возвращаемое в области хи-квадрат (указано в столбце Асимп-сигнал), с выбранным вами альфа-уровнем.

    Вернуться к началу

    Посетите наш канал YouTube, чтобы получить дополнительную информацию о статистике. Найдите десятки видеороликов об основных принципах статистики, а также о том, как рассчитывать статистику с помощью Microsoft Excel.

    Посмотрите видео о том, как проверить гипотезу с помощью хи-квадрата с использованием метода p-значения:

    Тест хи-квадрат (метод P-значения)

    Посмотрите это видео на YouTube.

    Видео не видно? Кликните сюда.

    Тест хи-квадрат на независимость показывает, как связаны категориальные переменные. Есть несколько вариантов статистики; какой из них вы используете, зависит от того, как вы собрали данные. Это также зависит от того, как сформулирована ваша гипотеза. Все варианты используют одну и ту же идею; вы сравниваете значения, которые вы ожидаете получить (ожидаемые значения), со значениями, которые вы фактически собираете (наблюдаемые значения). Одна из наиболее распространенных форм может использоваться в таблице непредвиденных обстоятельств.

    Проверка гипотезы хи-квадрат подходит, если у вас есть:

    • Дискретные результаты (категориальные)
    • Дихотомические переменные.
    • Порядковые переменные.

    Например, у вас может быть клиническое исследование с гипогликемическим, нормогликемическим или гипергликемическим исходом уровня сахара в крови.


    Проверка гипотезы хи-квадрат: шаги

    Пример вопроса: Проверка гипотезы хи-квадрат со следующими характеристиками:

    1. 11 степеней свободы
    2. Статистика критерия хи-квадрат 5,094

    Примечание: Степени свободы равны количеству категорий минус 1.

    Шаг 1: Возьмите статистику хи-квадрат. Найдите p-значение в таблице хи-квадрат. Если вы не знакомы с таблицами хи-квадрат, ссылка на таблицу хи-квадрат также включает короткое видео о том, как читать таблицу. Ближайшее значение для df=11 и 5,094 находится между 0,900 и 0,950.
    Примечание . Таблица хи-квадрат не дает точных значений для каждой отдельной возможности. Если вы используете калькулятор, вы можете получить точное значение. Точное значение p равно 0,9.265.

    Шаг 2: Используйте p-значение , которое вы нашли на шаге 1. Решите, поддерживать или отвергать нулевую гипотезу. Как правило, небольшие значения p (от 1% до 5%) заставят вас отвергнуть нулевую гипотезу. Это очень большое значение p (92,65%) означает, что нулевая гипотеза должна быть отвергнута.

    Нравится объяснение? Прочтите «Руководство по статистике практического мошенничества», в котором есть еще сотни пошаговых объяснений, таких как это!

    Вернуться к началу

    Ссылка

    [1] Johns Hopkins.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *