Разное

Хи квадрат пирсона: Тест хи-квадрат (X2)

Содержание

Тест хи-квадрат (X2)

Иллюстрированный самоучитель по SPSS > Таблицы сопряженности > Тест хи-квадрат (X2)


Статистические критерии для таблиц сопряженности — Тест хи-квадрат

Чтобы получить статистические критерии для таблиц сопряженности, щелкните на кнопке Statistics… (Статистика) в диалоговом окне Crosstabs. Откроется диалоговое окно Crosstabs: Statistics (Таблицы сопряженности: Статистика) (см. рис. 11.9).

Рис. 11.9: Диалоговое окно Crosstabs: Statistics

Флажки в этом диалоговом окне позволяют выбрать один или несколько критериев.

  • Тест хи-квадрат (X2)

  • Корреляции

  • Меры связанности для переменных, относящихся к номинальной шкале

  • Меры связанности для переменных, относящихся к порядковой шкале

  • Меры связанности для переменных, относящихся к интервальной шкале

  • Коэффициент каппа (к)

  • Мера риска

  • Тест Мак-Немара

  • Статистики Кохрана и Мантеля-Хэнзеля

Эти критерии рассматриваются в двух последующих разделах, причем из-за того, что критерий хи-квадрат имеет большое значение в статистических вычислениях, ему посвящен отдельный раздел.

Тест хи-квадрат (X2)

При проведении теста хи-квадрат проверяется взаимная независимость двух переменных таблицы сопряженности и благодаря этому косвенно выясняется зависимость обоих переменных. Две переменные считаются взаимно независимыми, если наблюдаемые частоты (fо) в ячейках совпадают с ожидаемыми частотами (fe).

Для того, чтобы провести тест хи-квадрат с помощью SPSS, выполните следующие действия:

  • Выберите в меню команды Analyze (Анализ) ► Descriptive Statistics (Дескриптивные статистики) ► Crosstabs… (Таблицы сопряженности)

  • Кнопкой Reset (Сброс) удалите возможные настройки.

  • Перенесите переменную sex в список строк, а переменную psyche — в список столбцов.

  • Щелкните на кнопке Cells… (Ячейки). В диалоговом окне установите, кроме предлагаемого по умолчанию флажка Observed, еще флажки Expected и Standardized. Подтвердите выбор кнопкой Continue.

  • Щелкните на кнопке Statistics… (Статистика). Откроется описанное выше диалоговое окно Crosstabs: Statistics.

  • Установите флажок Chi-square (Хи-квадрат). Щелкните на кнопке Continue, а в главном диалоговом окне — на ОК.

Вы получите следующую таблицу сопряженности.

Пол * Психическое состояние Таблица сопряженности

Психическое состояниеTotal
Крайне неустойчивоеНеустойчивоеУстойчивоеОчень устойчивое
ПолЖенскийCount161891
44
Expected Count7,916,617,02,544,0
Std. Residual2,9,3-1,9-.9
МужскойCount32232562
Expected Count11,123,424,03,562,0
Std. Residual-2,4-,31,6,8
TotalCount19
40
416106
Expected Count19,040,041,06,0106,0

Кроме того, в окне просмотра будут показаны результаты теста хи-квадрат:

Chi-Square Tests (Тесты хи-квадрат)

Value (Значение)dfAsymp. Sig. (2-sided)
(Асимптотическая значимость (двусторонняя))
Pearson Chi-Square
(Хи-квадрат по Пирсону)
22,455 (а)3,000
Likelihood Ratio
(Отношение правдоподобия)
23,6883,000
Linear-by-Linear Association
(Зависимость линейный-линейный)
20,3911,000
N of Valid Cases
(Кол-во допустимых случаев)
106

а.

2 cells (25,0%) have expected count less than 5. The minimum expected count is 2,49 (2 ячейки (25%) имеют ожидаемую частоту менее 5. Минимальная ожидаемая частота 2,49.)

Для вычисления критерия хи-квадрат применяются три различных подхода:

  • формула Пирсона;
  • поправка на правдоподобие;
  • тест Мантеля-Хэнзеля.
  • Если таблица сопряженности имеет четыре поля (таблица 2 x 2) и ожидаемая вероятность менее 5, дополнительно выполняется точный тест Фишера.

Критерий хи-квадрат по Пирсону

Обычно для вычисления критерия хи-квадрат используется формула Пирсона:

Здесь вычисляется сумма квадратов стандартизованных остатков по всем полям таблицы сопряженности. Поэтому поля с более высоким стандартизованным остатком вносят более весомый вклад в численное значение критерия хи-квадрат и, следовательно, — в значимый результат. Согласно правилу, приведенному в разделе 8.9, стандартизованный остаток 2 (1,96) или более указывает на значимое расхождение между наблюдаемой и ожидаемой частотами в той или ячейке таблицы.

В рассматриваемом примере формула Пирсона дает максимально значимую величину критерия хи-квадрат (р<0,0001). Если рассмотреть стандартизованные остатки в отдельных полях таблицы сопряженности, то на основе вышеприведенного правила можно сделать вывод, что эта значимость в основном определяется полями, в которых переменная psyche имеет значение «крайне неустойчивое». У женщин это значение сильно повышено, а у мужчин — понижено.

Корректность проведения теста хи-квадрат определяется двумя условиями:

  • ожидаемые частоты < 5 должны встречаться не более чем в 20% полей таблицы;
  • суммы по строкам и столбцам всегда должны быть больше нуля.

Однако в рассматриваемом примере это условие выполняется не полностью. Как указывает примечание после таблицы теста хи-квадрат, 25% полей имеют ожидаемую частоту менее 5. Однако, так как допустимый предел в 20% превышен лишь ненамного и эти поля, вследствие своего очень малого стандартизованного остатка, вносят весьма незначительную долю в величину критерия хи-квадрат, это нарушение можно считать несущественным.

Критерий хи-квадрат с поправкой на правдоподобие

Альтернативой формуле Пирсона для вычисления критерия хи-квадрат является поправка на правдоподобие:

При большом объеме выборки формула Пирсона и подправленная формула дают очень близкие результаты. В нашем примере критерий хи-квадрат с поправкой на правдоподобие составляет 23,688.

Тест Мантеля-Хэнзеля

Дополнительно в таблице сопряженности под обозначением linear-by-linear («линейный-по-линейному») выводится значение теста Мантеля-Хэнзеля (20,391). Эта форма критерия хи-квадрат с поправкой Мантеля-Хэнзеля — еще одна мера линейной зависимости между строками и столбцами таблицы сопряженности. Она определяется как произведение коэффициента корреляции Пирсона на количество наблюдений, уменьшенное на единицу:

Полученный таким образом критерий имеет одну степень свободы. Метод Мантеля-Хэнзеля используется всегда, когда в диалоговом окне Crosstabs: Statistics установлен флажок Chi-square. 2\) на (гипотетическом) примере из иммунологии. Представим, что мы выполнили эксперимент по установлению эффективности подавления развития микробного заболевания при введении в организм соответствующих антител. Всего в эксперименте было задействовано 111 мышей, которых мы разделили на две группы, включающие 57 и 54 животных соответственно. Первой группе мышей сделали инъекции патогенных бактерий с последующим введением сыворотки крови, содержащей антитела против этих бактерий. Животные из второй группы служили контролем – им сделали только бактериальные инъекции. После некоторого времени инкубации оказалось, что 38 мышей погибли, а 73 выжили. Из погибших 13 принадлежали первой группе, а 25 – ко второй (контрольной). Проверяемую в этом эксперименте нулевую гипотезу можно сформулировать так: введение сыворотки с антителами не оказывает никакого влияния на выживаемость мышей. Иными словами, мы утверждаем, что наблюдаемые различия в выживаемости мышей (77.2% в первой группе против 53. 7% во второй группе) совершенно случайны и не связаны с действием антител.


Полученные в эксперименте данные можно представить в виде таблицы:

Группа

Погибло

Выжило

Всего

Бактерии + сыворотка

13

44

57

Только бактерии

25

29

54

Всего

38

73

111

Таблицы, подобные приведенной, называют таблицами сопряженности. В рассматриваемом примере таблица имеет размерность 2х2: есть два класса объектов («Бактерии + сыворотка» и «Только бактерии»), которые исследуются по двум признакам («Погибло» и «Выжило»). Это простейший случай таблицы сопряженности: безусловно, и количество исследуемых классов, и количество признаков может быть бóльшим.

Для проверки сформулированной выше нулевой гипотезы нам необходимо знать, какова была бы ситуация, если бы антитела действительно не оказывали никакого действия на выживаемость мышей. Другими словами, нужно рассчитать ожидаемые частоты для соответствующих ячеек таблицы сопряженности. Как это сделать? В эксперименте всего погибло 38 мышей, что составляет 34.2% от общего числа задействованных животных. Если введение антител не влияет на выживаемость мышей, в обеих экспериментальных группах должен наблюдаться одинаковый процент смертности, а именно 34.2%. Рассчитав, сколько составляет 34.2% от 57 и 54, получим 19.5 и 18.5. Это и есть ожидаемые величины смертности в наших экспериментальных группах. Аналогичным образом рассчитываются и ожидаемые величины выживаемости: поскольку всего выжили 73 мыши, или 65.8% от общего их числа, то ожидаемые частоты выживаемости составят 37.5 и 35.5. Составим новую таблицу сопряженности, теперь уже с ожидаемыми частотами:

 Группа

Погибшие

Выжившие

Всего

Бактерии + сыворотка

19.5

37.5

57

Только бактерии

18.5

35.5

54

Всего

38

73

111

Как видим, ожидаемые частоты довольно сильно отличаются от наблюдаемых, т. 2\) составило 5.79213. Мы можем отклонить нулевую гипотезу об отсутствии эффекта антител, рискуя ошибиться с вероятностью чуть более 1% (p-value = 0.0161).

тестов хи-квадрат (Χ²) | Типы, формулы и примеры

Опубликован в 23 мая 2022 г. по Шон Терни. Отредактировано 10 ноября 2022 г.

Критерий хи-квадрат Пирсона — это статистический тест для категорийных данных. Он используется для определения того, значительно ли ваши данные отличаются от ожидаемых. Существует два типа критерия хи-квадрат Пирсона:

  • Критерий согласия хи-квадрат используется для проверки того, отличается ли частотное распределение категориальной переменной от ваших ожиданий.
  • Критерий независимости хи-квадрат используется для проверки того, связаны ли две категориальные переменные друг с другом.

    Хи-квадрат часто пишется как Χ 2 и произносится как «кай-квадрат» (рифмуется со словом «глаз-квадрат»). Его также называют хи-квадрат.

    Содержание

    1. Что такое критерий хи-квадрат?
    2. Формула хи-квадрат
    3. Когда использовать тест хи-квадрат
    4. Типы тестов хи-квадрат
    5. Как выполнять тест хи-квадрат
    6. Как составить отчет о тесте хи-квадрат
    7. Практические вопросы

    8. Часто задаваемые вопросы о критериях хи-квадрат

    Что такое критерий хи-квадрат?

    Критерии хи-квадрат Пирсона (Χ 2 ), часто называемые просто тестами хи-квадрат, являются одними из наиболее распространенных непараметрические тесты . Непараметрические тесты используются для данных, которые не соответствуют предположениям параметрических тестов, особенно предположению о нормальном распределении.

    Если вы хотите проверить гипотезу о распределении категориальной переменной , вам нужно использовать тест хи-квадрат или другой непараметрический тест. Категориальные переменные могут быть номинальными или порядковыми и представлять такие группы, как виды или национальности. Поскольку они могут иметь только несколько конкретных значений, они не могут иметь нормального распределения.

    Примечание: Параметрические тесты не могут проверять гипотезы о распределении категориальной переменной, но они могут использовать категориальную переменную как независимую переменную (например, ANOVA).

    Проверка гипотез о частотных распределениях

    Существует два типа тестов хи-квадрат Пирсона, но оба они проверяют, значительно ли наблюдаемое частотное распределение категориальной переменной отличается от ее ожидаемого частотного распределения. Частотное распределение описывает, как наблюдения распределяются между различными группами.

    Частотные распределения часто отображаются с использованием таблиц частотного распределения . Таблица распределения частот показывает количество наблюдений в каждой группе. Когда есть две категориальные переменные, вы можете использовать определенный тип таблицы частотного распределения, называемую таблицей непредвиденных обстоятельств , чтобы показать количество наблюдений в каждой комбинации групп.

    Пример: виды птиц у кормушки для птиц
    Частота посещений кормушки видами птиц в течение 24 часов
    Виды птиц Частота
    Домовый воробей 15
    Домашний зяблик 12
    Черношапочная синица 9
    Гракл обыкновенный 8
    Европейский скворец 8
    Траурный голубь 6

    Тест хи-квадрат (критерий согласия хи-квадрат) может проверить, значительно ли эти наблюдаемые частоты отличаются от ожидаемых, например равные частоты.

    Пример: хирость и национальность
    Таблица непредвиденных обстоятельств хирости выборки американцев и канадцев
    Правша Левша
    Американский 236 19
    Канада 157 16

    Тест хи-квадрат (тест на независимость) может проверить, значительно ли эти наблюдаемые частоты отличаются от ожидаемых частот, если ручность не связана с национальностью.

    Формула хи-квадрат

    Оба критерия хи-квадрат Пирсона используют одну и ту же формулу для расчета статистики теста, хи-квадрат (X 2 ):

       

    Где:

    • Χ 2 — критерий критерия хи-квадрат
    • Σ — оператор суммирования (означает «взять сумму»)
    • O — наблюдаемая частота
    • E ожидаемая частота

    Чем больше разница между наблюдениями и ожиданиями ( O E в уравнении), тем больше будет хи-квадрат. Чтобы решить, является ли разница достаточно большой, чтобы быть статистически значимой, вы сравниваете значение хи-квадрат с критическим значением.

    Предотвратите плагиат, запустите бесплатную проверку.

    Попробуй бесплатно

    Когда использовать критерий хи-квадрат

    Критерий хи-квадрат Пирсона может быть подходящим вариантом для ваших данных, если все из следующего:

    1. Вы хотите проверить гипотезу об одной или нескольких категориальных переменных . Если одна или несколько ваших переменных являются количественными, вам следует использовать другой статистический тест. В качестве альтернативы вы можете преобразовать количественную переменную в категориальную переменную, разделив наблюдения на интервалы.
    2. Выборка была случайно выбранной из совокупности.
    3. Ожидается не менее пяти наблюдений в каждой группе или комбинации групп.

    Типы тестов хи-квадрат

    Два типа критерия хи-квадрат Пирсона:

    • Хи-квадрат критерия согласия
    • Критерий независимости хи-квадрат

    Математически это один и тот же тест. Однако мы часто думаем о них как о разных тестах, потому что они используются для разных целей.

    Хи-квадрат критерия согласия

    Вы можете использовать критерий согласия хи-квадрат , когда у вас есть одна категориальная переменная . Это позволяет вам проверить, значительно ли отличается частотное распределение категориальной переменной от ваших ожиданий. Часто, но не всегда ожидается, что категории будут иметь равные пропорции.

    Пример: Гипотезы для критерия согласия хи-квадрат соответствия Ожидание равных пропорций
    • Нулевая гипотеза ( H 0 ): Виды птиц посещают кормушку в равны пропорциям .
    • Альтернативная гипотеза ( H A ): Виды птиц посещают кормушку в различных пропорциях.

    Ожидание разных пропорций

    • Нулевая гипотеза ( H 0 ): Виды птиц посещают кормушку в тех же пропорциях, что и в среднем за последние пять лет.
    • Альтернативная гипотеза ( H A ): Виды птиц посещают кормушку в различных пропорциях от среднего за последние пять лет.

    Критерий независимости хи-квадрат

    Вы можете использовать критерий независимости хи-квадрат , когда у вас есть две категориальные переменные. Это позволяет вам проверить, связаны ли две переменные друг с другом. Если две переменные независимы (не связаны между собой), вероятность принадлежности к определенной группе одной переменной не зависит от другой переменной.

    Пример: Критерий независимости хи-квадрат
    • Нулевая гипотеза ( H 0 ): Доля левшей составляет , то же самое для американцев и канадцев.
    • Альтернативная гипотеза ( H A ): Доля левшей различается между национальностями.

    Другие типы тестов хи-квадрат

    Некоторые считают, что хи-квадрат критерий однородности является еще одной разновидностью критерия хи-квадрат Пирсона. Он проверяет, происходят ли две совокупности из одного и того же распределения, определяя, имеют ли две совокупности одинаковые пропорции друг к другу. Вы можете считать это просто другим способом мышления о тесте независимости хи-квадрат.

    Тест Макнемара — это тест, использующий статистику критерия хи-квадрат. Это не разновидность теста хи-квадрат Пирсона, но он тесно связан с ним. Вы можете провести этот тест, если у вас есть связанная пара категориальных переменных, каждая из которых имеет две группы. Он позволяет определить, равны ли пропорции переменных.

    Пример: тест Макнемара. Предположим, выборке из 100 человек предложили два вида мороженого и спросили, нравится ли им вкус каждого из них.
    Таблица непредвиденных обстоятельств предпочтения вкуса мороженого
    Как шоколад Не люблю шоколад
    Как ваниль 47 32
    Нелюбовь к ванили 8 13
    • Нулевая гипотеза ( H 0 ): Доля людей, которые любят шоколад, равна тому же , что и доля людей, которые любят ваниль.
    • Альтернативная гипотеза ( H A ): Доля людей, которые любят шоколад, на отличается на от доли людей, которые любят ваниль.

    Существует несколько других типов тестов хи-квадрат, которые не являются тестами хи-квадрат Пирсона, включая тест одной дисперсии и критерий хи-квадрат отношения правдоподобия .

    Как выполнить тест хи-квадрат

    Точная процедура выполнения теста хи-квадрат Пирсона зависит от того, какой тест вы используете, но обычно он состоит из следующих шагов:

    1. Создайте таблицу наблюдаемых и ожидаемых частот. Иногда это может быть самым трудным шагом, потому что вам нужно будет тщательно продумать, какие ожидаемые значения наиболее подходят для вашей нулевой гипотезы.
    2. Рассчитайте значение хи-квадрат из наблюдаемых и ожидаемых частот, используя формулу хи-квадрат.
    3. Найдите критическое значение хи-квадрат в таблице критических значений хи-квадрат или с помощью статистического программного обеспечения.
    4. Сравните значение хи-квадрат с критическим значением , чтобы определить, какое из них больше.
    5. Решите, следует ли отклонить нулевую гипотезу. Вы должны отклонить нулевую гипотезу, если значение хи-квадрат больше критического значения. Если вы отклоните нулевую гипотезу, вы можете сделать вывод, что ваши данные значительно отличаются от ожидаемых.

    Как сообщить о тесте хи-квадрат

    Если вы решите включить критерий хи-квадрат Пирсона в свою исследовательскую работу, диссертацию или диссертацию, вы должны сообщить об этом в разделе результатов. Вы можете следовать этим правилам, если хотите сообщать статистику в стиле APA:

    • Вам не нужно предоставлять ссылку или формулу, так как критерий хи-квадрат является широко используемой статистикой.
    • Обратитесь к хи-квадрату, используя его греческий символ, Χ 2 . Хотя этот символ очень похож на «X» из латинского алфавита, на самом деле это другой символ. Греческие символы не должны быть выделены курсивом.
    • Включите пробел по обе стороны от знака равенства.
    • Если ваш хи-квадрат меньше нуля, вы должны включить начальный ноль (ноль перед запятой), поскольку хи-квадрат может быть больше нуля.
    • Укажите две значащие цифры после запятой.
    • Укажите хи-квадрат вместе с его степенями свободы, объемом выборки и значением p в следующем формате: Χ 2 (степени свободы, N = размер выборки) = значение хи-квадрат, p = p значение).
    Пример: Отчет по критерию хи-квадрат Не было обнаружено значимой связи между хиральностью и национальностью, Χ 2 (1, N = 428) = 0,44, p = 0,505.

    Практические вопросы

    на базе Typeform

    Часто задаваемые вопросы о критериях хи-квадрат

    В чем разница между количественными и категориальными переменными?

    Количественные переменные — это любые переменные, данные которых представляют собой количества (например, рост, вес или возраст).

    Категориальные переменные — это любые переменные, в которых данные представляют группы. Это включает в себя рейтинги (например, финишные места в гонке), классификации (например, марки хлопьев) и бинарные результаты (например, подбрасывание монеты).

    Вам необходимо знать, с какими типами переменных вы работаете, чтобы выбрать правильный статистический тест для ваших данных и интерпретировать ваши результаты.

    Процитировать эту статью Scribbr

    Если вы хотите процитировать этот источник, вы можете скопировать и вставить цитату или нажать кнопку «Цитировать эту статью Scribbr», чтобы автоматически добавить цитату в наш бесплатный генератор цитирования.

    Терни, С. (2022, 10 ноября). Тесты хи-квадрат (Χ²) | Типы, формулы и примеры. Скриббр. Проверено 16 ноября 2022 г., с https://www.scribbr.com/statistics/chi-square-tests/

    Процитировать эту статью

    Полезна ли эта статья?

    Вы уже проголосовали. Спасибо 🙂 Ваш голос сохранен 🙂 Обработка вашего голоса. ..

    Во время учебы в магистратуре и докторантуре Шон научился применять научные и статистические методы в своих исследованиях в области экологии. Теперь он любит учить студентов, как собирать и анализировать данные для собственных диссертаций и исследовательских проектов.

    Критерий независимости хи-квадрат — Учебные пособия по SPSS

    Критерий независимости хи-квадрат

    Критерий независимости Хи-квадрат определяет, существует ли связь между категориальными переменными (т. е. являются ли переменные независимыми или связанными). Это непараметрический тест.

    Этот тест также известен как:

    • Хи-квадрат Ассоциативный тест.

    В этом тесте используется таблица непредвиденных обстоятельств для анализа данных. Таблица непредвиденных обстоятельств (также известная как перекрестная таблица , перекрестная таблица или двусторонняя таблица ) представляет собой схему, в которой данные классифицируются в соответствии с двумя категориальными переменными. Категории для одной переменной отображаются в строках, а категории для другой переменной — в столбцах. Каждая переменная должна иметь две или более категории. Каждая ячейка отражает общее количество случаев для определенной пары категорий.

    В дополнение к критерию независимости хи-квадрат есть несколько тестов, которые называются «критерий хи-квадрат». Ищите контекстные подсказки в данных и исследовательском вопросе, чтобы убедиться, какая форма теста хи-квадрат используется.

    Общее использование

    Критерий независимости Хи-квадрат обычно используется для проверки следующего:

    • Статистическая независимость или связь между двумя или более категориальными переменными.

    Критерий независимости Хи-квадрат может сравнивать только категориальные переменные. Он не может проводить сравнения между непрерывными переменными или между категориальными и непрерывными переменными. Кроме того, тест независимости хи-квадрат оценивает только ассоциаций между категориальными переменными и не может дать никаких выводов о причинно-следственной связи.

    Если ваши категориальные переменные представляют наблюдения «до теста» и «после теста», то критерий независимости хи-квадрат не подходит . Это связано с тем, что предположение о независимости наблюдений нарушается. В этой ситуации подходит тест Макнемара.

    Требования к данным

    Ваши данные должны соответствовать следующим требованиям:

    1. Две категориальные переменные.
    2. Две или более категорий (групп) для каждой переменной.
    3. Независимость наблюдений.
      • Между субъектами в каждой группе нет связи.
      • Категориальные переменные никоим образом не «спарены» (например, наблюдения до/после тестирования).
    4. Относительно большой размер выборки.
      • Ожидаемые частоты для каждой ячейки не менее 1.
      • Ожидаемая частота должна быть не менее 5 для большинства (80%) ячеек.

    Гипотезы

    Нулевая гипотеза ( H 0 ) и альтернативная гипотеза ( H 1 ) критерия независимости Хи-квадрат могут быть выражены двумя разными, но эквивалентными способами: : «[ Переменная 1 ] не зависит от [ Переменная 2
    H 1 : «[ Переменная 1 ] не зависит от [ Variable 2

    OR

    H 0 : «[ Variable 1 ] is not associated with [ Variable 2
    H 1 «[ Переменная 1 ] связана с [ Переменная 2

    Статистика теста

    Статистический показатель для критерия независимости хи-квадрат обозначается как х 2 и рассчитывается как: 9{2}}{e_{ij}}}} $$

    , где

    \(o_{ij}\) — наблюдаемое количество ячеек в строке i th и столбце j th таблица

    \(e_{ij}\) — это ожидаемое количество ячеек в строке i th и столбце j th таблицы, рассчитанное как

    $$ e_{ij} = \ frac{\ mathrm{ \textrm{row} \mathit{i}} \textrm{total} * \mathrm{\textrm{col} \mathit{j}} \textrm{total}}{\textrm{общий итог}} $$

    Количество ( O IJ E IJ ) иногда называют Rotual из ячейки I. ). }\).

    Вычисленное значение х 2 затем сравнивается с критическим значением из таблицы распределения х 2 со степенями свободы df = ( R 915 C 64 905) и выбранный уровень достоверности. Если рассчитано х 2 значение > критическое х 2 значение, то мы отвергаем нулевую гипотезу.

    Настройка данных

    Существует два различных способа первоначальной настройки ваших данных. Формат данных будет определять, как продолжить выполнение теста независимости хи-квадрат. Как минимум, ваши данные должны включать две категориальные переменные (представленные в столбцах), которые будут использоваться в анализе. Категориальные переменные должны включать как минимум две группы. Ваши данные могут быть отформатированы одним из следующих способов:

    Если у вас есть необработанные данные (каждая строка является субъектом):

    • Наблюдения представляют субъекты, и каждый субъект появляется в наборе данных один раз. То есть каждая строка представляет собой наблюдение уникального субъекта.
    • Набор данных содержит как минимум две номинальные категориальные переменные (строковые или числовые). Категориальные переменные, используемые в тесте, должны иметь две или более категории.

    Если у вас есть частоты (каждая строка представляет собой комбинацию факторов):

    Пример использования критерия хи-квадрат для этого типа данных можно найти в учебном пособии «Взвешивание случаев».

    • Случаи представляют собой комбинации категорий для переменных.
      • Каждая строка в наборе данных представляет отдельную комбинацию категорий.
      • Значение в столбце «Частота» для данной строки — это количество уникальных субъектов с этой комбинацией категорий.
    • У вас должно быть три переменные: одна представляет каждую категорию, а третья представляет количество вхождений этой конкретной комбинации факторов.
    • Перед запуском теста необходимо активировать Весовые случаи и установить частотную переменную в качестве веса.

    Проведите тест независимости Хи-квадрат

    В SPSS критерий независимости хи-квадрат является опцией процедуры перекрестных таблиц. Напомним, что процедура Crosstabs создает таблицу непредвиденных обстоятельств или двустороннюю таблицу , которая обобщает распределение двух категориальных переменных.

    Чтобы создать кросс-таблицу и выполнить критерий независимости хи-квадрат, нажмите Анализ > Описательная статистика > Кросс-таблицы .

    A Строки: Одна или несколько переменных для использования в строках кросс-таблицы. Вы должны ввести хотя бы одну переменную Row.

    B Столбцы: Одна или несколько переменных для использования в столбцах кросс-таблицы. Вы должны ввести хотя бы одну переменную столбца.

    Также обратите внимание, что если вы укажете одну переменную строки и две или более переменных столбца, SPSS будет печатать перекрестные таблицы для каждой пары переменной строки с переменными столбца. То же самое верно, если у вас есть одна переменная столбца и две или более переменных строки или если у вас есть несколько переменных строки и столбца. Для каждой таблицы будет проведен тест хи-квадрат. Кроме того, если вы включите переменную слоя, тесты хи-квадрат будут выполняться для каждой пары переменных строки и столбца на каждом уровне переменной слоя.

    C Слой: Необязательная переменная «стратификации». Если вы включили результаты теста хи-квадрат и указали переменную слоя, SPSS подмножит данные в соответствии с категориями переменной слоя, а затем запустит тесты хи-квадрат между переменными строки и столбца. (Это , а не эквивалентно тестированию на трехстороннюю ассоциацию или тестированию на ассоциацию между переменной строки и столбца после контроля переменной слоя.)


    D Статистика: Открывает окно Кросстаблицы: Статистика, которое содержит пятнадцать различных логических статистических данных для сравнения категориальных переменных.

    Чтобы выполнить тест независимости хи-квадрат, убедитесь, что установлен флажок хи-квадрат .


    E Ячейки: Открывает окно Кросс-таблицы: Отображение ячеек, которое определяет, какие выходные данные будут отображаться в каждой ячейке кросс-таблицы. (Примечание: в кросс-таблице ячейки являются внутренними разделами таблицы. Они показывают количество наблюдений для заданной комбинации категорий строк и столбцов.) В этом окне есть три параметра, которые полезны (но необязательны) при выполнении критерия независимости хи-квадрат:

    1 Наблюдаемый : Фактическое количество наблюдений для данной ячейки. Эта опция включена по умолчанию.

    2 Ожидаемое : Ожидаемое количество наблюдений для этой ячейки (см. формулу тестовой статистики).

    3 Нестандартизированный Остатки : «Остаточное» значение, рассчитанное как наблюдаемое минус ожидаемое.


    F Формат: Открывает окно Кросс-таблицы: формат таблицы, в котором указывается способ сортировки строк таблицы.

    Пример: критерий хи-квадрат для таблицы 3×2

    Постановка задачи

    В наборе выборочных данных респондентов спрашивали об их поле и о том, курят ли они сигареты. Было три варианта ответа: «Некурящий», «Курильщик в прошлом» и «Курильщик в настоящее время». Предположим, мы хотим проверить связь между поведением курильщика (некурящий, нынешний курильщик или курильщик в прошлом) и полом (мужской или женский), используя критерий независимости хи-квадрат (мы будем использовать 9).0170 α = 0,05).

    Перед тестом

    Прежде чем мы проверим «ассоциацию», полезно понять, как выглядит «ассоциация» и «отсутствие ассоциации» между двумя категориальными переменными. Один из способов визуализировать это — использовать сгруппированные гистограммы. Давайте посмотрим на кластеризованную гистограмму, созданную процедурой Crosstabs.

    Это диаграмма, которая получается, если вы используете Курение в качестве переменной строки и Пол в качестве переменной столбца (запуск синтаксиса позже в этом примере):

    «Кластеры» в гистограмме с кластерами определяются переменной строки (в данном случае — категориями курения). Цвет столбцов определяется переменной столбца (в данном случае — полом). Высота каждой полосы представляет собой общее количество наблюдений в этой конкретной комбинации категорий.

    Этот тип диаграммы подчеркивает различия внутри категорий переменной строки. Обратите внимание, что в каждой категории курения высота столбцов (т. е. количество мужчин и женщин) очень похожа. То есть некурящих мужчин и женщин примерно поровну; примерно равное количество бывших курильщиков мужского и женского пола; примерно равное количество курящих мужчин и женщин. Если бы существовала связь между полом и курением, можно было бы ожидать, что эти показатели будут каким-то образом различаться между группами.

    Запуск теста

    1. Откройте диалоговое окно «Кросс-таблицы» ( Анализ > Описательная статистика > Кросс-таблицы ).
    2. Выберите Курение в качестве переменной строки и Пол в качестве переменной столбца.
    3. Нажмите Статистика . Отметьте Хи-квадрат , затем нажмите Продолжить .
    4. (Необязательно) Установите флажок для Отображение группированных гистограмм .
    5. Нажмите OK .
    Синтаксис
     ПЕРЕКРЕСТНЫЕ СТАБИЛИЗАЦИИ
      /TABLES=Курение ПО ПОЛУ
      /FORMAT=ЗНАЧЕНИЕ ТАБЛИЦ
      /СТАТИСТИКА=ЧИСК
      /CELLS=СЧЕТЧИК
      /COUNT КРУГЛАЯ ЯЧЕЙКА
      /БАРХАРТ. 

    Выходные данные

    Таблицы

    Первая таблица представляет собой сводку по обработке обращений, в которой указано количество достоверных наблюдений, использованных для анализа. В тесте могут быть использованы только случаи с непропущенными значениями как поведения в отношении курения, так и пола.

    Следующие таблицы представляют собой результаты кросс-табуляции и теста хи-квадрат.

    Ключевым результатом в таблице тестов хи-квадрата является хи-квадрат Пирсона.

    • Значение тестовой статистики равно 3,171.
    • Сноска к этой статистике относится к предположению об ожидаемом количестве ячеек (т. е. все ожидаемые числа ячеек больше 5): ожидаемое число ячеек не было меньше 5, поэтому это предположение было выполнено.
    • Поскольку тестовая статистика основана на таблице перекрестных таблиц 3×2, степени свободы (df) для тестовой статистики равны $$ df = (R — 1)*(C — 1) = (3 — 1)*(2 — 1) = 2*1 = 2 $$.
    • Соответствующее p-значение тестовой статистики равно p = 0,205.

    Решение и выводы

    Поскольку значение p больше выбранного нами уровня значимости ( α = 0,05), мы не отвергаем нулевую гипотезу. Скорее, мы приходим к выводу, что недостаточно доказательств, чтобы предположить связь между полом и курением.

    По результатам можно констатировать следующее:

    • Связь между полом и курением не обнаружена ( X 2 (2)> = 3,171, р = 0,205).

    Пример: критерий хи-квадрат для таблицы 2×2

    Постановка задачи

    Продолжим пример с процентным соотношением строк и столбцов из учебника по кросс-таблицам, в котором описывалась взаимосвязь между переменными RankUpperUnder (старшеклассник/младший класс) и LivesOnCampus (живет в кампусе/живет за пределами кампуса). Вспомните, что проценты в столбце кросс-таблицы, по-видимому, указывают на то, что старшеклассники с меньшей вероятностью, чем младшие, живут в кампусе:

    • Доля младших школьников, живущих за пределами кампуса, составляет 34,8%, или 79/227.
    • Доля младших школьников, проживающих в кампусе, составляет 65,2%, или 148/227.
    • Доля старшеклассников, живущих за пределами кампуса, составляет 94,4%, или 152/161.
    • Доля старшеклассников, проживающих в кампусе, составляет 5,6%, или 9/161.

    Предположим, что мы хотим проверить связь между классовым положением и проживанием в кампусе, используя критерий независимости Хи-квадрат (используя α = 0,05).

    Перед тестом

    Гистограмма с кластерами из процедуры Crosstabs может служить дополнением к процентам в столбце выше. Давайте посмотрим на диаграмму, созданную процедурой Crosstabs для этого примера:

    Высота каждого столбца представляет общее количество наблюдений в этой конкретной комбинации категорий. «Кластеры» формируются переменной строки (в данном случае рангом класса). Этот тип диаграммы подчеркивает различия внутри групп младших и старшеклассников. Здесь разница в количестве студентов, проживающих в кампусе, по сравнению с количеством студентов, проживающих за пределами кампуса, гораздо более заметна в группах по классу.

    Запуск теста

    1. Откройте диалоговое окно «Кросс-таблицы» ( Анализ > Описательная статистика > Кросс-таблицы ).
    2. Выберите RankUpperUnder в качестве переменной строки и LiveOnCampus в качестве переменной столбца.
    3. Нажмите Статистика . Отметьте Хи-квадрат , затем нажмите Продолжить .
    4. (Необязательно) Нажмите Cells . В разделе Количество установите флажки для наблюдаемых и ожидаемых и в разделе Остатки щелкните Нестандартизированный . Затем нажмите Продолжить .
    5. (Необязательно) Установите флажок для Отображение группированных гистограмм .
    6. Нажмите OK .

    Вывод

    Синтаксис
     ПЕРЕКРЕСТНЫЕ СТАБИЛИЗАЦИИ
      /TABLES=RankUpperUnder ПО LiveOnCampus
      /FORMAT=ЗНАЧЕНИЕ ТАБЛИЦ
      /СТАТИСТИКА=ЧИСК
      /CELLS=КОЛИЧЕСТВО ОЖИДАЕМЫХ ОСТАТКОВ
      /COUNT КРУГЛАЯ ЯЧЕЙКА
      /БАРХАРТ. 
    Таблицы

    Первая таблица представляет собой сводку обработки обращений, в которой указано количество действительных обращений, использованных для анализа. В тесте могут использоваться только случаи с неотсутствующими значениями как для классного звания, так и для проживания в кампусе.

    Следующая таблица представляет собой перекрестную таблицу. Если вы выбрали флажки для наблюдаемого количества, ожидаемого количества и нестандартизированных остатков, вы должны увидеть следующую таблицу:

    Вычисление ожидаемого числа ячеек и остатков (наблюдаемое минус ожидаемое) для перекрестной таблицы ранга класса по проживанию в кампусе.
      Вне кампуса На территории кампуса Всего
    Первоклассник

    Строка 1, столбец 1

    $$ о_{\mathrm{11}} = 79 $$

    $$ e_{\mathrm{11}} = \frac{227*231}{388} = 135,147 $$

    $$ r_{\mathrm{11}} = 79 — 135,147 = -56,147 $$

    Строка 1, столбец 2

    $$ о_{\mathrm{12}} = 148 $$

    $$ e_{\mathrm{12}} = \frac{227*157}{388} = 91. 853 $$

    $$ r_{\mathrm{12}} = 148 — 91,853 = 56,147 $$

    строка 1 всего = 227
    Старшеклассники

    Строка 2, столбец 1

    $$ о_{\mathrm{21}} = 152 $$

    $$ e_{\mathrm{21}} = \frac{161*231}{388} = 95,853 $$

    $$ r_{\mathrm{21}} = 152 — 95,853 = 56,147 $$

    Строка 2, столбец 2

    $$ о_{\mathrm{22}} = 9 $$

    $$ e_{\mathrm{22}} = \frac{161*157}{388} = 65,147 $$ 9{2}}{65,147} = 138,926 $$

    Мы можем подтвердить это вычисление результатами в таблице тестов хи-квадрат :

    Здесь интерес представляет строка Pearson Chi-Square и ее сноска. .