Надежность и позиционный анализ
Надежность и позиционный анализНадежность и позиционный анализ
- Основная цель
- Основные идеи
- Классическая модель проверки
- Надежность
- Суммарные шкалы
- Альфа Кронбаха
- Split-half надежность
- Поправка на затухание
- Построение надежной шкалы
Этот обзор обсуждает понятие надежности измерений, которое используется в социальных науках (но не в исследованиях промышленной статистики или медицины). Термин надежность, используемый в промышленной статистике, обозначает функцию ошибок (как функцию времени). Для обсуждения термина надежность в применении к качеству продукта (т.е. в промышленной статистике) обратитесь к разделу Анализ надежности/времен отказов в главе
Основная цель
Во многих областях исследований точное измерение переменных само по себе представляет сложную задачу. Например, в психологии точное измерение личностных характеристик или отношений к чему-либо — необходимый первый шаг, предваряющий всякую теорию. В целом, очевидно, что во всех социальных дисциплинах ненадежные измерения будут препятствовать попытке предсказать поведение людей. В прикладных исследованиях, когда наблюдения над переменными затруднены, также важна точность измерений. Например, надежное измерение производительности служащих, как правило, является сложной задачей. Однако очевидно, что эти измерения необходимы для любой системы оплаты, основанной на производительности труда.
Модуль Надежность и позиционный анализ позволит вам построить надежные шкалы, а также улучшить используемые шкалы. Модуль Надежность и позиционный анализ поможет вам также при конструировании и оценивании суммарных шкал, т.е. шкал, которые используются при многократных индивидуальных измерениях (различные позиции или вопросы, повторяющиеся измерения и т.д.). Программа вычисляет многочисленные статистики, позволяющие оценить надежность шкалы с помощью классической теории тестирования.
Оценивание надежности шкалы основано на корреляциях между индивидуальными позициями или измерениями, составляющими шкалу, и дисперсиями этих позиций. Если вы не знакомы с
Классическая теория тестирования имеет долгую историю, и существует много пособий по этому предмету. Для подробного знакомства можно рекомендовать, например, Carmines and Zeller (1980), De Gruitjer and Van Der Kamp (1976), Kline (1979, 1986) или Thorndyke and Hagen (1977). Широко известной, «классической» монографией является книга Nunally (1970), в которой хорошо освещено тестирование в области психологии и образования.
Проверка гипотез о зависимости позиций. STATISTICA включает в себя процедуру моделирования структурными уравнениями (SEPATH), где можно проверить специальные гипотезы о связи между множествами позиций или различных критериев (например, гипотезу, что два множества позиций измеряют одну и ту же структуру, анализируют матрицы изменчивости используемого метода и т.д.).
В начало |
Основные идеи
Предположим, вы хотите построить анкету, чтобы измерить степень предубеждения людей против машин иностранного производства. Как это сделать? Вы могли бы начать, например, с формулировки следующих утверждений: «Машинам иностранного производства не хватает индивидуальности», «Машины иностранного производства выглядят одинаково» и т.д. Затем вы можете предложить эти пункты группе субъектов, (например, группе людей, которые никогда не были владельцами машин иностранного производства). Респондентам предлагалось бы указать степень своего согласия с этими утверждениями по 9-балльной шкале, имеющей градации от
Истинные значения и погрешности. Рассмотрим подробнее, что подразумевается под точным измерением в этом примере. Гипотеза состоит в том, что в сознании людей существует такой объект (теоретическая конструкция) как «предубеждение против машин иностранного производства» и каждый пункт анкеты (иными словами, позиция анкеты) в какой-то степени «раскрывает» эту концепцию. Вы можете сказать, что ответ очередного человека на определенную позицию анкеты включает два аспекта: во-первых, отражает предубеждение против машин иностранного производства, во-вторых, отражает некоторый скрытый, неконтролируемый фактор, соответствующий данной позиции. Например, рассмотрим утверждение: «Все машины иностранного производства выглядят одинаково». Согласие или несогласие субъекта с этим утверждением будет частично зависеть от некоторых других аспектов вопроса или самого респондента. Например, у респондента есть друг, который только что купил машину иностранного производства необычного вида и этот фактор влияет на степень согласия с приведенным утверждением.
Проверка гипотез о зависимости между позициями и критериями. Для проверки специальных гипотез о связи между множествами позиций или различных критериев (критерий того, что два множества позиций измеряют одну и ту же структуру, анализируют матрицы изменчивости используемого метода и т. д.) используйте процедуру Моделирования структурными уравненями
В начало |
Классическая модель проверки
Каждое измерение (ответ на вопрос) включает в
себя как истинное значение (предубеждение против
машин иностранного производства), так и частично
неконтролируемую, случайную погрешность. Это
можно описать следующим классическим
уравнением:
X = тау + ошибка
В данном уравнении X выражает
соответствующее реальное измерение, т.е. ответ
(отклик) субъекта на вопрос анкеты; тау обычно
используется для обозначения неизвестного
истинного значения или истинной метки, ошибка
обозначает погрешность измерения.
В начало |
Надежность
В этом контексте надежность понимается непосредственно: измерение является надежным, если его основную часть, по отношению к погрешности, составляет истинное значение.
Например, позиция анкеты: «Красные машины иностранного производства особенно уродливы», скорее всего, даст ненадежное измерение для предубеждения против иностранных машин. Это происходит потому, что, вероятно, у людей существуют значительные различия, касающиеся цветовых симпатий и антипатий. Таким образом, позиция будет учитывать не только предубеждение против иностранных машин, но также цветовое предпочтение субъектов. Поэтому в ответе на данную позицию доля истинной метки (истинного предубеждения) будет относительно мала (будет большой ошибка).Надежность = 2(истинная метка) / 2(всего наблюдений)
В начало |
Суммарные шкалы
Зададимся теперь вопросом: что произойдет, если просуммировать несколько более или менее надежных позиций, построенных с целью оценки предубеждения против иностранных машин? Предположим, что вопросы были сформулированы так, чтобы охватить возможно более широкий спектр различных предубеждений против машин иностранного производства.
Если ошибочная компонента в ответах респондентов на каждый вопрос действительно случайна, то можно ожидать, что в ответах на различные вопросы случайные компоненты будут взаимно подавлять друг друга. Математическое ожидание суммарной погрешности по совокупности всех вопросов (позиций шкалы) будет равно нулю. Компонента истинной метки остается неизменной при суммировании по всем позициям. Следовательно, чем больше будет добавлено вопросов, тем точнее истинная метка (по отношению к погрешности) будет отражена на суммарной шкале.Количество позиций и надежность. Это заключение описывает важный принцип построения критерия, а именно: чем больше позиций участвуют в построении шкалы для измерения данной концепции, тем более надежным будет измерение (суммарная шкала). Может быть, следующий пример лучше пояснит это. Предположим, вы хотите измерить рост 10 людей, используя только простую палочку или, например, свой локоть как измерительное устройство.
Теперь обратимся к некоторым статистикам, которые используются для оценивания надежности суммарной шкалы.
В начало |
Альфа Кронбаха
Вернемся к примеру с предубеждениями. Если есть несколько субъектов, отвечающих на вопросы, то можно вычислить дисперсию для каждого вопроса и суммарной шкалы. Дисперсия для суммарной шкалы будет меньше, чем сумма дисперсий каждого отдельного вопроса в том случае, когда вопрос измеряет (оценивает) одну и ту же изменчивость между субъектами, т.е. если они измеряют некоторую истинную метку. Математически дисперсия суммы двух вопросов равна сумме двух дисперсий минус удвоенная ковариация, т.е. равна величине истинной дисперсии метки, общей для двух вопросов.
Вы можете оценивать долю дисперсии истинной метки, покрываемую вопросами, путем сравнения суммы дисперсий отдельных вопросов с дисперсией суммарной шкалы. Конкретно, вы можете вычислить величину:
= (k/(k-1)) * [1- (s2i)/s2сум]
Это формула для общепринятого индекса надежности, так называемого коэффициента — альфа Кронбаха (). В этой формуле si**2 обозначают дисперсии для k отдельных позиций; sсум**2 — дисперсию для суммы всех позиций. Если не существует истинной метки, а только случайная погрешность в ответах на вопросы (являющаяся неконтролируемой и единственной, а следовательно, некоррелированной между субъектами), то дисперсия суммы будет такой же, как сумма дисперсий отдельных позиций. Поэтому коэффициент альфа будет равен нулю. Если все вопросы совершенно надежны и измеряют один и тот же объект (истинную метку), то коэффициент альфа равен 1. (1-(si**2)/sсум**2 равен (k-1)/k; умножив на k/(k-1), получим 1.)
Альтернативная терминология. Альфа Кронбаха, вычисленная для дихотомий или переменных, принимающих только два значения (например, для ответов истинно/ложно), идентична так называемой формуле Кьюдера-Ричардсона-20 для надежности суммарных шкал. И в том, и в другом случае, поскольку надежность реально вычисляется, исходя из непротиворечивости всех вопросов в суммарной шкале, коэффициент надежности, вычисленный таким образом, также относится к внутренне непротиворечивой надежности.
В начало |
Split-half надежность
Другим способом вычисления надежности суммарной шкалы является разбиение суммарной шкалы случайным образом на две половины [этот прием, называемый по-английски split-half, часто используется в медицине и биологии для оценки надежности результатов; разбиение производится случайным образом, что позволяет избежать искусственных эффектов]. Если суммарная шкала совершенно надежна, то следует ожидать, что обе части абсолютно коррелированы (т.е. r = 1.0). Если суммарная шкала не является абсолютно надежной, то коэффициент корреляции будет меньше 1. Можно оценить надежность суммарной шкалы посредством split-half коэффициента Спирмена-Брауна:
rсб = 2rxy /(1+rxy)
В этой формуле rсб — это коэффициент split-half надежности, а rxy является корреляцией между двумя половинами шкалы.
В начало |
Поправка на затухание
Рассмотрим теперь некоторые последствия, к которым приводит не абсолютная надежность. Предположим, что вы измеряете предубеждения против машин иностранного производства для прогнозирования каких-либо других показателей таких, например, будущего спроса на эти машины. Если ваша шкала коррелирует с таким показателем, то этот факт повысит вашу уверенность в достоверности шкалы, т.е. в том, что она действительно измеряет предубеждение против иномарок, а не что-нибудь вовсе другое. Построение достоверной выборки — это продолжительный процесс, при котором исследователь изменяет шкалу в соответствии с различными внешними критериями, теоретически связанными с той концепцией, для подтверждения которой строится шкала.
Как будет влиять на достоверность шкалы тот факт, что шкала не абсолютно надежна? Маловероятно, чтобы часть шкалы, включающая случайную ошибку, коррелировала с некоторым внешним показателем. Поэтому, если пропорция истинной метки (истинного значения) в шкале равна 60% (т.е. надежность равна лишь 0,60), то корреляция между шкалой и внешним показателем будет затухать; т.е. будет ослаблена. Это означает, что она будет меньше, чем фактическая корреляция между двумя истинными метками (т.е. между показателем, измеряемым шкалой, и другим, внешним по отношению к шкале показателем). Фактически достоверность шкалы всегда ограничивается ее надежностью.
При заданной надежности двух, связанных между собой измерений (т.е. шкалы и другого исследуемого показателя), можно оценить корреляцию между истинными значениями при обоих измерениях. Иными словами, вы можете изменить корреляцию следующим образом — ввести так называемую поправку на затухание:
rxy,коррект = rxy /(rxx*ryy)
В этой формуле rxy,коррект обозначает скорректированный или поправленный коэффициент корреляции. Иными словами, это оценка корреляции между истинными метками при двух измерениях x и y. Коэффициент rxy обозначает непоправленную корреляцию, а rxx и ryy обозначают надежности измерений (шкал) x и y. Модуль Надежность и позиционный анализ предоставляет опцию для вычисления корреляции с поправкой на «затухание». Это изменение корреляции обусловлено либо значениями, задаваемыми пользователем, либо реальными исходными данными (в последнем случае надежности двух измерений оцениваются, исходя из данных).
В начало |
Построение надежной шкалы
После нашего обсуждения, по-видимому, понятно, что шкала тем лучше (т.е. тем достоверней), чем она надежнее. Как отмечалось ранее, один из способов сделать шкалу более достоверной — просто добавить в нее новые позиции. Модуль Надежность и позиционный анализ включает в себя опцию, позволяющую вычислить, сколько еще позиций (вопросов) необходимо добавить, чтобы получить заданную надежность, или как изменится надежность шкалы при добавлении некоторого количества новых позиций. Однако на практике количество позиций в шкале ограничивается различными факторами (например, респонденты устали и просто не будут отвечать на большое число вопросов, полное пространство ограничено и т.д.). Теперь, возвращаясь к примеру с предубеждениями, перечислим шаги, которые в общем случае нужны для построения надежной шкалы:
Шаг 1: Формулирование вопросов. Первый шаг - написать вопросы. Это исключительно творческий процесс, когда исследователь создает как можно больше вопросов, которые, как ему кажется, всесторонне описывают предубеждение против машин иностранного производства. Теоретически следует выбирать вопросы, связанные с определяемой концепцией. На практике, например, в маркетинговых исследованиях, часто используют фокусные группы для того, чтобы осветить столь много аспектов, сколь это возможно. Например, можно попросить небольшую группу активно заинтересованных американских автомобильных потребителей выразить свое отношение к машинам иностранного производства. В области образовательного и психологического тестирования на этой стадии конструирования шкалы обычно обращают внимание на аналогичные анкеты для того, чтобы получить максимально полное представление концепции.
Шаг 2: Выбор вопросов оптимальной трудности. В первый вариант вашего вопросника о «предпочтениях» включайте как можно больше вопросов. Теперь предложите эту анкету начальной выборке типичных респондентов и проанализируйте результаты по каждому пункту. Во-первых, вы увидите различные характеристики вопросов и выделите эффект пол-потолок. Если все согласны или не согласны с вопросом, то он, очевидно, не поможет провести различия между респондентами и окажется бесполезным для построения надежной шкалы. В конструкции теста долю респондентов, которые согласны или не согласны с вопросом, или долю тех, кто «верно» отвечают на вопросы (т.е. угадывают реально существующую тенденцию) называют трудностью вопроса. В сущности, вы могли бы посмотреть на выборочные средние и стандартные отклонения для вопросов и удалить те из них, которые дают резко выделяющиеся средние и нулевые или близкие к нулю дисперсии.
Шаг 3: Выбор внутренне непротиворечивых вопросов. Напомним, что надежная шкала состоит из вопросов (позиций), которые пропорционально измеряют истинную метку; в нашем примере нам желательно отобрать вопросы, которые главным образом измеряют предубеждение против иностранных машин, при этом накладываются некоторые скрытые факторы, являющиеся случайными погрешностями. Для иллюстрации посмотрим на таблицу:
STATISTICA |
Итоги для шкалы:
Среднее=46.1100 Ст.откл.=8.26444 N набл:100 Альфа Кронбаха: .794313 Стандартизованная альфа: .800491 Средняя межпозиционная корреляция: .297818 |
|||||
---|---|---|---|---|---|---|
|
Среднее при удал. |
Дисперсия при удал. |
Ст.откл. при удал. |
Общ-поз. коррел. |
Квадрат мн. регр. |
Альфа |
ITEM1 |
41. 61000 41.37000 41.41000 41.63000 41.52000 41.56000 41.46000 41.33000 41.44000 41.66000 |
51.93790 53.79310 54.86190 56.57310 64.16961 62.68640 54.02840 53.32110 55.06640 53.78440 |
7.206795 7.334378 7.406882 7.521509 8.010593 7.917474 7.350401 7.302130 7.420674 7.333785 |
.656298 .666111 .549226 .470852 .054609 .118561 .587637 .609204 .502529 .572875 |
.507160 . 533015 .363895 .305573 .057399 .045653 .443563 .446298 .328149 .410561 |
.752243 .754692 .766778 .776015 .824907 .817907 .762033 .758992 .772013 .763314 |
В ней приведены 10 вопросов. Наибольший интерес представляют три крайних правых столбца таблицы. Они показывают корреляцию между соответствующим вопросом и общей суммарной шкалой (без соответствующего вопроса), квадрат корреляции между соответствующим вопросом и другими вопросами и внутреннюю непротиворечивость шкалы (коэффициент альфа), если соответствующий вопрос будет удален. Очевидно, вопросы 5 и 6 резко выделяются в силу того, что они не согласуются с остальной частью шкалы. Их корреляции с суммарной шкалой равны 0.05 и 0.1 соответственно, в то время как все другие коррелируют с показателем 0.45 или лучше. В крайнем правом столбце можно увидеть, что надежность шкалы будет около 0.82, если удалить любой из этих двух вопросов. Очевидно, эти два вопроса следует убрать из шкалы.
Шаг 4: Возвращаемся к шагу 1. После удаления всех вопросов, которые не согласуются со шкалой, вы можете остаться без достаточного количества вопросов для того, чтобы создать полностью надежную шкалу (напомним, что чем меньше вопросов, тем менее надежная шкала). На практике исследователь часто несколько раз проходит через этапы создания и удаления вопросов до тех пор, пока не придет к окончательному набору вопросов, образующих надежную шкалу.
Тетрахорическая корреляция. В образовательных и психологических тестах обычно используют вопросы с ответами типа да/нет. В этом случае альтернативой к обычному коэффициенту корреляции является коэффициент тетрахорической корреляции. Обычно коэффициент тетрахорической корреляции больше, чем стандартный коэффициент корреляции; поэтому Nunally (1970, стр. 102) не рекомендует его использовать при оценивании надежности. Однако до сих пор этот коэффициент используется на практике (например, при математическом моделировании).
В начало |
Все права на материалы электронного учебника принадлежат компании StatSoft
Коэффициент альфа Кронбаха — frwiki.wiki
Модель измерения, эквивалентная тау, является частным случаем модели аналогичного измерения, при этом предполагается, что все факторные нагрузки одинаковы, т. Е. λзнак равноλ1знак равноλ2знак равноλ3знак равно…знак равноλk{\ displaystyle \ lambda = \ lambda _ {1} = \ lambda _ {2} = \ lambda _ {3} = . .. = \ lambda _ {k}}
В коэффициенте альфа Кронбаха, иногда называют просто коэффициентомα{\ displaystyle \ alpha}, является статистика используется, в частности, в психометрии для измерения внутренней согласованности (или надежности) вопросов, заданных в ходе теста (ответы на вопросы по этой теме должны быть соотнесены). Его значение меньше или равно 1 и обычно считается «приемлемым» от 0,7. Коэффициент альфа Кронбаха должен во всех случаях рассчитываться после внутренней валидности теста, поэтому мы будем говорить, что внутренняя валидность является предпосылкой для расчета надежности.
Таким образом, это позволяет оценить точность результатов теста . Представлено Кронбахом в 1951 году, коэффициент альфа может быть задуман как обобщение на случай непрерывных переменных в формуле Кудер-Ричардсон 20 (КР-20) для дихотомичных элементов.
Резюме
- 1 Определение
- 2 Толкование
- 3 См. Также
- 4 Примечания и ссылки
- 4. {2}}
αзнак равноkр¯1+(k-1)р¯{\ displaystyle \ alpha = {\ frac {k {\ bar {r}}} {1+ \ left ({k-1} \ right) {\ bar {r}}}}}
где — средняя корреляция между элементами. Затем мы говорим о стандартизированной оценке вместо исходной оценки или о формуле Спирмена-Брауна . Формула показывает, что до тех пор, пока средняя корреляция не меняется, надежность шкалы увеличивается с увеличением количества элементов. р¯{\ displaystyle {\ bar {r}}}
Интерпретация
Хотя в нескольких книгах сообщается об отсутствии единого мнения по этому поводу, многие авторы считают, что значение альфа более 0,7 является удовлетворительным. Результат больше 0,9 иногда считается желательным, но он также может быть признаком слишком схожих утверждений, что парадоксальным образом снижает реальную надежность шкалы.
Смотрите также
- Дифференциально-смысловая шкала
- Шкала Лайкерта
- Человеческий интеллект (тесты интеллекта и их история)
- Формула Кудера-Ричардсона 20
- Психометрия
Примечания и ссылки
Заметки
- ↑ Даррен и Маллери 2008 .
- ↑ Кронбах 1951 .
- ↑ а б и в ДеВеллис 2003 .
- ↑ Петерсон, 1995 .
- ↑ Наннэлли 1978 .
- ↑ Хоган 2007 .
- ↑ Бланд и Альтман 1997 .
Библиография
- (ru) Дж. Мартин Бланд и Дуглас Г. Альтман, « Статистические заметки: альфа Кронбаха », BMJ, vol. 314, п о 7080,, стр. 572 ( ISSN 0959-8138 и 1468-5833, PMID 9055718, PMCID PMC2126061, DOI 10.1136 / bmj.314.7080.572, читать онлайн )
- (ru) Пьер Филип, Люсиль Дюпюи, Марк Ориакомб, Фушиа Серр, Этьен де Севен, Ален Сотеро и Жан-Артур Микуло-Франки, « Коэффициент альфа и внутренняя структура тестов », Npj Digital Medicine, Nature Publishing Group, вып. 3, п о 1,, стр. 2 ( ISSN 2398-6352, PMID 33402675, DOI 10.1007 / BF02310555 )
- Джордж Даррен и Пол Маллери, SPSS для Windows, шаг за шагом: простое руководство и справочник, обновление 15.0, Pearson,, 416 с. ( ISBN 978-0-205-56907-6 и 0-205-56907-2, OCLC 475666960, читать онлайн )
- Роберт Ф. ДеВеллис, Развитие шкалы: теория и приложения. , Таузенд-Оукс, Калифорния, Сейдж,
- Пол Дикс, Жоселин Турнуа, Андре Флиеллер и Жан-Люк Коп, Психометрия: теории и методы измерения в психологии, Париж, PUF ,, 288 с. ( ISBN 2-13-046040-2 ).
- Томас П. Хоган, Психологическое тестирование: практическое введение (2-е изд.), Хобокен, Нью-Джерси, Вили,
- Наннэлли, Джам К., Психометрическая теория, Нью-Йорк, Нью-Йорк, Макгроу-Хилл,
- Р. А. Петерсон, « Мета-анализ альфа-коэффициента Кронбаха» , Маркетинговые исследования и приложения, т. 10, п о 2, стр. 75–88 ( ISSN 0767-3701 и 2051-2821, DOI 10.1177 / 076737019501000204, читать онлайн, по состоянию на 12 декабря 2019 г. )
<img src=»//fr. wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1×1″ alt=»» title=»»>
Что означает альфа Кронбаха?
Альфа Кронбаха — это мера внутренней согласованности, то есть насколько точно связанный набор элементов представляет собой группу. Считается мерой надежности весов. «Высокое» значение альфа не означает, что мера одномерна. Если в дополнение к измерению внутренней согласованности, вы хотите предоставить доказательства того, что рассматриваемая шкала одномерный, дополнительные анализы могут быть выполнены. Исследовательский фактор анализ является одним из методов проверки размерности. С технической точки зрения альфа Кронбаха не статистический тест – это коэффициент достоверности (или состоятельности).
Альфа Кронбаха может быть записана в зависимости от количества тестовых заданий и средней взаимной корреляции среди предметов. Ниже, для концептуальных целей, мы показываем формулу для альфа Кронбаха:
$$ \alpha = \frac{N \bar{c}}{\bar{v} + (N-1) \bar{c}}$$
Здесь $N$ равно количеству элементов, $\bar{c}$ — средняя межэлементная ковариация между элементами и $\bar{v}$ равно средней дисперсии.
Из этой формулы видно, что если вы увеличиваете количество элементов, вы увеличиваете альфу Кронбаха. Кроме того, если средняя корреляция между элементами низкая, альфа будет низкой. По мере того, как средняя корреляция между элементами увеличивается, альфа Кронбаха также увеличивается (удерживая количество элементов постоянным).
Пример
Давайте рассмотрим пример того, как вычислить альфу Кронбаха с помощью SPSS и как проверить размерность шкалы с помощью факторного анализа. В этом примере мы будем использовать набор данных, содержащий четыре элемента теста — q1 , q2 , q3 и q4 . Вы можете загрузить набор данных, нажав https://stats.idre.ucla.edu/wp-content/uploads/2016/02/alpha.sav. Чтобы вычислить альфу Кронбаха для всех четырех элементов — q1, q2, q3, q4 — используйте команду надежности :
НАДЕЖНОСТЬ /ПЕРЕМЕННЫЕ=q1 q2 q3 q4.
Вот результирующий вывод из приведенного выше синтаксиса:
Альфа-коэффициент для четырех элементов равен 0,839, что предполагает, что элементы имеют относительно высокую внутреннюю согласованность. (Примечание считается, что коэффициент надежности 0,70 или выше «приемлемо» в большинстве ситуаций, связанных с исследованиями в области социальных наук.)
Ручной расчет Альфы Кронбаха
В демонстрационных целях ниже показано, как рассчитать приведенные выше результаты вручную. В SPSS вы можете получить ковариации, выбрав Анализ — Корреляция — Двумерная . Затем переместите
q1
,q2
,q3
иq4
в поле Variables и нажмите Options . В разделе Статистика проверьте Отклонения и ковариации перекрестных произведений . Нажмите «Продолжить» и «ОК», чтобы получить результат.Ниже вы увидите сжатую версию вывода. Обратите внимание, что диагонали (выделены жирным шрифтом) — это дисперсии, а недиагонали — ковариации. Нам нужно только рассмотреть ковариации в нижнем левом треугольнике, потому что это симметричная матрица.
» data-col-labels=»q1;q2;q3;q4″ data-row-labels=»q1 Covariance;q2 Covariance;q3 Covariance;q4 Covariance» data-layer-dimension=»» data-column-dimension=»Variables;» data-row-dimension=»Variables;Statistics;» data-maxcolwidth=»72″>
Q1 кв2 кв3 кв.4 1 квартал Ковариация 1,168 .557 .574 .673 2 квартал Ковариация . 557 1,012 .690 .720 3 квартал Ковариация .574 .690 1,169 .724 4 квартал Ковариация . 673 .720 .724 1,291 Напомним, что $N=4$ равно количеству элементов, $\bar{c}$ – средняя межэлементная ковариация между элементами и $\bar{v}$ равно средней дисперсии. Используя информацию из приведенной выше таблицы, мы можем рассчитать каждый из этих компонентов следующим образом:
$$\bar{v} = (1,168 + 1,012 + 1,169 + 1,291)/4 = 4,64 / 4 = 1,16.$$
$$\бар{с} = (0,557 + 0,574 + 0,690 + 0,673 + 0,720 + 0,724)/6 = 3,938 / 6 = 0,656. /3,128=0,839.$$
Результаты совпадают с полученным SPSS значением альфа Кронбаха, равным 0,839.
Проверка размерности
Помимо вычисления альфа-коэффициента надежности, мы могли бы также хотите исследовать размерность шкалы. Мы можем использовать множитель команда для этого:
ФАКТОР /ПЕРЕМЕННЫЕ q1 q2 q3 q4 /ФОРМАТ СОРТИРОВАТЬ ПУСТО(.35).
Вот результат из приведенного выше синтаксиса:
Глядя на таблицу, помеченную Объяснение общей дисперсии, мы видим, что собственное значение для первый фактор немного больше, чем собственное значение для следующего фактора (2,7 против 0,54). Кроме того, на первый фактор приходится 67% общей дисперсии. Это говорит о том, что элементы шкалы являются одномерными.
Для получения дополнительной информации
- Для получения дополнительной информации о чтении данных в SPSS, см. Справочник по синтаксису команд SPSS.
- Для получения дополнительной информации об Альфе Кронбаха см. SPSS Библиотека: Мой коэффициент альфа отрицательный!
- Для получения дополнительной информации о внутриклассовых коэффициентах в качестве меры надежности см. Библиотека SPSS: выбор Коэффициент внутриклассовой корреляции.
Понимание альфа Кронбаха
Int J Med Educ. 2011 г.; 2: 53–55.
Опубликовано в сети 27 июня 2011 г. doi: 10.5116/ijme.4dfb.8dfd
Информация об авторе Примечания к статье Информация об авторских правах и лицензии Отказ от ответственности
Медицинские преподаватели пытаются создать надежные и достоверные тесты и анкеты, чтобы повысить точность их оценки и оценки. Валидность и надежность являются двумя основными элементами оценки измерительного прибора. Инструментами могут быть традиционные тесты знаний, навыков или отношений, клинические симуляции или опросные анкеты. Инструменты могут измерять концепции, психомоторные навыки или аффективные ценности. Валидность касается степени, в которой инструмент измеряет то, что он предназначен для измерения. Надежность связана со способностью прибора последовательно измерять. 1 Следует отметить, что надежность инструмента тесно связана с его достоверностью. Инструмент не может быть действительным, если он не надежен. Однако надежность инструмента не зависит от его валидности. 2 Можно объективно измерить надежность инструмента, и в этой статье мы объясним значение альфа Кронбаха, наиболее широко используемой объективной меры надежности.
Вычисление альфы стало обычной практикой в исследованиях в области медицинского образования, когда используются многокомпонентные измерения концепции или конструкции. Это связано с тем, что его проще использовать по сравнению с другими оценками (например, оценками надежности повторных испытаний) 3 , так как для этого требуется только одно введение теста. Однако, несмотря на широкое использование альфа в литературе, значение, правильное использование и интерпретация альфа не совсем понятны. 2 , 4 , 5 Поэтому мы считаем важным разъяснить основные предположения, лежащие в основе альфы, чтобы способствовать ее более эффективному использованию. Следует подчеркнуть, что цель этого краткого обзора — просто сосредоточиться на альфе Кронбаха как на показателе надежности. Альтернативные методы измерения надежности, основанные на других психометрических методах, таких как теория обобщаемости или теория вопросов и ответов, могут использоваться для мониторинга и повышения качества экзаменов ОСКЭ 6 — 10 , но здесь обсуждаться не будет.
Что такое Кронбах альфа?
Alpha был разработан Ли Кронбахом в 1951 году 11 для измерения внутренней согласованности теста или шкалы; она выражается числом от 0 до 1. Внутренняя согласованность описывает степень, в которой все элементы теста измеряют одну и ту же концепцию или конструкцию, и, следовательно, она связана со взаимосвязью элементов теста. Внутренняя согласованность должна быть определена до того, как тест можно будет использовать в исследовательских или экзаменационных целях, чтобы обеспечить достоверность. Кроме того, оценки надежности показывают величину ошибки измерения в тесте. Проще говоря, такая интерпретация надежности есть соотнесение теста с самим собой. Возведение этой корреляции в квадрат и вычитание из 1,00 дает индекс ошибки измерения. Например, если тест имеет надежность 0,80, дисперсия ошибок (случайная ошибка) в оценках составляет 0,36 (0,80 × 0,80 = 0,64; 1,00 — 0,64 = 0,36). 12 По мере увеличения оценки надежности доля результата теста, связанная с ошибкой, будет уменьшаться. 2 Следует отметить, что надежность теста показывает влияние ошибки измерения на наблюдаемый балл группы учащихся, а не на отдельного учащегося. Чтобы рассчитать влияние ошибки измерения на наблюдаемую оценку отдельного учащегося, необходимо рассчитать стандартную ошибку измерения (SEM). 13
Если элементы в тесте коррелируют друг с другом, значение альфа увеличивается. Однако высокий коэффициент альфа не всегда означает высокую степень внутренней согласованности. Это связано с тем, что на альфа также влияет длина теста. Если длина теста слишком мала, значение альфа уменьшается. 2 , 14 Таким образом, для увеличения альфы в тест следует добавить больше связанных элементов, проверяющих одну и ту же концепцию. Также важно отметить, что альфа — это свойство баллов по тесту определенной выборки испытуемых. Поэтому исследователи не должны полагаться на опубликованные оценки альфа и должны измерять альфа каждый раз, когда проводится тест. 14
Использование альфа-канала Кронбаха
Неправильное использование альфа-канала может привести к ситуациям, когда либо тест или шкала ошибочно отбрасываются, либо тест подвергается критике за недостоверные результаты. Чтобы избежать этой ситуации, понимание связанных концепций внутренней согласованности, однородности или одномерности может помочь улучшить использование альфы. Внутренняя согласованность связана с взаимосвязанностью выборки тестовых заданий, тогда как однородность относится к одномерности. Мера называется одномерной, если ее элементы измеряют одну скрытую черту или конструкцию. Внутренняя согласованность является необходимым, но недостаточным условием для измерения однородности или одномерности выборки тестовых заданий. 5 , 15 По существу, концепция надежности предполагает, что в выборке тестовых заданий 16 существует одномерность, и если это предположение нарушается, это приводит к серьезной недооценке надежности. Хорошо задокументировано, что многомерный тест не обязательно должен иметь более низкую альфу, чем одномерный тест. Таким образом, более строгий взгляд на альфа состоит в том, что его нельзя просто интерпретировать как показатель внутренней согласованности теста. 5 , 15 , 17
Факторный анализ можно использовать для определения аспектов теста. 18 Были использованы и другие надежные методы, и мы рекомендуем читателю ознакомиться с документом «Прикладная оценка размерности и структуры теста с помощью математического теста СТАРТ-М» и сравнить методы оценки размерности и базовой структуры теста. 19
Альфа, таким образом, не просто измеряет одномерность набора элементов, но может использоваться для подтверждения того, действительно ли выборка элементов является одномерной. 5 С другой стороны, если в тесте имеется более одной концепции или конструкции, может не иметь смысла сообщать об альфа-факторе для теста в целом, поскольку большее количество вопросов неизбежно приведет к завышению значения альфа-канала. Поэтому в принципе альфа следует рассчитывать для каждого из понятий, а не для всего теста или шкалы. 2 , 3 Смысл итогового экзамена, содержащего разнородные вопросы, основанные на прецедентах, заключается в том, что альфа должна рассчитываться для каждого случая.
Что еще более важно, альфа основан на «модели эквивалента тау», которая предполагает, что каждый элемент теста измеряет одну и ту же скрытую черту по одной и той же шкале. Следовательно, если несколько факторов/признаков лежат в основе элементов шкалы, как показывает факторный анализ, это предположение нарушается, и альфа недооценивает надежность теста. 17 Если количество тестовых заданий слишком мало, это также нарушит предположение о тау-эквивалентности и приведет к недооценке надежности. 20 Когда тестовые элементы соответствуют допущениям тау-эквивалентной модели, альфа приближается к лучшей оценке надежности. На практике альфа Кронбаха является нижней оценкой надежности, потому что разнородные тестовые задания нарушили бы предположения тау-эквивалентной модели. 5 Если расчет «альфа стандартизированного элемента» в SPSS выше, чем «альфа Кронбаха», может потребоваться дальнейшее изучение тау-эквивалентного измерения в данных.
Числовые значения альфа
Как указывалось ранее, количество тестовых заданий, их взаимосвязь и размерность влияют на значение альфы. 5 Имеются различные отчеты о допустимых значениях альфа в диапазоне от 0,70 до 0,95. 2 , 21 , 22 Низкое значение альфа может быть связано с малым количеством вопросов, плохой взаимосвязью между элементами или разнородными конструкциями. Например, если низкий альфа-канал вызван плохой корреляцией между элементами, то некоторые из них следует пересмотреть или отбросить. Самый простой способ их найти — вычислить корреляцию каждого элемента теста с общим баллом теста; элементы с низкой корреляцией (приближающейся к нулю) удаляются. Если альфа слишком высока, это может означать, что некоторые элементы являются избыточными, поскольку они проверяют один и тот же вопрос, но в другом обличье. Максимальное значение альфа 0,90 было рекомендовано. 14
Резюме
Высококачественные тесты важны для оценки надежности данных, предоставленных в ходе обследования или исследования. Альфа — широко используемый показатель надежности теста. Альфа зависит от длины и размерности теста. Альфа как показатель надежности должен следовать предположениям по существу тау-эквивалентного подхода. Низкая альфа появляется, если эти предположения не выполняются. Альфа не просто измеряет однородность или одномерность теста, поскольку надежность теста зависит от длины теста. Более длительный тест повышает надежность теста независимо от того, является ли тест однородным или нет. Высокое значение альфа (> 0,90) может указывать на избыточность и показывать, что длину теста следует сократить.
Альфа — важное понятие при оценке оценок и анкет. Обязательно, чтобы оценщики и исследователи оценили это количество, чтобы повысить достоверность и точность интерпретации своих данных. Тем не менее об альфа часто сообщают некритично и без адекватного понимания и интерпретации. В этой редакционной статье мы попытались объяснить предположения, лежащие в основе расчета альфы, факторы, влияющие на ее величину, и способы интерпретации ее значения. Мы надеемся, что исследователи в будущем будут более критичны при сообщении значений альфа в своих исследованиях.
1. Тавакол М., Мохагеги М.А., Денник Р. Оценка навыков хирургов-резидентов с использованием моделирования. J Surg Educ. 2008;65(2):77-83. 10.1016/j.jsurg.2007.11.003 [PubMed] [CrossRef] [Google Scholar]
2. Наннелли Дж., Бернштейн Л. Психометрическая теория. Нью-Йорк: McGraw-Hill Higher, INC; 1994.
3. Коэн Р., Свердлик М. Психологическое тестирование и оценка. Бостон: Высшее образование McGraw-Hill; 2010. [Google Scholar]
4. Шмитт Н. Использование и злоупотребление коэффициентом альфа. Психологическая оценка. 1996;8:350-3. 10.1037/1040-3590.8.4.350 [CrossRef] [Google Scholar]
5. Кортина Дж. Что такое коэффициент альфа: исследование теории и приложений. Журнал прикладной психологии. 1993;78:98-104. 10.1037/0021-9010.78.1.98 [CrossRef] [Google Scholar]
6. Schoonheim-Klein M, Muijtjens A, Habets L, Manogue M, Van der Vleuten C, Hoogstraten J и др. О надежности стоматологического ОСКЭ. , с помощью SEM: эффект разных дней. Eur J Dent Educ. 2008;12:131-7. 10.1111/j.1600-0579.2008.00507.x [PubMed] [CrossRef] [Google Scholar]
7. Eberhard L, Hassel A, Bäumer A, Becker J, Beck-Mußotter J, Bömicke W, et al. Анализ качества и осуществимости объективного структурированного клинического обследования (OSCE) в доклиническом стоматологическом образовании. Eur J Dent Educ. 2011;15:1-7. 10.1111/j.1600-0579.2010.00653.x [PubMed] [CrossRef] [Google Scholar]
8. Auewarakul C, Downing S, Praditsuwan R, Jaturatamrong U. Анализ предметов для повышения надежности для студентов внутренних болезней ОБСЕ. Adv Health Sci Educ Theory Pract. 2005; 10:105-13. 10.1007/s10459-005-2315-3 [PubMed] [CrossRef] [Google Scholar]
9. Iramaneerat C, Yudkowsky R, CM. М., Даунинг С. Контроль качества ОСКЭ с использованием теории обобщаемости и многогранного измерения Раша. Adv Health Sci Educ Theory Pract. 2008;13:479-93. 10.1007/s10459-007-9060-8 [PubMed] [CrossRef] [Google Scholar]
10. Лоусон Д. Применение теории обобщаемости к важным объективным структурированным клиническим исследованиям в естественной среде. J Manipulative Physiol Ther. 2006;29: 463-7. 10.1016/j.jmpt.2006.06.009 [PubMed] [CrossRef] [Google Scholar]
11. Кронбах Л. Коэффициент альфа и внутренняя структура тестов. Психомерика. 1951; 16:297-334. 10.1007/BF02310555 [CrossRef] [Google Scholar]
12. Клайн П. Простое руководство по факторному анализу Нью-Йорк: Routledge; 1994. [Google Scholar]
13. Тавакол М., Денник Р. Послеэкзаменационный анализ объективных тестов. Мед Уч. 2011;33:447-58. 10.3109/0142159X.2011.564682 [PubMed] [CrossRef] [Google Scholar]
14. Штрайнер Д. Начнем с самого начала: введение в коэффициент альфа и внутреннюю согласованность. Журнал оценки личности. 2003;80:99-103. 10.1207/S15327752JPA8001_18 [PubMed] [CrossRef] [Google Scholar]
15. Грин С., Лиссиц Р., Мулайк С. Ограничения коэффициента альфа как показателя одномерности теста. Педагогическое психологическое измерение. 1977; 37:827-38. 10.1177/001316447703700403 [CrossRef] [Google Scholar]
16. Миллер М. Коэффициент альфа: основное введение с точки зрения классической теории испытаний и моделирования структурными уравнениями. Структурное моделирование уравнение. 1995;2:255-73. 10.1080/10705519509540013 [CrossRef] [Google Scholar]
17. Грин С., Томпсон М. Моделирование структурными уравнениями в исследованиях клинической психологии В: Робертс М.
- 4. {2}}