П.2. Критерий согласия Пирсона (c2)

ОПР. Эмпирическими частотами называются фактически наблюдаемые частоты.

ПРОВЕРКА ГИПОТЕЗЫ О РАСПРЕДЕЛЕНИИ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ. КРИТЕРИЙ ПИРСОНА

Как отмечалось раньше, предположение о виде распределения может быть выдвинуто исходя из теоретических предпосылок. Однако, как бы хорошо ни был подобран теоретический закон распределения, между эмпирическим и теоретическим распределениями неизбежны расхождения. Естественно возникает вопрос: объясняются ли эти расхождения только случайными обстоятельствами, связанными с ограниченным числом наблюдений, или они являются существенными и связаны с тем, что теоретический закон распределения подобран неудачно. Для ответа на этот вопрос и служит критерий согласия, т.е.

ОПР. Критерием согласия называется критерий проверки гипотезы о предполагаемом законе неизвестного распределения.

Для каждого критерия, т.е. соответствующего распределения, обычно составлены таблицы, по которым находят k кр (см. приложения). После того как критическая точка найдена, по данным выборки вычисляют наблюдаемое значение критерия К набл. Если К набл > k кр, то нулевую гипотезу отвергают, если наоборот, то принимают.

Опишем применение критерия Пирсона к проверке гипотезы о нормальном распределении генеральной совокупности. Критерий Пирсона отвечает на вопрос о том, случайно ил расхождение эмпирических и теоретических частот?

Критерий Пирсона, как и любой критерий не доказывает справедливость гипотезы, а лишь устанавливает, на принятом уровне значимости, ее согласие или несогласие с данными наблюдений.

Итак, пусть по выборке объема п получено эмпирическое распределение. При уровне значимости a требуется проверить нулевую гипотезу: генеральная совокупность распределена нормально.

В качестве критерия проверки нулевой гипотезы принимают случайную величину c 2 = , где - эмпирические частоты; - теоретические частоты.

Данная СВ имеет c 2 – распределение с k - степенями свободы. Число степеней свободы находят по равенству k=m –r -1, m – число частичных интервалов выборки; r – число параметров распределения. Для нормального распределения r=2 (а и s), тогда k=m –3.

Для того чтобы при заданном уровне значимости, проверить нулевую гипотезу: генеральная совокупность распределена нормально, надо:

1.Вычислить выборочную среднюю и выборочное среднее квадратическое отклонение.

2.Вычислить теоретические частоты ,

где п – объем выборки; h – шаг(разность между двумя соседними вариантами); ; значения функции смотрят по приложению.

3. Сравнивают эмпирические и теоретические частоты с помощью критерия Пирсона. Для этого:



а) находят наблюдаемое значение критерия ;

б) по таблице критических точек распределения c 2 , по заданному уровню значимости a и числу степеней свободы k находят критическую точку .

Если < - нет оснований отвергнуть нулевую гипотезу. Если > - нулевую гипотезу отвергают.

Замечание. Малочисленные частоты ( <5) следует объединить; в этом случае и соответствующие им теоретические частоты также надо сложить. Если производилось объединение частот, то при определении числа степеней свободы следует в качестве m принять число групп выборки, оставшихся после объединения частот.

Лекция 6. Анализ двух выборок

6.1 Параметрические критерии. 1

6.1.2 Критерий Стьюдента (t -критерий) 2

6.1.3 F - критерий Фишера. 6

6.2 Непараметрические критерии. 7

6.2.1 Критерий знаков (G -критерий) 7

Следующей задачей статистического анализа, решаемой после определения основных (выборочных) характеристик и анализа одной выборки, является совместный анализ нескольких выборок. Важнейшим вопросом, возникающем при анализе двух выборок, является вопрос о наличии различий между выборками. Обычно для этого проводят проверку статистических гипотез о принадлежности обеих выборок одной генеральной совокупности или о равенстве средних.

Если вид распределения или функция распределения выборки нам заданы, то в этом случае задача оценки различий двух групп независимых наблюдений может решаться с использованием параметрических критериев статистики: либо кри­терия Стьюдента (t ), если сравнение выборок ведется по сред­ним значениям (X и У), либо с использованием критерия Фишера (F ), если сравнение выборок ведется по их дисперсиям.

Использование параметрических критериев статистики без предварительной про­верки вида распределения может привести к определенным ошибкам в ходе проверки рабочей гипотезы.

Для преодоления указанных трудностей в практике педагоги­ческих исследований следует использовать непараметрические критерии статистики , такие, как критерий знаков, двухвыборочный критерий Вилкоксона, критерий Ван дер Вардена, критерий Спирмена, выбор которых, хотя и не требует большого числа членов выборки и знаний, вида распределения, но все же зависит от целого ряда условий.

Непараметрические критерии статистики - свободны от допущения о законе распределения выборок и базируются на предположении о независимости наблюдений.

6.1 Параметрические критерии

В группу параметрических критериев методов математической статистики входят методы для вычисления описательных статистик, построения графиков на нормальность распределения, проверка гипотез о при­надлежности двух выборок одной совокупности. Эти методы основыва­ются на предположении о том, что распределение выборок подчиняется нормальному (гауссовому) закону распределения. Среди параметрических критериев статистики нами будут рассмотрены критерий Стьюдента и Фишера.

6.1.1 Методы проверки выборки на нормальность

Чтобы определить,имеем ли мы дело с нормальным распределением, можно применять следующие методы:

1) в пределах осей можно нарисовать полигон частоты (эмпирическую функцию распределения) и кривую нормального распределения на основе данных исследования. Исследуя формы кривой нормального распределения и графика эмпирической функции распределения, можно выяснить те параметры, которыми последняя кривая отличается от первой;

2) вычисляется среднее, медиана и мода и на основе этого определяется отклонение от нормального распределения. Если мода, медиана и среднее арифметическое друг от другазначительно не отличаются, мы имеем дело с нормальным распределением. Если медиана значительно отличается от среднего, то мы имеем дело с асимметричной выборкой.

3) эксцесс кривой распределения должен быть равен 0. Кривыесположительнымэксцессомзначительновертикальнее кривой нормального распределения. Кривые с отрицательным эксцессом являются более покатистыми по сравнению с кривой нормального распределения;

4) послеопределения среднего значения распределения частоты и стандартного oтклонения находят следующие четыре интервала распределения сравнивают их с действительными даннымиряда:

а) - к интервалу должно относиться около 25% частоты совокупности,

б) - к интервалу должно относиться около 50% частоты совокупности,

в) - к интервалу должно относиться около 75% частоты совокупности,

г) - к интервалу должно относиться около 100% частоты совокупности.

6.1.2 Критерий Стьюдента ( t-критерий)

Критерий позволяет найти вероятность того, что оба средних значения в выборке относятся к одной и той же совокупности. Данный критерий наиболее часто используется для проверки гипотезы: «Средние двух выборок относятся к одной и той же совокупности».

При использовании критерия можно выделить два случая. В первом случае его применяют для проверки гипотезы о равенстве генеральных средних двух неза­висимых , несвязанных выборок (так называемый двухвыборочный t-критерий ). В этом случае есть контрольная группа и экспериментальная (опытная) группа, количество испытуемых в группах может быть различно.

Во втором случае, когда одна и та же группа объектов порождает числовой матери­ал для проверки гипотез о средних, используется так называемый парный t-критерий . Выборки при этом называют зависимыми , связанными .

а) случай независимых выборок

Статистика критерия для случая несвязанных, независимых выборок равна:

где , - средние арифметические в эксперименталь­ной и контрольной группах,

Стан­дартная ошибка разности средних арифметических. Находится из формулы:

,(2)

где n 1 и n 2 соответственно величины первой и второй выборки.

Если n 1 =n 2 , то стандартная ошибка разности средних арифметических будет считаться по формуле:

(3)

где n величина выборки.

Подсчет числа степеней свободы осуществля­ется по формуле:

k = n 1 + n 2 – 2.(4)

При численном равенстве выборок k = 2 n - 2.

Далее необходимо срав­нить полученное значение t эмп с теоретическим значением t-рас­пределения Стьюдента (см. приложение к учеб­никам статистики). Если t эмп

Рассмотрим пример использования t -критерия Стьюдента для несвязных и неравных по численности выборок.

Пример 1 . В двух группах учащихся - экспериментальной и контрольной - получены следующие результаты по учеб­ному предмету (тестовые баллы; см. табл. 1).

Таблица 1. Результаты эксперимента

Первая группа (экспериментальная) N 1 =11 человек

Вторая группа (контрольная)

N 2 =9 человек

121413161191315151814

Общее количество членов выборки: n 1 =11, n 2 =9.

Расчет средних арифметических: Х ср =13,636; Y ср =9,444

Стандартное отклонение: s x =2,460; s y =2,186

По формуле (2) рассчитываем стандартную ошибку разности арифметических средних:

Считаем статистику критерия:

Сравниваем полученное в эксперименте значение t с табличным значением с учетом степеней свободы, равных по формуле (4) числу испытуемых минус два (18).

Табличное значение t крит равняется 2,1 при допущении возможности риска сделать ошибочное сужде­ние в пяти случаях из ста (уровень значимости=5 % или 0,05).

Если полученное в эксперименте эмпирическое значение t превы­шает табличное, то есть основания принять альтернативную гипотезу (H 1) о том, что учащиеся экспериментальной группы показывают в среднем более высокий уровень знаний. В эксперименте t=3,981, табличное t=2,10, 3,981>2,10, откуда следует вывод о преимуществе эксперимен­тального обучения.

Здесь могут возникнуть такие вопросы :

1. Что если полученное в опыте значение t окажется меньше табличного? Тогда надо принять нулевую гипотезу.

2. Доказано ли преимущество экспериментального метода? Не столько доказано, сколько показано, потому что с самого начала допускается риск ошибиться в пяти случаях из ста (р=0,05). Наш эксперимент мог быть одним из этих пяти случаев. Но 95% возможных случаев говорит в пользу альтернативной гипотезы, а это достаточно убедительный аргумент в статистическом доказательстве.

3. Что если в контрольной группе результаты окажутся выше, чем в экспериментальной? Поменяем, например, местами, сделав средней арифметической эксперимен­тальной группы, a - контрольной:

Отсюда следует вывод, что новый метод пока не про­явил себя с хорошей стороны по разным, возможно, при­чинам. Поскольку абсолютное значение 3,9811>2,1, принимается вторая альтернативная гипотеза (Н 2) о пре­имуществе традиционного метода.

б) случай связанных (парных) выборок

В случае связанных выборок с равным числом измерений в каждой можно использовать более простую формулу t-критерия Стьюдента.

Вычисление значения t осуществляется по формуле:

где - разности между соответствующими значениями переменной X и переменной У, а d - среднее этих разностей;

Sd вычисляется по следующей формуле:

(6)

Число степеней свободы k определяется по формуле k=n -1. Рассмотрим пример использования t -критерия Стьюдента для связных и, очевидно, равных по численности выборок.

Если t эмп

Пример 2 . Изучался уровень ориентации учащихся на художественно-эстети­ческие ценности. С целью активизации формирования этой ориентации в экспериментальной группе проводились бе­седы, выставки детских рисунков, были организованы по­сещения музеев и картинных галерей, проведены встречи с музыкантами, художниками и др. Закономерно встает вопрос: какова эффективность проведенной работы? С целью проверки эффективности этой работы до начала эксперимента и после давался тест. Из методических со­ображений в таблице 2 приводятся результаты небольшо­го числа испытуемых.

Таблица 2. Результаты эксперимента

Ученики

(n =10 )

Баллы

Вспомогательные расчеты

до начала экспери­мента (Х)

в конце

экспери­мента (У)

d

d 2

Иванов

Новиков

Сидоров

Пирогов

Агапов

Суворов

Рыжиков

Серов

Топоров

Быстров

Среднее

14,8

21,1

Вначале произведем расчет по формуле:

Затем применим формулу (6), получим:

И, наконец, следует применить формулу (5). Получим:

Число степеней свободы: k =10-1=9 и по таблице При­ложения 1 находим t крит =2.262, экспериментальное t=6,678, откуда следует возможность принятия альтерна­тивной гипотезы (H 1) о достоверных различиях средних арифметических, т. е. делается вывод об эффективности экспериментального воздействия.

В терминах статистических гипотез полученный результат будет звучать так: на 5% уров­не гипотеза Н 0 отклоняется и принимается гипотеза Н 1 .

6.1.3 F - критерий Фишера

Критерий Фишера позволяет сравнивать величины выбороч­ных дисперсий двух независимых выборок. Для вычисления F эмп нуж­но найти отношение дисперсий двух выборок, причем так, что­бы большая по величине дисперсия находилась бы в числителе, а меньшая – в знаменателе. Формула вычисления критерия Фи­шера такова:

где - дисперсии первой и второй выборки соответственно.

Так как, согласно условию критерия, величина числителя должна быть больше или равна величине знаменателя, то значе­ние F эмп всегда будет больше или равно единице.

Чис­ло степеней свободы определяется также просто:

k 1 =n l - 1 для первой выборки (т.е. для той выборки, величина дисперсии которой больше) и k 2 =n 2 - 1 для второй выборки.

В Приложе­нии 1 критические значения критерия Фишера находятся по величинам k 1 (верхняя строчка таблицы) и k 2 (левый столбец таблицы).

Если t эмп >t крит, то нулевая гипотеза принимается, в противном случае принимается альтернативная.

Пример 3. В двух третьих классах проводилось тестирование умственного развития по тесту ТУРМШ десяти учащихся. Полученные значения величин средних достоверно не различались, однако психолога интересует вопрос - есть ли различия в степени однородности показателей умственного развития между классами.

Решение. Для критерия Фишера необходимо сравнить дис­персии тестовых оценок в обоих классах. Резуль­таты тестирования представлены в таблице:

Таблица 3.

№№ учащихся

Первый класс

Второй класс

Суммы

Среднее

60,6

63,6

Рассчитав дисперсии для переменных X и Y, получаем:

s x 2 =572,83; s y 2 =174,04

Тогда по формуле (8) для расчета по F критерию Фишера находим:

По таблице из Приложения 1 для F критерия при степенях свободы в обоих случаях равных k =10 - 1 = 9 находим F крит =3,18 (<3.29), следовательно, в терминах статистических гипотез можно утвер­ждать, что Н 0 (гипотеза о сходстве) может быть отвергнута на уровне 5%, а принимается в этом случае гипотеза Н 1 . Иc следователь может утверждать, что по степени однородности такого показа­теля, как умственное развитие, имеется различие между выбор­ками из двух классов.

6.2 Непараметрические критерии

Сравнивая на глазок (по процентным соотношениям) результаты до и после какого-либо воздействия, исследователь приходит к заключению, что если наблюдаются различия, то имеет место различие в сравниваемых выборках. Подобный подход категорически неприемлем, так как для процентов нельзя определить уровень достоверности в различиях. Проценты, взятые сами по себе, не дают возможности делать статистически достоверные выводы. Чтобы доказать эффективность какого-либо воздействия, необходимо выявить статистически значимую тенденцию в смещении (сдвиге) показателей. Для решения подобных задач исследователь может использовать ряд критериев различия.Ниже будет рассмотрены непараметрические критерии: критерий знаков и критерий хи-квадрат.

6.2.1 Критерий знаков ( G-критерий)

Критерий предназначен для срав­нения состояния некоторого свойства у членов двух зави­симых выборок на основе измерений, сделанных по шка­ле не ниже ранговой.

Имеется две серии наблюдений над случайными переменными X и У, полученные при рассмотрении двух зависимых выборок . На их основе составлено N пар вида (х i , у i ), где х i , у i - результаты двукратного измерения одного и того же свойства у одного и того же объекта.

В педагогических исследованиях объектами изуче­ния могут служить учащиеся, учителя, администрация школ. При этом х i , у i могут быть, например, балловы­ми оценками, выставленными учителем за двукратное выполнение одной и той же или различных работ одной и той же группой учащихся до и после применения некоторого педагогическою средства.

Элементы каждой пары х i , у i сравниваются между собой по величине, и паре присваивается знак «+» , ес­ли х i < у i , знак «-» , если х i > у i и «0» , если х i = у i .

Нулевая гипотеза формулируются следующим обра­зом: в состоянии изучаемого свойства нет значимых различий при первичном и вторичном измерениях. Альтернативная гипотеза: законы распределения величин X и У различны, т. е. состояния изучаемого свойства существенно раз­личны в одной и той же совокупности при первичном и вторичном измерениях этого свойства.

Ста­тистика критерия (Т) определяется следую­щим образом:

допустим, что из N пар (х, у,) нашлось несколько пар, в которых значения х i и у i равны. Такие пары обозначаются знаком «0» и при подсчете значения ве­личины Т не учитываются. Предположим, что за вы­четом из числа N числа пар, обозначенных знаком «0», осталось всего n пар. Среди оставшихся n пар подсчита­ем число пар, обозначенных знаком «-», т.е, пары, в которых x i < y i . Значение величины Т и равно чис­лу пар со знаком минус.

Нулевая гипотеза принимается на уровне значимости 0,05, если наблю­даемое значение T < n - t a , где значение n - t a определя­ется из статистических таблиц для критерия знаков Приложения 2.

Пример 4. Учащиеся выполняли контрольную ра­боту, направленную на проверку усвоения некоторого понятия. Пятнадцати учащимся затем предложили электронное пособие, составленное с целью фор­мирования данного понятия у учащихся с низким уров­нем обучаемости. После изучения пособия учащиеся снова выполняли ту же контрольного работу, которая оценивалась по пятибалльной системе.

Результаты двукратного выполнения ра­боты представляют измерения по шкале по­рядка (пятибалльная шкала). В этих условиях возмож­но применение знакового критерия для выявления тенденции изменения состояния знаний учащихся после изучения пособия, так как выполняются все допуще­ния этого критерия.

Результаты двукратного выполнения работы (в бал­лах) 15 учащимися запишем в форме таблицы (см. табл. 1).

Таблица 4.

Учащиеся (№)

Первое выполнение

Второе выполнение

Знак разности отметок

Проверяется гипотеза H 0 : состояние знаний учащих­ся не повысилось после изучения пособия. Альтернативная гипотеза: состояние знаний учащихся повысилось после изучения пособия.

Подсчитаем значение статистики критерия Т равное числу положительных разностей отметок, по­лученных учащимися. Согласно данным табл. 4 Т=10, n=12.

Для определения критических значений статистики критерия n-ta используем табл. Приложения 2. Для уровня значимости а = 0,05 при n =12 значение n-ta=9. Следовательно выполняется неравенство Т> n-ta (10>9). Поэтому в соответствии с правилом принятия решения нулевая гипотеза от­клоняется на уровне значимости 0,05 и принимает­ся альтернативная гипотеза, что позволяет сделать вывод об улучшении знаний учащихся после самостоя­тельного изучения пособия.

Пример 5. Предполагается, что изучение курса математики способствует формированию у учащихся одного из приемов логического мышления (например, приема обобщения) даже в том случае, если его фор­мирование не проводится целенаправленно. Для проверки этого предположения был проведен следующий эксперимент.

Учащимся VII класса было предложено 5 задач, решение которых основано на использовании данного приема мышления. Считалось, что учащийся владеет этим приемом, если он дает верный ответ на 3 и более задачи.

Была разработана следующая шкала измерений: верно решена 1 или 2 задачи - оценка «0»; верно решено 3 задачи - оценка «1»; верно решено 4 зада­чи- оценка «2»; верно решено 5 задач - оценка «3».

Работа проводилась дважды: в конце сентября и конце мая следующего года. Ее писали 35 одних и тех же учащихся, отобранных методом случайного отбора из 7 разных школ. Результаты двукратного выполнения работы запишем в форме таблицы (см. табл. 5).

В соответствии с целями эксперимента формулируем нулевую гипотезу следующим образом: Н 0 - изучение математики не способствует формированию изучаемого приема мышления. Тогда альтернативная гипотеза бу­дет иметь вид: Н 1 - изучение математики способствует овладению этим приемом мышления.

Таблица 5.

Согласно данным табл. 5, значение статистики Т=15 - число разностей со зна­ком «+». Из 35 пар 12 имеют знак «0»; значит, n = 35-12 = 23.

По таблице Приложения 2 для n =23 и уровня значимости 0,025 находим критическое значение стати­стики критерия, равное 16. Следовательно, верно неравенство Т

Поэтому в соответ­ствии с правилом принятия решений приходится сделать вывод о том, что полученные ре­зультаты не дают достаточных оснований для отклоне­ния нулевой гипотезы, т. е. мы не располагаем достаточными основаниями для отклонения утверждения о том, что изучение математики само по себе не способ­ствует овладению выделенным приемом мышления.

6.2.2 Критерий χ2 (хи-квадрат)

Критерий χ 2 (хи-квадрат) приме­няется для сравнения распределений объектов двух совокупностей на основе измерений по шкале наименований в двух независимых выборках.

Предполо­жим, что состояние изучаемого свойства (например, вы­полнение определенного задания) измеряется у каждо­го объекта по шкале наименований, имеющей только две взаимоисключающие категории (например: выпол­нено верно - выполнено неверно). По результатам из­мерения состояния изучаемого свойства у объектов двух выборок составляется четырехклеточная таблица 2X2. (см. табл. 6).

Таблица 6.

В этой таблице О ij - число объектов в i -ой выбор­ке, попавших в j -ую категорию по состоянию изучае­мого свойства; i =1,2 – число выборок; j =1,2 – число категорий;; N - общее число наблюдений, равное О 11 + О 12 + О 21 + О 22 или n 1 + n 2 .

Тогда на основе данных таблицы 2X2 (см. табл. 6) можно проверить ну­левую гипотезу о равенстве вероятностей попадания объектов первой и второй совокупностей в первою (вторую) категорию шкалы измерения проверяемого свойства, например гипотезу о равенстве вероятностей вер­ного выполнения некоторого задания учащимися кон­трольных и экспериментальных классов.

При проверке нулевых гипотез не обязательно, чтобы значения вероятностей р 1 и р 2 были известны, так как гипотезы только устанавливают между ними неко­торые соотношения (равенство, больше или меньше).

Для проверки рассмотренных выше нулевых гипотез по данным таблицы 2X2 (см. табл. 6) подсчитывается значение статистики критерия Т по следующей общей формуле:

(9)

где n 1 , n 2 - объемывыборок, N = n 1 + n 2 - общеечисло наблюдений.

Проводится проверка гипотезы H 0 : p 1 £ p 2 - при альтернативе Н 1: р 1 >р 2 . Пусть a - принятый уровень значимости. Тогда значение статистики Т, полученное на основе экспериментальных данных, сравнивается с критическим значением статистики х 1-2 a , которое опре­деляется по таблице c 2 c одной степенью свободы (см. Приложение 2) с учетом выбранного значения a . Если верно неравенство T < x 1-2 a , то нулевая гипотеза принимается на уровне a .Если данное неравенство не выполняется, то у нас нет достаточных оснований для отклонения нулевой гипотезы.

В связи с тем что замена точного распределения статистики Т распределением c 2 c одной степенью сво­боды дает достаточно хорошее приближение только для больших выборок, применение критерия ограничено не­которыми условиями.

1)сумма объемов двух выборок меньше 20;

2)хотя бы одна из абсолютных частот в таблице 2X2, составленной на основе экспериментальных данных, меньше 5.

Пример 6. Проводился эксперимент, направленный на выявление лучшего из учебников, написанных двумя авторскими коллективами в соответствии с целями обу­чения геометрии и содержанием программы IX класса. Для проведения эксперимента методом случайного отбо­ра были выбраны два района, большинство школ которых относились по расположению к сельским. Уча­щиеся первого района (20 классов) обучались по учеб­нику № 1, учащиеся второго района (15 классов) обуча­лись по учебнику №2.

Рассмотрим методику сравнения ответов учителей экспериментальных школ двух районов па один из вопросов анкеты: «Доступен ли учебник в целом для самостоятельного чтения и помогает ли он усвоить материал, который учитель не объяснял в классе (Ответ:да - нет.)

Отношение учителей к изучаемому свойству учебников измерено по шкале наименований, имеющей две категории: да, нет. Обе выборки учителей случайные и независимые.

Ответы 20 учителей первого района и 15 учителей второго района распределим на две категории и запишем в форме таблицы 2Х2 (табл. 5).

Таблица 7.

Все значения в табл. 7 не меньше 5, поэтому в соответствии с условиями использования критерия c 2 подсчет статистики критерия производится по формуле (9).

По таблице из приложения 2 для одной степени свободы (v = l ) и уровня значимости a =0,05 найдем х 1- a а =Т критич = 3,84. Отсюда верно неравенство Т наблюд <Т критич (1,86<3,84). Согласно правилу принятия ре­шений для критерия c 2 , полученный результат не дает достаточных оснований для отклонения нулевой ги­потезы, т. е. результаты проведенного опроса учителей двух экспериментальных районов не дают достаточных оснований для отклонения предположения об одинаковой доступности учебников 1 и 2 для самостоятельного чтения учащимися.

Применение критерия хи-квадрат возможно и в том случае, когда объекты двух выборок из двух совокупно­стей по состоянию изучаемого свойства распределяют­ся более чем на две категории. Например, учащиеся экспериментальных и контрольных классов распределя­ются на четыре категории в соответствии с отметками (в баллах: 2, 3, 4, 5), полученными учащимися за вы­полнение некоторой контрольной работы.

Результаты измерения состояния изу­чаемого свойства у объектов каждой выборки распре­деляются на С категорий. На основе этих данных со­ставляется таблица 2ХС, в которой два ряда (по числу рассматриваемых совокупностей) и С колонок (по чис­лу различных категорий состояния изучаемого свойства, принятых в исследовании).

Таблица 8.

На основе данных таблицы 8 можно проверить нулевую гипотезу о равенстве вероятностей попадания объектов первой и второй совокупностей в каждую из i ( i = l , 2, ..., С) категорий, т. е. проверить выполнение всех следующих равенств: р 11 = р 21 , p 12 = p 22 , …, p 1 c = p 2 c . Возможна, например, проверка гипо­тезы о равенстве вероятностей получения отметок «5», «4», «3» и «2» за выполнение учащимися контрольных и экспериментальных классов некоторого задания.

Для проверки нулевой гипотезы с помощью критерия c 2 на основе данных таблицы 2ХС подсчитывается значение статисти­ки критерия Т по следующей формуле:

(10)

где п 1 и п 2 - объемы выборок.

Значение Т, полученное на ос­нове экспериментальных данных, сравнивается с критическим значением х 1- a , которое определяется по таб­лице c 2 с k =С-1 степенью свободы с учетом выбранного уровнязначимости a . При выполнении неравенства Т> х 1- a а нулевая гипотеза отклоняется на уровне а и принимается альтернативная гипотеза. Это означает, что распределе­ние объектов на С категорий по состоянию изучаемого свойства различно в двух рассматриваемых совокуп­ностях.

Пример 7 . Рассмотрим методику сравнения результатов пись­менной работы, проверявшей усвоение одного из разде­лов курса учащимися первого и второго районов.

Методом случайного отбора из учащихся первого района, писавших работу, была составлена выборка объ­емом 50 человек, из учащихся второго района - выборка объемом 50 человек. В соответствии со специально разработанными критериями оценки выпол­нения работы каждый ученик мог попасть в одну из че­тырех категорий: плохо, посредственно, хорошо, отлично. Результаты выполнения работы двумя выборками уча­щихся используем для проверки гипотезы о том, что учеб­ник № 1 способствует лучшему усвоению проверяемого раздела курса, т. е. учащиеся первого экспериментального района в средне будут получать более высокие оценки, чем учащиеся второго района.

Результаты выполнения работы учащимися обеих вы­борок запишем в виде таблицы 2X4 (табл. 9 ).

Таблица 9.

В соответствии с условиями использования критерия c 2 подсчет статистики критерия производится по корректированной формуле (10).

В соответствии с условиями применения двустороннего критерия хи-квадрат по таблице из приложения 2 для одной степени свободы (k Грабарь М.И., Краснянская К.А. Применение математической статистики в педагогических исследованиях. Непараметрические методы. М., «Педагогика», 1977, стр. 54

Грабарь М.И., Краснянская К.А. Применение математической статистики в педагогических исследованиях. Непараметрические методы. М., «Педагогика», 1977, стр. 57

​ Критерий χ 2 Пирсона – это непараметрический метод, который позволяет оценить значимость различий между фактическим (выявленным в результате исследования) количеством исходов или качественных характеристик выборки, попадающих в каждую категорию, и теоретическим количеством, которое можно ожидать в изучаемых группах при справедливости нулевой гипотезы. Выражаясь проще, метод позволяет оценить статистическую значимость различий двух или нескольких относительных показателей (частот, долей).

1. История разработки критерия χ 2

Критерий хи-квадрат для анализа таблиц сопряженности был разработан и предложен в 1900 году английским математиком, статистиком, биологом и философом, основателем математической статистики и одним из основоположников биометрики Карлом Пирсоном (1857-1936).

2. Для чего используется критерий χ 2 Пирсона?

Критерий хи-квадрат может применяться при анализе таблиц сопряженности , содержащих сведения о частоте исходов в зависимости от наличия фактора риска. Например, четырехпольная таблица сопряженности выглядит следующим образом:

Исход есть (1) Исхода нет (0) Всего
Фактор риска есть (1) A B A + B
Фактор риска отсутствует (0) C D C + D
Всего A + C B + D A + B + C + D

Как заполнить такую таблицу сопряженности? Рассмотрим небольшой пример.

Проводится исследование влияния курения на риск развития артериальной гипертонии. Для этого были отобраны две группы исследуемых - в первую вошли 70 человек, ежедневно выкуривающих не менее 1 пачки сигарет, во вторую - 80 некурящих такого же возраста. В первой группе у 40 человек отмечалось повышенное артериальное давление. Во второй - артериальная гипертония наблюдалась у 32 человек. Соответственно, нормальное артериальное давление в группе курильщиков было у 30 человек (70 - 40 = 30) а в группе некурящих - у 48 (80 - 32 = 48).

Заполняем исходными данными четырехпольную таблицу сопряженности:

В полученной таблице сопряженности каждая строчка соответствует определенной группе исследуемых. Столбцы - показывают число лиц с артериальной гипертонией или с нормальным артериальным давлением.

Задача, которая ставится перед исследователем: имеются ли статистически значимые различия между частотой лиц с артериальным давлением среди курящих и некурящих? Ответить на этот вопрос можно, рассчитав критерий хи-квадрат Пирсона и сравнив получившееся значение с критическим.

3. Условия и ограничения применения критерия хи-квадрат Пирсона

  1. Сопоставляемые показатели должны быть измерены в номинальной шкале (например, пол пациента - мужской или женский) или в порядковой (например, степень артериальной гипертензии, принимающая значения от 0 до 3).
  2. Данный метод позволяет проводить анализ не только четырехпольных таблиц, когда и фактор, и исход являются бинарными переменными, то есть имеют только два возможных значения (например, мужской или женский пол, наличие или отсутствие определенного заболевания в анамнезе...). Критерий хи-квадрат Пирсона может применяться и в случае анализа многопольных таблиц, когда фактор и (или) исход принимают три и более значений.
  3. Сопоставляемые группы должны быть независимыми, то есть критерий хи-квадрат не должен применяться при сравнении наблюдений "до-"после". В этих случаях проводится тест Мак-Немара (при сравнении двух связанных совокупностей) или рассчитывается Q-критерий Кохрена (в случае сравнения трех и более групп).
  4. При анализе четырехпольных таблиц ожидаемые значения в каждой из ячеек должны быть не менее 10. В том случае, если хотя бы в одной ячейке ожидаемое явление принимает значение от 5 до 9, критерий хи-квадрат должен рассчитываться с поправкой Йейтса . Если хотя бы в одной ячейке ожидаемое явление меньше 5, то для анализа должен использоваться точный критерий Фишера .
  5. В случае анализа многопольных таблиц ожидаемое число наблюдений не должно принимать значения менее 5 более чем в 20% ячеек.

4. Как рассчитать критерий хи-квадрат Пирсона?

Для расчета критерия хи-квадрат необходимо:

Данный алгоритм применим как для четырехпольных, так и для многопольных таблиц.

5. Как интерпретировать значение критерия хи-квадрат Пирсона?

В том случае, если полученное значение критерия χ 2 больше критического, делаем вывод о наличии статистической взаимосвязи между изучаемым фактором риска и исходом при соответствующем уровне значимости.

6. Пример расчета критерия хи-квадрат Пирсона

Определим статистическую значимость влияния фактора курения на частоту случаев артериальной гипертонии по рассмотренной выше таблице:

  1. Рассчитываем ожидаемые значения для каждой ячейки:
  2. Находим значение критерия хи-квадрат Пирсона:

    χ 2 = (40-33.6) 2 /33.6 + (30-36.4) 2 /36.4 + (32-38.4) 2 /38.4 + (48-41.6) 2 /41.6 = 4.396.

  3. Число степеней свободы f = (2-1)*(2-1) = 1. Находим по таблице критическое значение критерия хи-квадрат Пирсона, которое при уровне значимости p=0.05 и числе степеней свободы 1 составляет 3.841.
  4. Сравниваем полученное значение критерия хи-квадрат с критическим: 4.396 > 3.841, следовательно зависимость частоты случаев артериальной гипертонии от наличия курения - статистически значима. Уровень значимости данной взаимосвязи соответствует p<0.05.

В предыдущих заметках были описаны процедуры проверки гипотез о числовых и категорийных данных: , несколько , а также , позволяющего изучать один или . В настоящей заметке мы рассмотрим методы проверки гипотез о различиях между долями признака в генеральных совокупностях на основе нескольких независимых выборок.

Для иллюстрации применяемых методов используется сценарий, в котором оценивается степень удовлетворенности постояльцев отелей, принадлежащих компании Т. С. Resort Properties. Представьте себе, что вы - менеджер компании, владеющей пятью отелями, расположенными на двух курортных островах. Если гости удовлетворены обслуживанием, велика вероятность, что они вернутся на следующий год и порекомендуют своим друзьям остановиться именно в вашем отеле. Чтобы оценить качество обслуживания, постояльцев просят заполнить анкету и указать, довольны ли они гостеприимством. Вам необходимо проанализировать данные опроса, определить общую степень удовлетворенности запросов постояльцев, оценить вероятность того, что гости приедут вновь в следующем году, а также установить причины возможного недовольства некоторых клиентов. Например, на одном из островов компании принадлежат отели Beachcomber и Windsurfer. Одинаково ли обслуживание в этих отелях? Если нет, как эту информацию можно использовать для улучшения качества работы компании? Более того, если некоторые постояльцы заявили, что больше к вам не приедут, какие причины они указывают чаще других? Можно ли утверждать, что эти причины касаются лишь конкретной гостиницы и не относятся ко всей компании в целом?

Здесь использованы следующие обозначения: X 1 - количество успехов в первой группе, X 2 - количество успехов во второй группе, n 1 X 1 - количество неудач в первой группе, n 2 X 2 - количество неудач во второй группе, X = X 1 + X 2 - общее количество успехов, n X = (n 1 X 1 ) + (n 2 X 2 ) - общее количество неудач, n 1 - объем первой выборки, n 2 - объем второй выборки, n = n 1 + n 2 - суммарный объем выборок. Представленная таблица имеет две строки и два столбца, поэтому она называется факторной таблицей 2×2. Ячейки, образованные пересечением каждой строки и столбца, содержат количество успехов или неудач.

Проиллюстрируем применение таблицы сопряженности признаков на примере сценария, описанного выше. Предположим, что на вопрос «Вернетесь ли вы в следующем году?» утвердительно ответили 163 из 227 постояльцев отеля Beachcomber, и 154 из 262 постояльцев отеля Windsurfer. Существует ли статистически значимая разность между степенью удовлетворенности постояльцев отелей (представляющая собой вероятность того, что постояльцы вернутся в следующем году), если уровень значимости равен 0,05?

Рис. 2. Факторная таблица 2х2 для оценки качества обслуживания постояльцев

В первой строке указывается количество постояльцев каждого отеля, заявивших о своем желании вернуться в следующем году (успех); во второй строке – количество постояльцев, выразивших недовольство (неудача). Ячейки, расположенные в столбце «Итого», содержат общее количество гостей, планирующих вернуться в отель в следующем году, а также общее количество гостей, недовольных обслуживанием. Ячейки, расположенные в строке «Всего», содержат общее количество опрошенных постояльцев каждого отеля. Доля постояльцев, планирующих вернуться, вычисляется путем деления количества постояльцев, заявивших об этом, на общее количество опрошенных гостей данного отеля. Затем для сравнения вычисленных долей применяется χ 2 -критерий.

Чтобы проверить нулевую и альтернативные гипотезы Н 0: р 1 = р 2 ; Н 1: р 1 ≠ р 2 используем тестовую χ 2 -статистику.

Критерий «хи-квадрат» для сравнения двух долей. Тестовая χ 2 -статистика равна сумме квадратов разностей между наблюдаемым и ожидаемым количеством успехов, деленных на ожидаемое количество успехов в каждой ячейке таблицы:

где f 0 - наблюдаемое количество успехов или неудач в конкретной ячейке таблицы сопряженности признаков, f e

Тестовая χ 2 -статистика аппроксимируется χ 2 -распределением с одной степенью свободы.

Или неудач в каждой ячейке таблицы сопряженности признаков, необходимо понимать их смысл. Если нулевая гипотеза является истинной, т.е. доли успехов в двух генеральных совокупностях равны, выборочные доли, вычисленные для каждой из двух групп, могут отличаться друг от друга лишь по случайным причинам, причем обе доли являются оценкой общего параметра генеральной совокупности р . В этой ситуации статистика, объединяющая обе доли в одной общей (средней) оценке параметра р , представляет собой общую долю успехов в объединенных группах (т.е. равна общему количеству успехов, деленному на суммарный объем выборок). Ее дополнение, 1 – , представляет собой общую долю неудач в объединенных группах. Используя обозначения, смысл которых описан в таблице на рис. 1. можно вывести формулу (2) для вычисления параметра :

где – средняя доля признака.

Чтобы вычислить ожидаемое количество успехов f e (т.е. содержимое первой строки таблицы сопряженности признаков), необходимо умножить объем выборки на параметр . Чтобы вычислить ожидаемое количество неудач f e (т.е. содержимое второй строки таблицы сопряженности признаков), необходимо умножить объем выборки на параметр 1 – .

Тестовая статистика, вычисленная по формуле (1), аппроксимируется χ 2 -распределением с одной степенью свободы. При заданном уровне значимости α нулевая гипотеза отклоняется, если вычисленная χ 2 -статистика больше χ U 2 , верхнего критического значения χ 2 -распределения с одной степенью свободы. Таким образом, решающее правило выглядит следующим образом: гипотеза H 0 отклоняется, если χ 2 > χ U 2 , в противном случае гипотеза Н 0 не отклоняется (рис. 3).

Рис. 3. Критическая область χ 2 -критерия для сравнения долей при уровне значимости α

Если нулевая гипотеза является истинной, вычисленная χ 2 -статистика близка к нулю, поскольку квадрат разности между наблюдаемой f 0 и ожидаемой f е величинами в каждой ячейке очень мал. С другой стороны, если нулевая гипотеза Н 0 является ложной и между долями успехов в генеральных совокупностях существует значимая разница, вычисленная χ 2 -статистика должна быть большой. Это объясняется разностью между наблюдаемым и ожидаемым количеством успехов или неудач в каждой ячейке, которая увеличивается при возведении в квадрат. Однако вклады разностей между ожидаемыми и наблюдаемыми величинами в общую χ 2 -статистику могут быть неодинаковыми. Одна и та же фактическая разность между f 0 и f e может оказать большее влияние на χ 2 -статистику, если в ячейке содержатся результаты небольшого количества наблюдений, чем разность, соответствующая большему количеству наблюдений.

Для того чтобы проиллюстрировать χ 2 -критерий для проверки гипотезы о равенстве двух долей, вернемся к сценарию, описанному в ранее, результаты которого приведены на рис. 2. Нулевая гипотеза (Н 0: р 1 = р 2) утверждает, что при сравнении качества обслуживания в двух отелях доли постояльцев, планирующих вернуться в следующем году, практически одинаковы. Для оценки параметра р , представляющего собой долю гостей, планирующих вернуться в отель, если нулевая гипотеза является истинной, используется величина , которая вычисляется по формуле

Доля гостей, оставшихся недовольными обслуживанием = 1 – 0,6483 = 0,3517. Умножая эти две доли на количество опрошенных постояльцев отеля Beachcomber, получаем ожидаемое количество гостей, планирующих вернуться в следующем сезоне, а также число отдыхающих, которые больше не остановятся в этом отеле. Аналогично вычисляются ожидаемые доли постояльцев отеля Windsurfer:

Да - Beachcomber: = 0,6483, n 1 = 227, следовательно, f e = 147,16.
Да - Windsurfer: = 0,6483, n 2 = 262, следовательно, f e = 169,84.
Нет - Beachcomber: 1 – = 0,3517, n 1 = 227, следовательно, f e = 79,84.
Нет - Windsurfer: 1 – = 0,3517, n 2 = 262, следовательно, f e = 92,16.

Расчеты представлены на рис. 4.

Рис. 4. χ 2 -статистика для отелей: (а) исходные данные; (б) факторная таблица 2х2 для сравнения наблюдаемого (f 0 ) и ожидаемого (f e ) количества постояльцев, удовлетворенных и не удовлетворенных обслуживанием; (в) вычисление χ 2 -статистики при сравнении доли постояльцев, удовлетворенных обслуживанием; (г) расчет критического значения тестовой χ 2 -статистики

Для расчета критического значения тестовой χ 2 -статистики применяется функция Excel =ХИ2.ОБР(). Если уровень значимости α = 0,05 (вероятность, подставляемая в функцию ХИ2.ОБР есть 1 –α), а χ 2 -распределение для факторной таблицы 2×2 имеет одну степень свободы, критическое значение χ 2 -статистики равно 3,841. Поскольку вычисленное значение χ 2 -статистики, равное 9,053 (рис. 4в), превышает число 3,841, нулевая гипотеза отклоняется (рис. 5).

Рис. 5. Определение критического значения тестовой χ 2 -статистики с одной степенью свободы при уровне значимости α = 0,05

Вероятность р того, что нулевая гипотеза верна при χ 2 -статистикие равной 9,053 (и одной степени свободы) рассчитывается в Excel с помощью функции =1 – ХИ2.РАСП(9,053;1;ИСТИНА) = 0,0026. р -значение, равное 0,0026, - это вероятность того, что разность между выборочными долями постояльцев, удовлетворенных обслуживанием в отелях Beachcomber и Windsurfer, равна или больше 0,718 – 0,588 = 0,13, если на самом деле их доли в обеих генеральных совокупностях одинаковы. Таким образом, существуют веские основания утверждать, что между двумя отелями есть статистически значимая разница в обслуживании постояльцев. Исследования показывают, что количество гостей, удовлетворенных обслуживанием в отеле Beachcomber, больше количества постояльцев, планирующих снова остановиться в гостинице Windsurfer.

Проверка предположений, касающихся факторной таблицы 2×2. Для получения точных результатов на основе данных, приведенных в таблице 2×2, необходимо, чтобы количество успехов или неудач превышало число 5. Если это условие не выполняется, следует применять точный критерий Фишера .

При сравнении процента клиентов, удовлетворенных качеством обслуживания в двух отелях, критерии Z и χ 2 приводят к одинаковым результатам. Это можно объяснить существованием тесной связи между стандартизованным нормальным распределением и χ 2 -распределением с одной степенью свободы. В этом случае χ 2 -статистика всегда является квадратом Z-статистики. Например, при оценке степени удовлетворенности гостей мы обнаружили, что Z -статистика равна +3,01, а χ 2 -статистика - 9,05. Пренебрегая ошибками округления, легко убедиться, что вторая величина является квадратом первой (т.е. 3,01 2 = 9,05). Кроме того, сравнивая критические значения обеих статистик при уровне значимости α = 0,05, можно обнаружить, что величина χ 1 2 равная 3,841, является квадратом верхнего критического значения Z-статистики, равного +1,96 (т.е. χ 1 2 = Z 2). Более того, р -значения обоих критериев одинаковы.

Таким образом, можно утверждать, что при проверке нулевой и альтернативной гипотез Н 0: р 1 = р 2 ; Н 1: р 1 ≠ р 2 критерии Z и χ 2 являются эквивалентными. Однако, если необходимо не просто обнаружить различия, но и определить, какая доля больше (р 1 > р 2), следует применять Z-критерий с одной критической областью, ограниченной хвостом стандартизованного нормального распределения. Далее будет описано применение критерия χ 2 для сравнения долей признака в нескольких группах. Необходимо отметить, что Z-критерий в этой ситуации применять невозможно.

Применение χ 2 -критерия для проверки гипотезы о равенстве нескольких долей

Критерий «хи-квадрат» можно распространить на более общий случай и применять для проверки гипотезы о равенстве нескольких долей признака. Обозначим количество анализируемых независимых генеральных совокупностей буквой с . Теперь таблица сопряженности признаков состоит из двух строк и с столбцов. Чтобы проверить нулевую и альтернативные гипотезы Н 0: р 1 = р 2 = … = р 2 , Н 1: не все р j равны между собой (j = 1, 2, …, c ), используется тестовая χ 2 -статистика:

где f 0 - наблюдаемое количество успехов или неудач в конкретной ячейке факторной таблицы 2*с , f e - теоретическое, или ожидаемое, количество успехов или неудач в конкретной ячейке таблицы сопряженности признаков при условии, что нулевая гипотеза является истинной.

Чтобы вычислить ожидаемое количество успехов или неудач в каждой ячейке таблицы сопряженности признаков, необходимо иметь в виду следующее. Если нулевая гипотеза является истинной и доли успехов во всех с генеральных совокупностях равны, соответствующие выборочные доли могут отличаться друг от друга лишь по случайным причинам, поскольку все доли представляют собой оценки доли признака р в общей генеральной совокупности. В этой ситуации статистика, объединяющая все доли в одной общей (или средней) оценке параметра р , содержит больше информации, чем каждая из них в отдельности. Эта статистика, обозначаемая символом , представляет собой общую (или среднюю) долю успехов в объединенной выборке.

Вычисление средней доли:

Чтобы вычислить ожидаемое количество успехов f e в первой строке таблицы сопряженности признаков, необходимо умножить объем каждой выборки на параметр . Чтобы вычислить ожидаемое количество неудач f e во второй строке таблицы сопряженности признаков, необходимо умножить объем каждой выборки на параметр 1 – . Тестовая статистика, вычисленная по формуле (1), аппроксимируется χ 2 -распределением. Количество степеней свободы этого распределения задается величиной (r – 1)(c – 1) , где r - количество строк в факторной таблице, с - количество столбцов в таблице. Для факторной таблицы 2*с количество степеней свободы равно (2 – 1)(с – 1) = с – 1 . При заданном уровне значимости α нулевая гипотеза отклоняется, если вычисленная χ 2 -статистика больше верхнего критического значения χ U 2 , присущего χ 2 -распределению с с – 1 степенями свободы. Таким образом, решающее правило выглядит следующим образом: гипотеза Н 0 отклоняется, если χ 2 > χ U 2 (рис. 6), в противном случае гипотеза отклоняется.

Рис. 6. Критическая область χ 2 -критерия для сравнения с долей при уровне значимости α

Проверка предположений, касающихся факторной таблицы 2*с. Для получения точных результатов на основе данных, приведенных в факторной таблице 2*с , необходимо, чтобы количество успехов или неудач было достаточно большим. Некоторые статистики полагают, что критерий дает точные результаты, если ожидаемые частоты превышают 0,5. Более консервативные исследователи требуют, чтобы не более 20% ячеек таблицы сопряженности признаков содержали ожидаемые величины, которые меньше 5, причем ни одна ячейка не должна содержать ожидаемую величину меньше единицы. Последнее условие нам представляется разумным компромиссом между этими крайностями. Чтобы удовлетворить это условие, категории, содержащие небольшие ожидаемые величины, следует объединить в одну. После этого критерий становится более точным. Если по каким-либо причинам объединение нескольких категорий невозможно, следует применять альтернативные процедуры.

Для того чтобы проиллюстрировать χ 2 -критерий для проверки гипотезы о равенстве долей в нескольких группах, вернемся к сценарию, описанному в начале главы. Рассмотрим аналогичный опрос, в котором принимают участие постояльцы трех отелей, принадлежащих компании Т. С. Resort Resources (рис. 7а).

Рис. 7. Факторная таблица 2×3 для сравнения количества постояльцев, удовлетворенных и не удовлетворенных обслуживанием: (а) наблюдаемое количество успехов или неудач – f 0 ; (б) ожидаемое количество успехов или неудач – f e ; (в) вычисление χ 2 -статистики при сравнении долей постояльцев, удовлетворенных обслуживанием

Нулевая гипотеза утверждает, что доли клиентов, планирующих вернуться в следующем году, во всех отелях практически одинаковы. Для оценки параметра р , представляющего собой долю гостей, планирующих вернуться в отель, используется величина р̅ = Х / n = 513 / 700 = 0,733. Доля гостей, оставшихся недовольными обслуживанием, равна 1 – 0,733 = 0,267. Умножая три доли на количество опрошенных постояльцев в каждом из отелей, получаем ожидаемое количество гостей, планирующих вернуться в следующем сезоне, а также число клиентов, которые больше не остановятся в этом отеле (рис. 7б).

Чтобы проверить нулевую и альтернативные гипотезы используют тестовую χ 2 -статистику, вычисленную с помощью ожидаемых и наблюдаемых величин по формуле (1) (рис. 7в).

Критическое значение тестовой χ 2 -статистики определяется по формуле =ХИ2.ОБР(). Поскольку в опросе принимают участие постояльцы трех отелей, χ 2 -статистика имеет (2 – 1)(3 – 1) = 2 степени свободы. При уровне значимости α = 0,05 критическое значение χ 2 -статистики равно 5,991 (рис. 7г). Так как вычисленная χ 2 -статистика, равная 40,236, превышает критическое значение, нулевая гипотеза отклоняется (рис. 8). С другой стороны, вероятность р того, что нулевая гипотеза верна при χ 2 -статистикие равной 40,236 (и двух степенях свободы) рассчитывается в Excel с помощью функции =1-ХИ2.РАСП() = 0,000 (рис. 7г). р -значение равно 0,000 и меньше уровня значимости α = 0,05. Следовательно, нулевая гипотеза отклоняется.

Рис. 8. Области принятия и отклонения гипотезы о равенстве трех долей при уровне значимости, равном 0,05, и двух степенях свободы

Отклоняя нулевую гипотезу при сравнении долей, указанных в факторной таблице 2*с , мы можем утверждать лишь, что доли постояльцев, удовлетворенных обслуживанием в трех отелях, не совпадают. Для того чтобы выяснить, какие доли отличаются от других, необходимо применять иные методы, например процедуру Мараскуило.

Процедура Мараскуило позволяет сравнивать все группы попарно. На первом этапе процедуры вычисляются разности p s j – p s j ’ (где j j ) между с(с – 1)/2 парами долей. Соответствующие критические размахи вычисляются по формуле:


При общем уровне значимости α, величина представляет собой квадратный корень из верхнего критического значения распределения «хи-квадрат», имеющего с – 1 степеней свободы. Для каждой пары выборочных долей необходимо вычислить отдельный критический размах. На последнем этапе каждая из с(с – 1)/2 пар долей сравнивается с соответствующим критическим размахом. Доли, образующие конкретную пару, считаются статистически значимо разными, если абсолютная разность выборочных долей |p s j – p s j | превышает критический размах.

Проиллюстрируем процедуру Мараскуило на примере опроса постояльцев трех отелей (рис 9а). Применяя критерий «хи-квадрат», мы убедились, что между долями постояльцев разных отелей, собирающихся вернуться в следующем году, существует статистически значимая разница. Поскольку в опросе участвуют постояльцы трех отелей, необходимо выполнить 3(3 – 1)/2 = 3 попарных сравнений и вычислить три критических размаха. Для начала вычислим три выборочных доли (рис. 9б). При общем уровне значимости, равном 0,05, верхнее критическое значение тестовой χ 2 -статистики для распределения «хи-квадрат», имеющего (с – 1) = 2 степени свободы определяется по формуле =ХИ2.ОБР(0,95;2) = 5,991. Итак, = 2,448 (рис. 9в). Далее, вычислим три пары абсолютных разностей и соответствующие критические размахи. Если абсолютная разность больше ее критического размаха, то соответствующие доли считаются значимо разными (рис. 9г).

Рис. 9. Результаты выполнения процедуры Мараскуило для проверки гипотезы о равенстве долей удовлетворенных постояльцев трех отелей: (а) данные опроса; (б) выборочных доли; (в) верхнее критическое значение тестовой χ 2 -статистики для распределения «хи-квадрат»; (г) три пары абсолютных разностей и соответствующие критические размахи

Как видим, при уровне значимости, равном 0,05, степень удовлетворенности постояльцев отеля Palm Royal (p s2 = 0,858) выше, чем у постояльцев отелей Golden Palm (p s1 = 0,593) и Palm Princess (p s3 =0,738). Кроме того, степень удовлетворенности постояльцев отеля Palm Princess выше, чем у постояльцев отеля Golden Palm. Эти результаты должны заставить руководство проанализировать причины таких различий и попытаться определить, почему степень удовлетворенности постояльцев отеля Golden Palm значительно ниже, чем у постояльцев других отелей.

Используются материалы книги Левин и др. Статистика для менеджеров. – М.: Вильямс, 2004. – с. 708–730

Похожие публикации