chi square test что это

Понимание статистических испытаний для науки и машины данных

Статистические испытания играют важную роль в области науки о науке и изучении машины. С статистическими тестами можно предположить определенный уровень понимания данных с точки зрения статистического распределения.

Различные статистические данные существуют на основе типа переменных I.e. Непрерывное или категориальное. Для непрерывных значений данных показатели являются наиболее используемыми тестами:

С другой стороны, для категориальных переменных данных, приведенные ниже популярные статистические тесты:

Сегодня, давайте посмотрим на Тест Chi-Square в Python Отказ

Что такое тест Chi-Square?

Тест Chi-Square – это непараметричный статистический тест, который позволяет нам понимать взаимосвязь между категорическими переменными набора данных. То есть он определяет корреляцию среди группировки категориальных данных.

Использование теста Chi-Square, мы можем оценить уровень корреляции I.E. Ассоциация между категориальными переменными набора данных. Это помогает нам проанализировать зависимость одной категории переменной на другой независимой категории переменной.

Давайте теперь понять тестирование Chi-Square с точки зрения гипотезы.

Настройка гипотезы для теста Chi-Square

Использование библиотеки Scipy.Stats для реализации теста Chi-Square

В этом примере мы создали таблицу, как показано ниже – «Информация». Далее мы использовали Scipy.Stats Библиотека, которая дает нам chi2_contingency () Функция для реализации теста Chi-Square.

В качестве вывода мы получаем три значения из теста: статистическое значение (которое можно использовать для определения гипотезы по сравнению с критическими значениями), P-значением и степенью свободы (количество переменных, которые могут свободно варьироваться)

Мы используем P-значение для интерпретации теста Chi-Square.

Если значение p меньше предполагаемого значения значимости (0,05), то мы не можем принять, что между переменными нет связи. То есть мы отвергаем нулевую гипотезу и принять претензию альтернативной гипотезы.

Таким образом, в этом случае мы отвергаем нулевую гипотезу и принимаю связь между пропущенными данными.

Использование Chi-Square Test на DataSet

Теперь мы будем реализовывать тест Chi-Square, чтобы проанализировать взаимосвязь между независимыми категориальными переменными.

Изначально мы загружаем набор данных в среду, а затем распечатайте имена категорических переменных данных, как показано:

Кроме того, мы используем функцию Crosstab () для создания таблицы непредвиденных обстоятельств двух выбранных переменных для работы на «отпуске» и «Weathersit».

Наконец, мы применяем функцию CHI2_Contingency () на таблицу и получите статистику, значение p-значением и степенью значения свободы.

Сверху 0,79 – значение P-значение, 1.02 – статистическое значение, а 3 – степень свободы. Поскольку значение P превышает 0,05, мы принимаем нулевую гипотезу и предположим, что переменные «праздник» и «Weathersit» не зависят друг от друга.

Заключение

По этому, мы подошли к концу этой темы. Не стесняйтесь комментировать ниже, если вы столкнетесь с любым вопросом.

Источник

Классические методы статистики: критерий хи-квадрат

Таким образом, при одной степени свободы только в 5% случаев величина критерия \(\chi^2\) превышает 3.841. Полученное нами значение 6.79 значительно превышает это критического значение, что дает нам право отвергнуть нулевую гипотезу об отсутствии связи между введением антител и выживаемостью зараженных мышей. Отвергая эту гипотезу, мы рискуем ошибиться с вероятностью менее 5%.

Следует отметить, что приведенная выше формула для критерия \(\chi^2\) дает несколько завышенные значения при работе с таблицами сопряженности размером 2х2. Причина заключается в том, что распределение самого критерия \(\chi^2\) является непрерывным, тогда как частоты бинарных признаков («погибло» / «выжило») по определению дискретны. В связи с этим при расчете критерия принято вводить т.н. поправку на непрерывность, или поправку Йетса:

В нашем случае критерий \(\chi^2\) с поправкой на непрерывность составил бы 5.792, и нулевая гипотеза об отсутствии эффекта антител все равно была бы отклонена. Возможно, однако, что в других ситуациях это сделать так легко не удалось бы.

Как видим, R автоматически применяет поправку Йетса на непрерывность ( Pearson’s Chi-squared test with Yates’ continuity correction ). Рассчитанное программой значение \(\chi^2\) составило 5.79213. Мы можем отклонить нулевую гипотезу об отсутствии эффекта антител, рискуя ошибиться с вероятностью чуть более 1% ( p-value = 0.0161 ).

Источник

Инференциальная статистика: понимание гипотезы с использованием критерия хи-квадрат

Дата публикации Jul 11, 2019

Как инженер по науке о данных, крайне важно, чтобы набор выборочных данных, который вы выбираете из данных о населении, был надежным, чистым и хорошо проверенным на предмет его пригодности для построения моделей машинного обучения.

Так как ты это делаешь?Ну, у нас есть несколько статистических методов, таких как описательная статистика, где мы измеряем центральное значение данных, как они распределяются по среднему значению / медиане. Это нормально распределено или в разбросе данных есть перекос. Пожалуйста, обратитесь к моей предыдущей статье на том же для большей ясности.

Основы описательной статистики для аспирантов по науке о данных

Прикладная статистика фундаментальная для аспирантов Data Science

towardsdatascience.com

Первым делом мы визуализируем данные с использованием различных методов визуализации данных, чтобы на ранних этапах осознать любую асимметрию или несоответствие данных, чтобы идентифицировать любые виды взаимосвязей между переменными набора данных.

Данные имеют так много, чтобы сказать, и мы, инженер данных, даем им право высказывать и описывать себя, используя описательные статистические методы.

Но для того, чтобы делать какие-либо прогнозы или делать какие-то выводы, помимо данных, чтобы найти скрытую вероятность, мы полагаемся на методы логической статистики.

Инференциальная статистика касается выводов, основанных на отношениях, найденных в выборке, на отношениях в популяции. Инференциальная статистика помогает нам, например, решить, достаточно ли сильны различия между группами, которые мы видим в наших данных, чтобы поддержать нашу гипотезу о том, что групповые различия существуют в целом по всему населению.

Сегодня мы рассмотрим один из логически выведенных статистических механизмов для понимания концепции проверки гипотез с использованием популярного теста хи-квадрат.

Что такое тест хи-квадрат?

Это логический статистический тест, который работает с категориальными данными.

Тест хи-квадрат представляет собой статистический тест гипотезы, который предполагает (нулевая гипотеза), что наблюдаемые частоты для категориальной переменной соответствуют ожидаемым частотам для категориальной переменной. Тест вычисляет статистику, которая имеет распределение хи-квадрат, названное в честь греческой заглавной буквы Chi (X), произносится как «ки», как в кайте.

Мы пытаемся проверить вероятность тестовых данных (данных выборки), чтобы выяснить, является ли наблюдаемое распределение набора данных статистической случайностью (случайно) или нет.Статистика доброты соответствияв тесте хи-квадрат измеряет, насколько хорошо наблюдаемое распределение данных соответствует распределению, которое ожидается, если переменные являются независимыми.

Как работает Chi-Square?

Как правило, мы пытаемся установить связь между данной категориальной переменной в этом тесте. Хи-квадрат оценивает, являются ли данные переменные в наборе данных (выборке) независимыми, называемымиТест Независимости.Критерии хи-квадрат используются для проверки гипотез об одной или двух категориальных переменных иуместно, когда данные могут быть обобщены путем подсчета в таблице, Переменные могут иметь несколько категорий.

Тип теста хи-квадрат:

Для одной категориальной переменной мы выполняем

Проверка на соответствие критерия хи-квадрат начинается с предположения, что распределение переменной ведет себя определенным образом. Например, чтобы определить ежедневные кадровые потребности магазина розничной торговли, менеджер может пожелать узнать, существует ли равное количество покупателей каждый день недели.

Для двух категориальных переменных мы выполняем

Другой способ описать критерий хи-квадрат заключается в следующем:

Он проверяет нулевую гипотезу о том, что переменные являются независимыми.

Тест сравнивает наблюдаемые данные с моделью, которая распределяет данные в соответствии с ожиданием того, что переменные являются независимыми. В тех случаях, когда наблюдаемые данные не соответствуют модели, вероятность того, что переменные являются зависимыми, возрастает, что доказывает ошибочную гипотезу!

Гипотеза в хи-квадрат:

Прежде чем выполнять какие-либо дифференциальные статистические тесты, такие как Chi-Square, вы должны установить в качестве инженера данных.

Для одной категориальной переменной:

Для двух категориальных переменных:

Что такое распределение хи-квадрат?

распределение хи-квадрат(такжехи-квадратилиχ2-распределение) сКСтепени свободы это распределение суммы квадратовКнезависимые стандартные нормальные случайные величины.

Это одно из наиболее широко используемых распределений вероятностей в логической статистике, особенно при проверке гипотез или построении доверительных интервалов.

Основной причиной того, что распределение хи-квадрат широко используется при проверке гипотез, является его связь с нормальным распределением. Дополнительная причина, по которой широко используется распределение хи-квадрат, состоит в том, что он является членом класса тестов отношения правдоподобия (LRT). У LRT есть несколько желательных свойств; в частности, LRT обычно предоставляют высочайшую силу, чтобы отвергнуть нулевую гипотезу.

Степень свободы в распределении Чи в квадрате:

степени свободы(Д.Ф.илиd) скажу, сколько чисел в вашей сеткена самом деленезависимый. Для сетки хи-квадрат можно сказать, что степенью свободы является количество ячеек, которые необходимо заполнить до этого, учитывая итоги в полях, вы можете заполнить оставшуюся часть сетки, используя формулу.

Степени свободы для сетки хи-квадрат равны числу строк минус один раз, а число столбцов минус один: то есть (R-1) * (C-1).

Помнить!

По мере того как степень свободы (df) увеличивается, распределение хи-квадрат приближается к нормальному распределению

Статистика хи-квадрат:

Формула для статистики хи-квадрат, используемая в тесте хи-квадрат:

Индекс «сВот степени свободы. «ОЭто ваша наблюдаемая ценность иЕваше ожидаемое значение Символ суммирования означает, что вам придется выполнять вычисления для каждого отдельного элемента данных в вашем наборе данных.

E = (общее количество строк × общее количество столбцов) / размер выборки

Статистика хи-квадрат может использоваться только для чисел. Они не могут быть использованы для процентов, пропорций, средних или аналогичных статистических значений. Например, если у вас 10 процентов из 200 человек, вам нужно преобразовать это число (20), прежде чем вы сможете запустить тестовую статистику.

Тест хи-квадрат включает в себя вычисление метрики, называемой статистикой хи-квадрат, упомянутой выше, которая следует за распределением хи-квадрат.

Давайте рассмотрим пример, чтобы получить ясность по всем вышеупомянутым темам, связанным с хи-квадрат:

P-значение:

Нулевая гипотеза обеспечивает вероятностную структуру, с которой можно сравнивать наши данные. В частности, с помощью предложенной статистической модели нулевая гипотеза может быть представлена распределением вероятностей, называемымР-значение, который дает вероятность всех возможных результатов, если нулевая гипотеза верна;

Это вероятностное представление наших ожиданий при нулевой гипотезе.

Тест хи-квадрат, поясняемый примером:

Мы рассмотрим следующие важные шаги в нашем путешествии по тесту Chi_square для независимости двух переменных.

Проблема: эта проблема была получена изstarttrek

Опрос общественного мнения опросил простую случайную выборку из 1000 избирателей. Респонденты были классифицированы по полу (мужчина или женщина) и по избирательному предпочтению (республиканец, демократ или независимый). Результаты показаны в таблице непредвиденных расходов ниже.

Мы должны сделать вывод, есть ли гендерный разрыв? Значительно ли отличаются предпочтения мужчин при голосовании? Используйте уровень значимости 0,05.

Давайте попробуем решить эту проблему, используя критерий хи-квадрат, чтобы узнать значение P.

Вот тип теста, который мы будем использовать:

Тест хи-квадрат на независимость.

Итак, начнем с того, что сначала изложим нашу гипотезу.

Шаг 1: сформулируйте гипотезу:

Здесь нам нужно начать с установления нулевой гипотезы и контр-гипотезы (альтернативной гипотезы), как указано ниже.

Нулевая гипотеза:

Хо: Пол и избирательные предпочтения независимы.

Альтернативная гипотеза:

H1: Пол и предпочтения голосования не являются независимыми.

Шаг 2: Давайте создадим наш план анализа данных:

Здесь мы попытаемся выяснить значение P и сравнить его с уровнем значимости. Давайте возьмем стандарт и принялиуровень значимости должен быть 0,05.Учитывая пример данных в таблице выше, давайте попробуем использоватьТест хи-квадрат на независимость и вывести значение вероятности

Шаг 3: Давайте сделаем анализ образца:

Здесь мы проанализируем данные образца для вычисления

Все вышеперечисленные значения помогут нам найтиР-значение,

df = (2–1) * (3–1) = 1 * 2 = 2;

Расчет ожидаемой частоты:

Пусть Eij, представляет ожидаемые значения двух переменных, не зависящих друг от друга.

Eij = ih (итоговая строка X итоговая сумма в столбце) / итоговая сумма

Давайте вычислим ожидаемое значение для каждой данной строки и значения столбца, используя вышеупомянутую формулу. Позвольте мне снова скопировать изображение таблицы ниже, чтобы помочь вам сделать расчет легко,

Здесь общее значение строки 1 = 400, общее значение для column1 = 450, общий размер выборки = 1000,

E1,1 = (400 * 450) / 1000 = 180000/1000 = 180

Аналогично, давайте рассчитаем другие ожидаемые значения, как показано ниже,

E1,2 = (400 * 450) / 1000 = 180000/1000 = 180
E1,3 = (400 * 100) / 1000 = 40000/1000 = 40
E2,1 = (600 * 450) / 1000 = 270000/1000 = 270
E2,2 = (600 * 450) / 1000 = 270000/1000 = 270
E2,3 = (600 * 100) / 1000 = 60000/1000 = 60

Время для вычисления хи-квадратов для каждого вычисленного ожидаемого значения выше по формуле:

Расчет Chi-Sqaures:

Как уже обсуждалось выше, формула для расчета статистики хи-квадрат

Индекс «сВот степени свободы. «О”- ваше наблюдаемое значение (фактические значения приведены в таблице выше) иЕваше ожидаемое значение (которое мы только что рассчитали). Символ суммирования означает, что вам придется выполнять вычисления для каждого отдельного элемента данных в вашем наборе данных.

Используя приведенную выше формулу, наши значения хи-квадрат получаются такими, как указано ниже,

Χ² = (200–180) ² / 180 + (150–180) ² / 180 + (50–40) ² / 40 + (250–270) ² / 270 + (300–270) ² / 270 + (50– 60) ² / 60
Χ² = 400/180 + 900/180 + 100/40 + 400/270 + 900/270 + 100/60

Итак, наше окончательное значение статистики хи-квадрат,

Χ² = 2,22 + 5,00 + 2,50 + 1,48 + 3,33 + 1,67 = 16,2

Рассчитав значение хи-квадрат и степени свободы, мы просматриваем таблицу хи-квадрат, чтобы проверить, превышает ли статистика хи-квадрат 16,2 критическое значение для распределения хи-квадрат. Цель состоит в том, чтобы найтиЗначение P, которое является вероятностью того, что статистика хи-квадрат, имеющая 2 степени свободы, является более экстремальной, чем 16,2.

Как рассчитать P-значение?

Учитывая степень свободы = 2 и значение статистики хи-квадрат = 16,2, мы можем легко найти P-значение, используя это

Калькулятор хи-квадратссылку, просто введите статистическое значение хи-квадрат и степень свободы в качестве входных данных, а также сохраните свой уровень значимости как 0,05, вы найдете результат, как показано ниже,

Значение P =. 000304. Результат значим при р

Шаг 4: Интерпретация результата

A: Вывод из P-значения:

Так как мы получили P-значение 0,000304, мы можем интерпретировать результат, где это означает, что

Поскольку значение P (0,000304) меньше уровня значимости (0,05),

Таким образом, мы должны отклонить приведенное ниже

Нулевая гипотеза, который говорит, гНастройки ender и голосования независимы.

и принятьАльтернативная гипотеза:

Что говорит, гендерные и избирательные предпочтения не являются независимыми.

Отсюда можно сделать вывод, что

Существует связь между полом и предпочтениями при голосовании.

B: Интерпретация из таблицы хи-квадрат:

Поскольку критическое значение для альфа 0,05 (достоверность 95%) для df = 2 составляет 5,99, а наше статистическое значение хи-квадрат 16,3 намного больше 5,99, у нас есть достаточно доказательств, чтобы отвергнуть нашу гипотезу Null, которую мы рассмотрели выше.

Итак, мы принимаем альтернативную гипотезу:

Что говорит, гендерные и избирательные предпочтения не являются независимыми.

Отсюда мы заключаем, что

Существует связь между полом и предпочтениями при голосовании

Мы поймем, как выполнить тест Chi-Square с использованием ноутбука Python & Jupyter во второй части этой серии статей.Инференциальная статистика: проверка гипотез с использованием хи-квадрат и буду дальше исследовать

& также представит одну из ключевых тем: «Сила статистического теста »

Сила любого теста статистической значимости определяется как вероятность того, что он отвергнет ложную нулевую гипотезу.

Подводя итог этой части, с очень полезной инфографикой, которая поможет вам выбрать тип проверки гипотезы:

Поэтому выбирайте свои тестовые данные с умом и убедитесь, что вы правильно интерпретируете выборочные данные, чтобы вы могли продолжить разработку моделей ML с необходимой точностью и уверенностью.

Ваша способность быть эффективным исследователем данных в значительной степени станет реальностью только в том случае, если вы знаете, как анализировать данные выборки с минимальным отклонением. Чем больше вы обрабатываете данные с необходимой точностью и очищаете их на предварительной стадии EDA, тем более надежными и продуктивными будут ваши усилия по построению модели.

Источник

Критерий хи-квадрат (Chi-Square Statistic)

Данные, используемые при вычислении этой Статистики (Statistics), должны быть случайными, необработанными, взаимоисключающими, взятыми из независимых переменных и взятыми из достаточно большой Выборки (Sample). Например, результаты подбрасывания монеты соответствуют этим критериям.

При проверке гипотез часто используется критерий Хи-квадрат. Статистика сравнивает размер любых расхождений между ожидаемыми и фактическими результатами, учитывая размер выборки и количество переменных. Для этих тестов используются Степени свободы (Degrees of Freedom), чтобы определить, можно ли отклонить определенную Нулевую гипотезу (Null Hypothesis) на основе общего количества переменных и выборок в эксперименте. Как и в случае с любой другой статистикой, чем больше размер выборки, тем надежнее результаты.

Существует два основных вида тестов хи-квадрат: тест на независимость, который задает вопрос о взаимоотношениях, например: «Есть ли связь между полом студента и выбором курса?»; и тест согласия, который спрашивает что-то вроде «Насколько хорошо монета в моей руке соответствует теоретически «честной» монете?»

Независимость

При изучении взаимосвязи между полом учащегося и выбранным курсом можно использовать критерий χ₂ на независимость. Для проведения этого теста исследователь собирал данные по двум выбранным переменным (пол и выбранные курсы), а затем сравнивал частоту, с которой учащиеся мужского и женского пола выбирали среди предлагаемых классов, используя формулу, приведенную выше, и специальную статистическую таблицу.

Если нет взаимосвязи между полом и выбором курса (то есть, если они независимы), то следует ожидать, что фактическая частота, с которой студенты мужского и женского пола выбирают каждый предлагаемый курс, будет примерно равной. Число учащихся женского пола на любом выбранном курсе должно быть примерно равным доле студентов мужского в выборке. Тест на независимость может охарактеризовать разницу между фактическим наблюдением и теоретическим ожиданием.

Адекватность модели

Критерий Хи-квадрат предоставляет способ проверить, насколько хорошо выборка соответствует характеристикам Генеральной совокупности (Population). Мы не будем использовать выборку, если она не соответствует ожидаемым свойствам интересующей нас совокупности.

Пример. Рассмотрим воображаемую монету с вероятностью выпадения орла или решки ровно 50/50 и реальную монету, которую вы подбрасываете 100 раз. Если эта реальная монета имеет «справедливую» форму, то она также будет иметь равную вероятность приземления с обеих сторон, и ожидаемый результат подбрасывания монеты: орел выпадет 50 раз, и решка столько же. В этом случае критерий может сказать нам, насколько хорошо фактические результаты 100 подбрасываний монеты сравниваются с теоретической моделью, согласно которой честная монета даст результат 50/50. Фактический бросок может составить 50/50, 60/40 или даже 90/10. Чем дальше фактические результаты от 50/50, тем меньше соответствие этого набора бросков теоретическому ожиданию 50/50 и тем более вероятно, что эта монета на самом деле несправедлива.

Критерий Хи-квадрат и SciPy

Критерий можно вычислить с помощью функции SciPy. Для начала импортируем необходимые библиотеки:

Переформатируем целевую переменную с помощью метода vstack() ^ то есть превратим массивы 1-y и y в вертикальные массивы. Выполним Векторное перемножение (Dot Product) X и Y и посмотрим на результат:

Это наблюдаемые частоты признаков для каждого класса, то есть Таблица сопряжённости (Contingency Table):

Теперь вычислим ожидаемые значения:

Ожидаемые частоты выглядят так:

Наконец проведем тест Хи-квадрат, и для этого создадим два объекта score – результаты теста, и pval – P-значение (P-Value):

Реальные записи довольно плохо соответствуют ожидаемым, и это легко заметить по среднему низкому значению теста. Интересно, что создатели предполагают отображение 8 знаков после запятой, потому третий элемент ряда, «закончившийся» после третьего знака, так забавно выглядит:

Ноутбук, не требующий дополнительной настройки на момент написания статьи, можно скачать здесь.

Источник

Критерий хи-квадрат (chi square test)

К. хи-квадрат (χ2) был разработан в 1900 г. К. Пирсоном. Это непараметрический критерий, осн. на сравнении наблюдаемых (f0) и ожидаемых (fe) частот; последние могут быть либо теоретическими, либо эмпирическими. Осн. формула для вычисления статистики χ2:

χ2 чаще всего применяется к одномерным группировкам, 2 х k группировкам, k x 1 группировкам и таблицам сопряженности 2 x 2, и используется в качестве критерия согласия. На статистике χ2 основаны такие меры связи, как коэффициент фи (φ), коэффициент сопряженности (С) и фи Крамера (φ’). Хи-квадрат осн. на мультиномиальном распределении, к-рое сводится к биномиальной форме при k = 2 χ2 используется в многомерной статистике и при вычислении полиномиальных вероятностей, особенно в логлинейных (логарифмически-линейных) моделях.

См. также Статистика в психологии

Смотреть что такое «Критерий хи-квадрат (chi square test)» в других словарях:

S (язык программирования)/Temp — Это временная версия статьи S (язык программирования). После внесения в неё правок нужно объединить эту статью со статьёй S (язык программирования) и заменить её содержимое шаблоном <>. Если статья не подходит под формат Википедии, то её… … Википедия

S (язык программирования) — Эту статью следует викифицировать. Пожалуйста, оформите её согласно правилам оформления статей. У этого термина существуют и другие значения, см. S. S язы … Википедия

Источник