В статье описывается алгоритм обработки статистических данных на основе процедуры проверки нормальности распределения значений результатов измерения по критерию Пирсона с помощью программы Excel. Рассматриваются преимущества автоматического счета показателей по сравнению с ручным.
Ключевые слова: Excel, обработка данных, критерий согласия Пирсона, гистограмма, кривая распределения.
В эконометрических и экономико-математических моделях, применяемых, в частности, при изучении и оптимизации процессов маркетинга и менеджмента, управления предприятием и регионом, точности и стабильности технологических процессов, в задачах надежности, обеспечения безопасности, в том числе экологической, функционирования технических устройств и объектов, разработки организационных схем, часто применяют понятия и результаты теории вероятностей и математической статистики. При этом зачастую используют те или иные параметрические семейства распределений вероятностей. Наиболее популярным является нормальное распределение. Используют также логарифмически нормальное распределение, экспоненциальное распределение, гамма-распределение, распределение Вейбулла-Гнеденко и т. д.
Очевидно, что всегда необходимо проверять соответствие моделей реальности. Возникают два вопроса. Отличаются ли реальные распределения от используемых в модели? Насколько это отличие влияет на выводы?
Есть ли основания априори предполагать нормальность результатов измерений?
Иногда утверждают, что в случае, когда погрешность измерения (или иная случайная величина) определяется в результате совокупного действия многих малых факторов, то в силу Центральной предельной теоремы (ЦПТ) теории вероятностей эта величина хорошо приближается (по распределению) к нормальной случайной величине. Это утверждение, вообще говоря, неверно [1].
При обработке конкретных данных иногда считают, что погрешности измерений имеют нормальное распределение. На предположении нормальности построены классические модели регрессионного, дисперсионного, факторного анализов, метрологические модели, которые еще продолжают встречаться как в отечественной нормативно-технической документации, так и в международных стандартах. На то же предположение опираются модели расчетов максимально достигаемых уровней тех или иных характеристик, применяемые при проектировании систем обеспечения безопасности функционирования экономических структур, технических устройств и объектов. Однако теоретических оснований для такого предположения нет. Необходимо экспериментально изучать распределения погрешностей [1].
Представляется достаточно очевидным необходимость проверки используемых моделей на соответствие реальности, что возможно сделать уже на этапе первичной обработки данных экспериментальных наблюдений. Таким образом, можно сказать, что целью первичной обработки экспериментальных наблюдений является выбор закона распределения, описывающего случайную величину, выборку которой наблюдают. Проверка того, насколько хорошо наблюдаемая выборка описывается теоретическим законом, осуществляется с использованием различных критериев согласия.
Целью проверки гипотезы о согласии опытного распределения с теоретическим, является стремление удостовериться в том, что данная модель теоретического закона не противоречит наблюдаемым данным, и использование ее не приведет к существенным ошибкам при вероятностных расчетах. Некорректное использование критериев согласия может приводить к необоснованному принятию или необоснованному отклонению проверяемой гипотезы [2, с. 31]. Поэтому исключительно важную роль при обработке результатов наблюдений играет проверка нормальности распределения.
Эта задача представляет собой частный случай более общей проблемы, заключающейся в подборе теоретической функции распределения, в некотором смысле наилучшим образом согласующейся с опытными данными. Сама процедура проверки нормальности распределения относится к распространенной стандартной задаче обработки данных и достаточно подробно и широко описана в различной литературе по метрологии и статистической обработке данных измерений [3].
Данные, получаемые в результате измерений при контроле технологических процессов, оценке характеристик различных объектов и др. для дальнейшей обработки, желательно представлять в виде теоретического распределения, максимально соответствующего экспериментальному распределению. Как правило, теоретические и эмпирические частоты различаются и расхождения могут быть не случайными, что возможно объясняется неверно выбранной гипотезой.
Приведенные описания экспериментальных данных показывают, что погрешности измерений в большинстве случаев имеют распределения, отличные от нормальных. Это означает, в частности, что большинство применений критерия Стьюдента, классического регрессионного анализа и других статистических методов, основанных на нормальной теории, строго говоря, не является обоснованным, поскольку неверна лежащая в их основе аксиома нормальности распределений соответствующих случайных величин.
Очевидно, для оправдания или обоснованного изменения существующей практики анализа статистических данных требуется изучить свойства процедур анализа данных при «незаконном» применении. Изучение процедур отбраковки показало, что они крайне неустойчивы к отклонениям от нормальности, а потому применять их для обработки реальных данных нецелесообразно; поэтому нельзя утверждать, что произвольно взятая процедура устойчива к отклонениям от нормальности.
Иногда предлагают перед применением, например, критерия Стьюдента однородности двух выборок, проверять нормальность. Хотя для этого имеется много критериев, но проверка нормальности — более сложная и трудоемкая статистическая процедура, чем проверка однородности (как с помощью статистик типа Стьюдента, так и с помощью непараметрических критериев). Для достаточно надежного установления нормальности требуется весьма большое число наблюдений. Так, чтобы гарантировать, что функция распределения результатов наблюдений отличается от некоторой нормальной не более, чем на 0,01 (при любом значении аргумента), требуется порядка 2500 наблюдений [4].
В большинстве экономических, технических, медико-биологических и других прикладных исследований число наблюдений существенно меньше. Особенно это справедливо для данных, используемых при изучении проблем, связанных с обеспечением безопасности функционирования экономических структур и технических объектов.
Проверку гипотезы о виде функции распределения в настоящее время проводят в соответствии с новым разработанным нормативным документом — ГОСТ Р 8.736–2011 по различным критериям согласия — Пирсона, Колмогорова, Мизеса — Смирнова и другим [5, с. 13].
Наиболее часто используется критерий Пирсона χ 2 . Критерий Пирсона отвечает на поставленный вопрос, но, как и любой критерий он ничего не доказывает, а лишь устанавливает на принятом уровне значимости её согласие или несогласие с данными наблюдений. Критерий χ 2 отвечает на вопрос о том, с одинаковой ли частотой встречаются разные значения признака в эмпирическом и теоретическом распределениях или в двух и более эмпирических распределениях. Преимущество метода состоит в том, что он позволяет сопоставлять распределения признаков, представленных в любой шкале, начиная от шкалы наименований. В самом простом случае альтернативного распределения «да — нет», «допущен брак — не допущен брак», «решена задача — не решена задача» и т. п. мы уже можем применить критерий χ 2 .
Применение критериев согласия требует обычно довольно значительного объёма данных. Так, критерий Пирсона обычно рекомендуется использовать при объёме выборки не менее 50…100. Поэтому при небольшом объёме выборки проверку гипотезы о виде функции распределения проводят приближёнными методами — графическим методом или по асимметрии и эксцессу.
Применение критерия Пирсона для ручной обработки данных очень подробно было рассмотрено в известной работе [3, с. 161]. Как свидетельствует опыт проверок согласия экспериментальных данных с теоретическими по различным критериям, с использованием классических известных таблиц математической статистики [6, с. 15, с. 139], эта процедура является трудоемкой, и как правило, не исключает ошибок в работе.
Решение задач статистического анализа связано со значительными объемами вычислений. Проведение реальных многовариантных статистических расчетов в ручном режиме является очень громоздкой и трудоемкой задачей и без использования компьютера в настоящее время практически невозможно.
В целях облегчения решения данной задачи авторами предлагается для использования достаточно простая и эффективная модель в виде некоторого шаблона на основе среды Ехсе1 для практически мгновенного построения гистограммы и кривой распределения, которые сразу же после загрузки данных в шаблон дают исследователю предварительное визуальное представление о законе распределения значений результатов измерений.
По полученному виду гистограммы и кривой распределения можно предположить то, что выборка из 100 шт. реальных результатов измерений подчиняется нормальному закону распределения. Далее, для того чтобы убедиться в правильности выбранной гипотезы надо, первое — построить график гипотетического нормального закона распределения, выбрав в качестве параметров (математического ожидания и среднего квадратического отклонения) их оценки (среднее и стандартное отклонение), и совместить график гипотетического распределения с графиком гистограммы. И, второе — используя в данном случае один из известных критериев, например, критерий согласия Пирсона, установить справедливость выбранной гипотезы.
Рассмотрим порядок действий при работе с моделью в среде Ехсе1.
1. Полученные в итоге проведения эксперимента значения 100 случайных результатов измерений вносим в ячейки А1:А100 листа Ехсе1 и создаем таблицу, в которую посредством формул Ехсе1 вносим основные расчетные величины, используемые для построения гистограммы и кривой Гаусса: среднее арифметическое, стандартное отклонение, минимальное и максимальное значения выборки, размах, ширина интервала. Внешний вид таблицы с исходными данными показан на рис. 1.
В таблице исходных данных в ячейку D2 вносим формулу =СРЗНАЧ (А1:А100), D3: =СТАНДОТКЛОН (А1:А100), D4: =МИН (А1:А100), D5: =МАКС (А1:А100), D6: =D5-D4, D7: =D6/D8. В ячейку D8 вводится любое принятое на первом этапе число интервалов от 7 до 12.
2. Затем на этом же листе Ехсе1приступаем к построению гистограммы на основе данных, назначая длину интервала (карман) и выбирая необходимое число интервалов, которое для числа измерений, равного 100, может быть принято от 7 до 12.
Рис. 1. Фрагмент шаблона Ехсе1 с таблицей исходных данных
Для дальнейших расчетов построим расчетную таблицу с данными по столбцам по форме, показанной на рис. 2.
В ячейки столбца, помеченного как «Критерий Пирсона», вводим формулу ( m i — np i ) 2 / np i для расчета критерия Пирсона для каждого интервала в соответствии с требованиями ГОСТ 8.736–2011 [5, с. 11] (рис. 2).
Рис. 2. Построение столбца расчетной таблицы для расчета статистики U
Далее размножим формулу, показанную на рис. 2 в ячейке F12, для критерия χ 2 в диапазонах ячеек [F12; F20] и [F28; F38]. В ячейке F21 получим сумму содержимого ячеек [F12; F20] (рис. 3).
В ячейке F39 получим сумму содержимого ячеек [F28; F38] (рис. 4).
Рис. 3. Заполненная таблица для числа интервалов n = 8
Далее проводим проверку согласия эмпирического и теоретического законов распределения по критерию хи-квадрат Пирсона с использованием таблиц данных, изображенных на рис. 3 и рис. 4, как это было показано ранее в работе [7, с. 144].
Рис. 4. Заполненная таблица для числа интервалов n = 10
Критическое значение статистики U , которая имеет распределение χ 2 с f степенями свободы (для нормального распределения число степеней свободы определяется как число частичных интервалов минус 3 в соответствии с указаниями стандарта [5, с. 11]), определяется при помощи функции ХИ2. ОБР.
Функция ХИ2. ОБР вызывается следующим образом. В главном меню Excel выбирается закладка Формулы, вставить функцию, в диалоговом окне Мастер функций — шаг 1 из 2 в категории Статистические ХИ2. ОБР (рис. 5).
Рис. 5. Диалоговое окно выбора функции ХИ2. ОБР
В диалоговом окне Аргументы функции ХИ2. ОБР заполняются поля, как показано на рис. 6, задаваясь доверительной вероятностью, например, Р = 0,95 и вводя значение числа степеней свободы, равным 5, при выбранном, например, числе интервалов n = 8, предварительно выбрав ячейку для результата вычисления функции.
Рис. 6. Диалоговое окно функции ХИ2. ОБР с заполненными полями ввода
Теперь с помощью стандартного инструмента для построения гистограмм («вставка/гистограмма» и т. д.) на этом же листе Ехсе1 можно построить гистограммы распределения с кривой Гаусса для выбранных разных чисел интервалов (в данном случае n = 8 и n = 10) (рис. 7 и 8) и убедиться в выполнении критерия хи-квадрат Пирсона.
Рис. 7. Вид гистограммы и кривой распределения размеров при числе интервалов n = 8 (пример)
Рис. 8. Вид гистограммы и кривой распределения размеров при числе интервалов n = 10 (пример)
В приведенном примере в качестве исходных данных рассмотрено распределение линейных размеров вала номинальным значением диаметра 125js14, выполненного при его изготовлении по 14 квалитету точности.
Применяемая модель позволяет варьировать (т. е., как бы «играть») числом интервалов, началом первого интервала и шириной интервалов (карманов), при осуществлении этих действий исследователем он может визуально наблюдать автоматическое изменение внешнего вида гистограммы и кривой нормального распределения. Экспериментатор, изменяя указанные параметры графиков, по своему усмотрению может подобрать наиболее «красивый» вид гистограммы и аппроксимирующей кривой Гаусса, одновременно назначая требующееся значение доверительной вероятности и числа степеней свободы и добиваясь при этом выполнения критерия χ 2 Пирсона.
Если значение статистики оказалось меньше критического значения χ 2 при заданной доверительной вероятности, то можно утверждать, что нулевая гипотеза, состоящая в том, что исследуемая выборка подчиняется нормальному закону распределения, является правдоподобной и не отклоняется, т. е., не противоречит опытным данным.
В ячейке F21 получено значение статистики: U = 4,42 (рис. 7), а в ячейке F39 — U = 4,76 (рис. 8).
В указанных таблицах в соответствии с рекомендациями приложения в ГОСТ Р 8.736–2011 определены значения нижнего и верхнего квантилей χ 2 н и χ 2 в . Как видно из таблиц, вычисленный по результатам измерений квантиль χ 2 находится между нижним и верхним значениями квантиля.
В данном примере значение обеих статистик U оказалось меньше критического значения χ 2 (0,95; 5) =11,07 и χ 2 (0,95; 7) =14,07. Следовательно, в данном случае, мы можем с указанной доверительной вероятностью Р = 0,95 распространить данный закон распределения на всю генеральную совокупность исследуемых объектов (партию изделий, сменную выработку, месячный план и т. д.) для принятия последующих решений о качестве оцениваемой продукции.
Проверка нормальности распределения результатов наблюдений, несмотря на кажущуюся тривиальность задачи, остаётся одним из актуальных методов первичной статистической обработки данных в различных областях современной науки, имеющих дело с большими массивами данных.
Другие известные критерии (Колмогорова-Смирнова, Лилиефорса, Шапиро-Уилка), применяемые в медицине, биологии и др., являются мощным инструментом, могут быть реализованы в программном пакете IBM SPSS Statiscs, в то же время достаточно сложны в применении и рассчитаны на подготовленного пользователя [8], поэтому применение описанной модели для простейшей первичной обработки данных является вполне оправданным.
Данная методика прошла экспериментальную проверку в учебном процессе в Государственном университете управления по ряду дисциплин, начиная с 2016 г. По мнению авторов, её можно рекомендовать к использованию и для исследования других законов распределений (Пуассона, биномиального, равномерного и т. п.).
Выводы
- Критерий хи-квадрат Пирсона является одним из множества известных статистике критериев, применяемых при проверке нормальности распределения при большом объеме данных ( n > 50) и вполне пригоден для решения несложных задач.
- Появление пакетов офисных программ, в частности, Excel, позволяет оптимизировать скорость обработки данных и повысить научный уровень работы, минимизируя появление ошибок в расчетах.
- Использование метода и шаблона Excel, рассмотренного в статье, позволяет производить предварительную экспресс-оценку нормальности распределения данных измерений путем их «загрузки» в программу непосредственно после получения результатов до принятия последующего решения об их тщательной статистической обработке.
Литература:
1. Орлов А. И. Распределения реальных статистических данных не являются нормальными — Научный журнал КубГАУ, 2016, № 117 (03).
2. Иванов О. В. Статистика / Учебный курс для социологов и менеджеров. Часть 2. Доверительные интервалы. Проверка гипотез. Методы и их применение. — М.: Изд. МГУ им. М. В. Ломоносова, 2005.- 220 с.
3. Бурдун Г. Д., Марков Б. Н. Основы метрологии. Учебное пособие для вузов . — М.: Изд. стандартов, 1975.- 336 с.
4. Орлов А. И. Прикладная статистика. — М.: Экзамен, 2006. — 671 с.
5. ГОСТ Р 8.736–2011 Государственная система обеспечения единства измерений. Измерения прямые многократные. Методы обработки результатов измерений. Основные положения . — М.: ФГУП «Стандартинформ», 2013.- 24 с.
6. Большев Л. Н., Смирнов Н. В. Таблицы математической статистики. — М.: Наука, Главная редакция физико-математической литературы, 1983.- 416 с.
7. Фаюстов А. А. Шаблон Ехсеl для проверки законов распределения данных наблюдений по критерию согласия Пирсона. — Молодой ученый, 2019, № 13(251). С. 142–147 .
8. Щелыкалина С. П. Проверка нормальности выборочных данных измерения переменных в непрерывной шкале. — РНИМУ им. Н. И. Пирогова / http://do.rsmu.ru/fileadmin/user_upload/mbf/c_kibernetiki/23.10.2020_Lek_Proverka_normalnosti_vyborochnykh_dannykh_izmerenija_peremennykh_v_nepreryvnoi_.pdf (Дата обращения 16.11.2021).