Проверка гипотезы о нормальном распределении логарифмической доходности по критерию Шапиро — Уилка | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 26 октября, печатный экземпляр отправим 30 октября.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №10 (457) март 2023 г.

Дата публикации: 07.03.2023

Статья просмотрена: 597 раз

Библиографическое описание:

Дручинин, Д. О. Проверка гипотезы о нормальном распределении логарифмической доходности по критерию Шапиро — Уилка / Д. О. Дручинин. — Текст : непосредственный // Молодой ученый. — 2023. — № 10 (457). — С. 6-9. — URL: https://moluch.ru/archive/457/100583/ (дата обращения: 17.10.2024).



Актуальность и цели. В данной работе производится анализ логарифмических доходностей акций, входящих в состав российского IT сектора. Предполагается, что дневная логарифмическая доходность распределена по нормальному закону. Цель работы — проверить гипотезу о нормальном распределении дневных логарифмических доходностей на реальных данных. С экономической точки зрения задача исследования — определить таймфреймы и промежутки времени, на которых логарифмические доходности будут иметь нормальное распределения, а также те, на которых условия не выполняются. Помимо этого, необходимо выяснить, как повлияло изменение цен акций в 2022 года на сектор информационных технологий. В дальнейшем эту информацию можно использовать для прогнозирования цен акций исследуемых компаний. Для проверки используется критерий Шапиро — Уилка, являющийся одним из наиболее эффективных критериев. После этого проверяется гипотеза на реальных данных и вычисляется процент проверок, в которых гипотеза будет приниматься при уровне значимости в 5 % и 1 %.

Временной отрезок для рассмотрения: 01.01.2022–31.12.2022

Ключевые слова : логарифмическая доходность, уровень значимости, нормальное распределение, проверка гипотезы

Введение

Информационный сектор играет важную роль в экономике России и является одной из самых быстро развивающихся отраслей. Он включает в себя производство и распространение информационных товаров и услуг, таких как программное обеспечение, интернет-сервисы, мультимедиа-контент и многое другое. Информационные технологии также широко применяются в других отраслях, таких как финансы, производство, здравоохранение, транспорт и телекоммуникации.

Вклад информационного сектора в экономику России растет из года в год. Согласно отчету Аналитического центра при Правительстве Российской Федерации, в 2020 году доля информационных технологий в ВВП России составила 4,5 %, а объем рынка информационных технологий оценивался в 3,4 трлн рублей.

Этот сектор является ключевым для развития экономики России, поскольку способствует созданию новых рабочих мест, привлечению инвестиций, улучшению качества жизни и повышению конкурентоспособности страны в мировом рынке. Более того, информационные технологии могут существенно повысить эффективность работы государственных органов и бизнеса, что в свою очередь ведет к увеличению производительности и экономического роста.

С экономической точки зрения, оценивается изменение цен акций в 2022 году в сектор информационных технологий. Определение на каких промежутках логарифмические доходности имели нормальное распределение позволит спрогнозировать дальнейшее изменение в данном секторе.

Основная часть

Для проверки критерия были взяты акции компаний, которые входят в сектор информационных технологий, а именно:

YNDX — Яндекс

HHRU — HeadHunter

VKCO — Вконтакте

OZON — Озон

MTSS — МТС

POSI — Positive Technologies

SFTL — Softline

Для того чтобы использовать эти данные для проверки нормальности по критерию Шапиро — Уилка, необходимо провести их предварительный анализ. В первую очередь, посчитаем логарифмические доходности акций.

1 Теоретическая справка по проверке гипотез

1.1 Статистическая проверка гипотез

Статистическая гипотеза — это любое утверждение о виде или параметрах генерального распределения. Гипотезу называют основной и обозначают

, если он утверждает, что отсутствуют различие между сравниваемыми характеристиками, а наблюдаемые отклонения объясняются лишь случайными колебаниями в выборках, которые используются для сравнения. Помимо основной гипотезы существует альтернативная ей гипотеза . Стоит отметить, что и — являются взаимоисключающими статистическими гипотезами. Утверждение о справедливости одной из этих гипотез принимается в качестве предположения. Статистический критерий, который является случайной величиной с точным или приближенным известным распределением, используется для проверки гипотезы.

Пусть - некоторое подмножество . В этом случае правило, в соответствии с которым H 0 отвергается, если выборка , и принимается, если , называется статистическим критерием с критической областью К. Так как и являются гипотезами, которые исключают друг друга, принятие

ведет за собой отклонение . Напротив, отклонение приводит к принятию из-за базисного предположения.

Использование статистического критерия может привести к ошибкам двух типов, которые приведены в таблице 1:

  1. Ошибка первого рода заключается в том, что отвергается верная гипотеза .
  2. Ошибка второго рода заключается в том, что отвергается верная гипотеза .

При этом, уровнем значимости критерия называется вероятность ошибки первого рода и обозначается . Вероятность ошибки второго рода обозначается , а величина — это мощность критерия.

Таблица 1

Гипотезы

H 0 верна

H 0 неверна

H 0 отвергается

Ошибка I рода

+

H 0 не отвергается

+

Ошибка II рода

Для реализации случайной выборки , которая зафиксирована, P-значением критерия (P-value) называется такое число , что для любого уровня значимости α, при котором гипотеза принимается и для любого уровня значимости , при котором отвергается.

Предполагается, что Р-значение уже каким-либо способом найдено. В этом случае решение о принятии или отклонении

для заданного осуществляется на основе следующего простого правила: если , гипотеза H 0 отвергается, а если гипотеза принимается.

Рассматривается отдельно случай В этом случае где c(- непрерывная убывающая функция, и для имеет место равенство , означающее, что принимается. Отсюда уже легко получить широко применяемую формулу:

1.2 Критерий Шапиро — Уилка

В данной работе используется критерий Шапиро — Уилка. Он используется для проверки гипотезы H 0 : «случайная величина X распределена нормально».

Критерий Шапиро — Уилка основан на анализе линейной комбинации разностей порядковых статистик. Критерий применяется при объемах выборки от 3 ≤ n ≤ 50, так как табулированы константы, необходимые для вычисления статистики критерия и аппроксимации P-значения.

Пусть имеется выборка Статистика вычисляется по формулам:

, где , ,

Значение k в последней формуле определяется следующим образом:

, если n — четное

, если n — нечетное

Нормальная аппроксимаций используется для вычисления реально достигнутого уровня значимости:

, где

— стандартное нормальное распределение, в котором , и — константы, табличные значения которых известны, в зависимости от объема выборки. Значения приведены в таблице 2.

Если , то нулевая гипотеза нормальности распределения отклоняется на уровне значимости .

Ж. П. Ройстон предложил другой способ вычисления P-значения для n вплоть до 2000: и , где z — стандартная нормальная случайная величина, а и ее матожидание и среднеквадратичное отклонение. Данная формула будет использована для нахождения уровня значимости и p — значений. Чтобы найти уровень значимости для конкретного

, необходимо посчитать вероятность того, что случайная величина будет меньше . Для проведения расчетов понадобятся следующие данные из таблицы. Значения , аппроксимируются многочленами от , где , если и , если .

Таблица 2

Коэффициенты

Параметр

n

Коэффициенты

0

1

2

3

4

5

6

7–20

0,118898

0,133414

0,327907

21–2000

0,480358

0,318828

0

-0,02417

0,008797

0,00299

7–20

-0,37542

0,492145

-1,12433

-0,19942

21–2000

-1,91487

-1,37888

-0,04183

0,1066339

-0,03514

-0,01506

7–20

-3,15805

0,729399

3,01855

1,558776

21–2000

-3,73538

-1,01581

-0,33189

0,1773538

-0,01639

-0,03215

0,003853

2 Проверка гипотезы на реальных данных

В данном разделе анализируются данные логарифмической доходности и применяется к ним критерий Шапиро — Уилка. Далее выбираются данные, в которых гипотеза принимается при 5 % и 1 % уровнях значимости. Строиться ряд гистограмм и делаются выводы.

Для удобства использования уровни значимости будут отмечаться следующим образом: 5 % — 0.12 , 1 % — 0.02

2.1 Гипотеза о нормальности распределения логарифмической доходности для периода в 6 месяцев

Далее анализируются данные на промежутке в 6 месяцев. Результаты приведены в таблице 3.

Таблица 3

Проверка критерия на промежутке в 6 месяцев

01.01.2022–30.06.2022

01.07.2022- 31.12.2022

HHRU

0.0

0.0

VKCO

0.0

0.0

MTSS

0.0

0.0

POSI

0.0

0.000348

SFTL

0.0

0.0

OZON

0.0

0.0

YNDX

0.0

0.000006

Из таблицы следует, что на временных промежутках в 6 месяцев p-значение выше 1 % не имела ни одна компания.

2.2 Гипотеза о нормальности распределения логарифмической доходности для периода в 3 месяца

Проверяются данные на промежутке в 3 месяца. Результаты приведены в таблице 4.

Таблица 4

Проверка критерия на промежутке в 3 месяца

1 квартал

2 квартал

3 квартал

4 квартал

HHRU

0.000075

0.916383

0.006304

0.000123

VKCO

0.0

0.041

0.000557

0.301379

MTSS

0.0

0.0

0.0

0.185686

POSI

0.000001

0.000001

0.006477

0.137620

SFTL

0.0

0.001329

0.0

0.0

OZON

0.006810

0.174743

0.000477

0.0038

YNDX

0.0

0.996487

0.001316

0.597753

Из таблиц видно, что с уменьшением исследуемого периода, возрастает количество логарифмических доходностей, которые имеют нормальное распределение.

Таблица 5

Итоговые результаты

6 месяцев

3 месяца

5 %

0 %

25 %

1 %

0 %

28,57 %

Итоговые результаты показывают, что логарифмические доходности имели нормальное распределение лишь на промежутке в 3 месяца. Также следует отметить, что это было характерно только для 2 и 4 квартала.

Заключение

В данной работе проводился анализ логарифмических доходностей акций, входящих в состав сектора информационных технологий. В ходе работы были получены следующие результаты:

На промежутке в 1 год с таймфреймом 1 день не нашлось значений, которые имеют p-значение выше 5 %. На промежутке в 6 месяцев с таймфреймом 1 день количество значений, которые имеют нормальное распределение не увеличилось.

На промежутке в 3 месяца с таймфреймом 1 день, лишь 25 процентов акций имеют нормальное распределение. При этом, нормальное распределение акций встречалось только во втором и четвертом квартале.

Можно сделать вывод, что использование критерия Шапиро — Уилка для проверки нормальности распределения не позволяет выявить закономерности для предсказания будущих цен акций.

Литература:

1. Браилов А. В. Лекции по математической статистике. М.: Финакадемия, 2007

2. В. Е. Гмурман Теория вероятностей и математическая статистика, Юрайт, 2011

3. Фадеева Л. Н. Лебедев А. В. Теория вероятностей и математическая статистика, Эксмо, 2010

4. J. P. Royston, Extension of Shapiro and Wilk's W Test for Normality to Large Samples, p. 118

5. Shapiro S. S., Wilk M. B. An analysis of variance test for normality (complete samples) Biometrika, 52 No. 3/4. (Dec., 1965), pp. 591–611

Основные термины (генерируются автоматически): нормальное распределение, уровень значимости, HHRU, MTSS, OZON, POSI, SFTL, VKCO, YNDX, Гипотеза.


Ключевые слова

нормальное распределение, уровень значимости, логарифмическая доходность, проверка гипотезы

Похожие статьи

Моделирование динамики заработной платы в Российской Федерации

В рамках модели лагов Алмон рассмотрено влияние инвестиций в основной капитал в Российской Феде-рации на уровень заработной платы. Выбиралась линейная и квадратичная структура лага. Приведены модельные соотношения и результаты их анализа в среде MATL...

Разработка математической модели финансовых рынков на основе Гауссовского случайного блуждания

В статье автор пытается создать концепт новой математической модели эконометрических взаимодействий на финансовых рынках. В основу модели заложено случайное блуждание с размером шага, который варьируется в зависимости от нормального распределения. Фо...

Оценка рисков и анализ чувствительности инвестиционного проекта

В широком смысле, анализ чувствительности оценивает степень изменчивости выходного параметра к изменению одного из входных параметров при условии, что остальные входные параметры остаются неизменными. При анализе чувствительности инвестиционного прое...

Оценка влияния выбора модели на результат недренированного расчета

Для описания механического поведения грунта в современной инженерной практике используются сложные математические модели. При этом, их создание базируется, в основном, на результатах лабораторных испытаний (компрессионных, сдвиговых, трехосных и т. д...

Влияние аналитики больших данных на эффективность деятельности российских компаний

В современном мире, когда объем больших данных увеличивается быстрыми темпами, необходимо уметь правильно анализировать полученные данные, чтобы извлекать из них ценную информацию. Во многих странах данная практика уже находится на высоком уровне, в ...

К вопросу о проверке параметрических статистических гипотез в схемах Бернулли

Показано, что проверка гипотез о числовом значении вероятности «успеха» в схеме Бернулли и равенстве вероятностей «успеха» в двух независимых схемах Бернулли с использованием критерия равносильна проверке тех же гипотез с использованием двусторонне...

Математическая обработка некоторых результатов маркшейдерско-геодезических измерений. Корреляция и регрессия

Изучение реальных процессов обычно предполагает наблюдение за целым рядом случайных величин. Исключительный интерес для широкого класса задач представляет обнаружение взаимных связей между двумя и более случайными величинами. Например, существует ли ...

Факторный анализ преступности на основе социально-экономических показателей

В современном мире выявление факторов, влияющих на количество преступлений является немаловажной проблемой. Изучение выявленных факторов необходимо для квалифицированной диагностики природы преступлений, а также для принятия мер по предупреждени...

Влияние китайских ТНК на рынок товаров на примере Lenovo

В данной работе авторами выдвинута гипотеза о существовании линейной зависимости доли рынка, занимаемой компанией Lenovo от показателя импорта ПК и телефонов в России. Дана оценка основных показателей модели. Также, построена многофакторная модель (о...

Решение задачи плоскорадиальной неустановившейся фильтрации упругой жидкости методом Г. П. Гусейнова с учетом влияния начального градиента

Метод «усреднения» Г. П. Гусейнова заключается в том, что в дифференциальном уравнении упругого режима производная от давления по времени усредняется по всей возмущенной области и заменяется некоторой функцией времени, значение которой определяетс...

Похожие статьи

Моделирование динамики заработной платы в Российской Федерации

В рамках модели лагов Алмон рассмотрено влияние инвестиций в основной капитал в Российской Феде-рации на уровень заработной платы. Выбиралась линейная и квадратичная структура лага. Приведены модельные соотношения и результаты их анализа в среде MATL...

Разработка математической модели финансовых рынков на основе Гауссовского случайного блуждания

В статье автор пытается создать концепт новой математической модели эконометрических взаимодействий на финансовых рынках. В основу модели заложено случайное блуждание с размером шага, который варьируется в зависимости от нормального распределения. Фо...

Оценка рисков и анализ чувствительности инвестиционного проекта

В широком смысле, анализ чувствительности оценивает степень изменчивости выходного параметра к изменению одного из входных параметров при условии, что остальные входные параметры остаются неизменными. При анализе чувствительности инвестиционного прое...

Оценка влияния выбора модели на результат недренированного расчета

Для описания механического поведения грунта в современной инженерной практике используются сложные математические модели. При этом, их создание базируется, в основном, на результатах лабораторных испытаний (компрессионных, сдвиговых, трехосных и т. д...

Влияние аналитики больших данных на эффективность деятельности российских компаний

В современном мире, когда объем больших данных увеличивается быстрыми темпами, необходимо уметь правильно анализировать полученные данные, чтобы извлекать из них ценную информацию. Во многих странах данная практика уже находится на высоком уровне, в ...

К вопросу о проверке параметрических статистических гипотез в схемах Бернулли

Показано, что проверка гипотез о числовом значении вероятности «успеха» в схеме Бернулли и равенстве вероятностей «успеха» в двух независимых схемах Бернулли с использованием критерия равносильна проверке тех же гипотез с использованием двусторонне...

Математическая обработка некоторых результатов маркшейдерско-геодезических измерений. Корреляция и регрессия

Изучение реальных процессов обычно предполагает наблюдение за целым рядом случайных величин. Исключительный интерес для широкого класса задач представляет обнаружение взаимных связей между двумя и более случайными величинами. Например, существует ли ...

Факторный анализ преступности на основе социально-экономических показателей

В современном мире выявление факторов, влияющих на количество преступлений является немаловажной проблемой. Изучение выявленных факторов необходимо для квалифицированной диагностики природы преступлений, а также для принятия мер по предупреждени...

Влияние китайских ТНК на рынок товаров на примере Lenovo

В данной работе авторами выдвинута гипотеза о существовании линейной зависимости доли рынка, занимаемой компанией Lenovo от показателя импорта ПК и телефонов в России. Дана оценка основных показателей модели. Также, построена многофакторная модель (о...

Решение задачи плоскорадиальной неустановившейся фильтрации упругой жидкости методом Г. П. Гусейнова с учетом влияния начального градиента

Метод «усреднения» Г. П. Гусейнова заключается в том, что в дифференциальном уравнении упругого режима производная от давления по времени усредняется по всей возмущенной области и заменяется некоторой функцией времени, значение которой определяетс...

Задать вопрос