В современном мире, когда объем больших данных увеличивается быстрыми темпами, необходимо уметь правильно анализировать полученные данные, чтобы извлекать из них ценную информацию. Во многих странах данная практика уже находится на высоком уровне, в России же активно внедряется и используется в финансовой, торговой и других отраслях. Данная работа посвящена исследованию влияния аналитики больших данных на эффективность деятельности российских фирм, а именно исследуется влияние объема и разнообразия больших данных на показатель рентабельности продаж на основе открытых данных компаний. В ходе исследования была собрана база данных, включающая 50 российских компаний. В результате исследования совместный эффект объема и разнообразия оказал влияние на показатель рентабельности продаж.
Ключевые слова: объем, разнообразие, большие данные, рентабельность продаж.
Введение
В период активной цифровизации большие данные сравнивают с новой «нефтью 21 века», так как большие объемы данных ежедневно генерируются с огромной скоростью, и их ценность значительно растет. Использование аналитики больших данных в деятельности фирм — это новые возможности для получения информации о состоянии своего бизнеса и рынка в целом [14, c. 231]. Согласно отчету об инвестициях в данные и аналитику, для 87 % опрошенных компаний по всему миру инвестиции в развитие аналитики больших данных является основным приоритетом [4].
Большие данные и их аналитика стали неотъемлемой частью бизнес-процессов для многих компаний из разных отраслей. Возможность анализировать и использовать эти данные помогают компаниям получать лучше представление о бизнесе, принимать наиболее рациональные бизнес-решения, оптимизировать процессы, улучшать качество продуктов и услуг, подстраивая их под ожидания клиентов, и повышать прибыльность компаний [5, c. 52].
Хотя Российский рынок информационных технологий находится на более низком уровне, чем мировой, Российские компании из разных отраслей экономики все чаще используют аналитику больших данных в своей деятельности для получения масштабных результатов за очень короткий промежуток времени [20, c. 150].
Однако применение компаниями аналитики больших данных может быть связано с некоторыми издержками. Проблема защиты и конфиденциальности больших данных наиболее остро ощущается в последние годы и требуют особого контроля за ситуацией. Происходят утечки данных в больших объемах: за 2022 год произошло более 160 утечек более 2 миллиардов данных [16]. Ограниченность бюджета для использования больших данных фирмами, нехватка квалифицированного персонала, избыточный объем обрабатываемых данных являются серьезным сдерживающим фактором для развития аналитики больших данных не только в России, но и в других странах [13, c. 907, 15, c. 106].
Обзор литературы
Широкое распространение термина «Большие данные» произошло в 2008 году, когда Клиффорд Линч подготовил доклад, посвященный стремительному росту объема информации [18, c. 81]. Большие данные рассматриваются как «большие и сложные наборы данных, которые невозможно обработать традиционными методами и которые обладают способностью генерировать ценную и важную информацию» [11, c. 651, 13, c. 906]. Выделяют 3 основные характеристики данных, которые также обозначаются термином 3V: объем — величина данных, разнообразие — различные типы данных, скорость сбора и обработки больших данных [2, c. 1995, 6, c. 1170]. Однако авторы рассматривают еще 2 характеристики: ценность — потенциал больших данных для повышения эффективности компании, и достоверность — точность и содержательность больших данных [1, c. 269–270, 5, c. 51]. Аналитика больших данных представляет собой «способ извлечения ценности из этих огромных объемов информации, который открывает новые рыночные возможности и максимизирует удержание клиентов» [14, c. 232]. Компании используют большие данные для анализа имеющихся данных с целью улучшения своих продуктов и услуг, и поддержки принятия разумных решений. Большие данные являются ценным, редким и плохо поддающимся имитации ресурсом для компаний, который в настоящее время трудно заменить чем-либо другим [7, c. 345]. Это соответствует точке зрения, основанной на ресурсном подходе (resource-based view). Согласно данным исследования GlobalCIO, финансовый, торговый и промышленный секторы занимают лидирующие позиции по использованию аналитики больших данных в России [17].
Хотя аналитика больших данных открывает большие возможности для компаний, она сопряжена с целым рядом проблем. Избыток больших данных может негативно сказываться на производительности компании из-за высоких издержек [5, c. 60]. Объем больших данных в настоящее время растет очень быстрыми темпами, но технологические возможности для обработки больших данных не всегда находятся на соответствующем уровне для качественной и быстрой работы с большими данными [5, c. 61].
Методология
В данной работе изучаются показатели объема и разнообразия больших данных, которые собирают компании с помощью платформы Google Play Store и влияния их на эффективность деятельности. В ходе работы предстоит ответить на исследовательский вопрос: как влияют объем и разнообразие больших данных на эффективность деятельности фирмы?
Большие массивы данных, содержащих несколько характеристик о клиентах и их потребительском поведении, могут помочь в поиске целевой аудитории, выборе подходящего продукта для производства, создании более целенаправленных маркетинговых стратегий. Авторы также считают, что именно разнообразие больших данных является наиболее значимым фактором для компаний, чтобы инвестировать в развитие аналитики больших данных, так как с помощью разных типов данных можно более полно оценить ситуацию [9, c. 158, 10, c. 5119, 12, c. 385]. Соответственно:
Гипотеза 1: Разнообразие собираемых больших данных положительно влияет на эффективность деятельности компании.
Компаниям важно понимать, какой объем данных необходим для решения конкретной цели. Чем больше становится объем данных, тем сложнее и дороже их обрабатывать. Хотя большинство организаций собирают огромные объемы данных, не всегда эти данные используются эффективно. К тому же чем больше объем данных, тем больше вероятность появления аномальных значений или возникновения информационной перегруженности, которые, в конечном итоге, не будут рассматриваться из-за недостоверности и неэффективности и не приведут к желаемым результатам [8, c. 323, 9, c. 158]. Соответственно:
Гипотеза 2: Объем больших данных негативно влияет на эффективность деятельности компании.
Хотя по отдельности сбор чрезмерно большого объема данных может стать проблемой для компании. Используя большой объем данных вместе с их различными характеристиками и типами, компании могут получить преимущество, которое заключается как в изобилии, так и в разнообразии информации. Так они могут получить более глубокое представление о клиентах, ситуации на рынке и извлечь ценные выводы, улучшить процесс принятия стратегических решений [5, c. 62, 10, c. 5119]. Соответственно:
Гипотеза 3: Объем больших данных совместно с их разнообразием положительно влияет на эффективность деятельности компании.
Базовой моделью выбрана модель множественной линейной регрессии. Для данной работы модель можно представить в следующем виде:
(1)
где: a 0 –константа;
Perf i – зависимая переменная, показатель рентабельности;
Volume i — показатель объема;
Variety i — показатель разнообразия;
CV i – контрольные переменные;
e i – возмущения;
a 1,2 — коэффициенты при независимых переменных;
b i – коэффициенты при контрольных переменных;
n –число наблюдений.
В качестве зависимой переменной выбран показатель рентабельности продаж, так как данные по аналитике собраны на основе данных пользователей, которые в большей степени могут описывать поведение и предпочтения клиентов. Рентабельность продаж позволяет оценить, насколько эффективны решения по поводу доходов, издержек и объема продаж [10, c. 5120, 12, c. 386].
(2)
Независимыми переменными выступают показатели аналитики больших данных: объем и разнообразие.
Volume: Объем данных определяется количеством скачиваний каждого приложения из Google Play Store и распределен согласно таблице 1.
Таблица 1
Диапазоны установок приложения
Переменная |
Диапазон скачиваний |
Малый объем |
До 1.000.000 |
Средний объем |
От 1.000.001 до 5.000.000 |
Большой объем |
Более 5.000.001 |
Variety: Разнообразие данных измеряется суммой того, сколько разных типов данных запрашивает каждое приложение: имя, номер телефона, электронная почта, аудио, данные о здоровье, фото и видео, документы, местоположение и другие.
В качестве контрольных переменных, которые потенциально должны оказывать влияние на эффективность деятельности компаний, рассматриваются показатели размера компании, выраженного натуральным логарифмом активов, возраст компании, финансовый рычаг, выраженный отношением обязательств к заемному капиталу, отрасль компании.
Данные
Данные по аналитике были собраны на основе информации, предоставленной Google Play Store. Финансовые данные были взяты из финансовых отчетностей компаний, опубликованных на официальных сайтах, а также с помощью сайта Тинькофф для бизнеса.
Таким образом, были собраны данные о 50 российских компаниях из 2 отраслей согласно общероссийскому классификатору видов экономической деятельности [19]: финансовая и страховая деятельность (40 %), оптовая и розничная торговля (60 %). Обработка данных, проведение корреляционного анализа и тестирование моделей выполнено в среде для разработки RStudio.
В таблице 2 представлена матрица корреляции переменных Умеренная отрицательная взаимосвязь наблюдается между показателями разнообразия и малого объема, однако при среднем и большом объемах больших данных взаимосвязь слабая, но положительная. Слабая отрицательная взаимосвязь существует между показателями среднего объема и рентабельностью продаж, а между переменной большого объема и рентабельности продаж — слабая положительная. Так как между бинарными переменными объема существует умеренная отрицательная взаимосвязь, и для того, чтобы избежать проблемы мультиколлинеарности, переменная малый объем принята за базовую. самая Высокая отрицательная (-0.63) взаимосвязь — между отраслями финансовой и страховой деятельности и торговли. Это может говорить о частичной мультиколлинеарности. Поэтому переменная отрасли торговли будет отброшена для предотвращения мультиколлинеарности. При этом проблема полной мультиколлинеарности отсутствует.
Таблица 2
Корреляционная матрица
1. |
2. |
3. |
4. |
5. |
6. |
7. |
8. |
9 |
10. |
|
1. Рентабельность продаж |
1,00 |
|||||||||
2. Малый объем |
0,08 |
1,00 |
||||||||
3. Средний объем |
-0,25 ** |
-0,58 *** |
1,00 |
|||||||
4. Большой объем |
-0,09 |
-0,51 *** |
-0,41 *** |
1,00 |
||||||
5. Разнообразие |
-0,02 |
-0,33 *** |
0,18 |
0,17 |
1.00 |
|||||
6. Возраст компании |
0,01 |
-0,15 |
0,14 |
0,01 |
0,02 |
1,00 |
||||
7. Размер компании |
-0,13 |
-0,10 |
0,10 |
0,00 |
-0,21 * |
0,36 *** |
1,00 |
|||
8. Финансовый рычаг |
-0,2 * |
0,00 |
-0,09 |
0,09 |
-0,01 |
-0,18 |
0,13 |
1,00 |
||
9. Оптовая и розничная торговля |
-0,09 |
-0,34 *** |
0,10 |
0,28 ** |
0,06 |
-0,24 |
-0,15 |
0,17 |
1,00 |
|
10. Финансовая и страховая деятельность |
0,11 |
0,19 |
-0,04 |
-0,17 |
0,19 |
0,15 |
-0,17 |
-0,16 |
-0,63 *** |
1,00 |
Примечание: * p< 0,1, ** p< 0,05, *** p< 0,01.
Результаты
В таблице 3 представлены результаты использования моделей множественной линейной регрессии. В работе рассматриваются 5 моделей: модель 1 включает только контрольные переменные. Модель 2 включает первую независимую переменную — объем больших данных, модель 3 включает переменную разнообразия больших данных; модель 4 представляет полную модель, которая включает независимые переменные: объем и разнообразие больших данных. Модель 5 изучается только при зависимой переменной рентабельности продаж и рассматривает дополнительно совместную значимость большого объема и разнообразия.
В моделях 2,5 переменная большого объема значима на 10 % уровне значимости, и приводит к снижению зависимой переменной на 6–31 %, при прочих равных условиях. В модели 5 с совместным эффектом переменная большого объема совместно с разнообразием значима на 10 % уровне. Если компания собирает большое разнообразие данных совместно с их большим объемом, то это приводит к увеличению рентабельности продаж на 4,5 %. Что касается контрольных переменных, показатель финансового рычага значим на 10 % уровне значимости в моделях 10, 13 и приводит к снижению рентабельности продаж на 2–2,2 %.
Таблица 3
Влияние аналитики больших данных на показатель рентабельности продаж
Модель 1 |
Модель 2 |
Модель 3 |
Модель 4 |
Модель 5 |
|
Константа |
30,441* (16,683) |
28,542* (16,268) |
33,936* (18,762) |
31,322* (18,374) |
28,001 (18,099) |
Средний объем |
-8,544 (5,841) |
-7,896 (6,191) |
-7,705 (6,072) |
||
Большой объем |
-6,615* (6,285) |
-7,281 (6,633) |
-31,695* (21,324) |
||
Разнообразие* Большой объем |
4,542* (2,367) |
||||
Разнообразие |
-0,339 (0,814) |
-0,282 (0,846) |
-0,827 (0,876) |
||
Возраст |
-0,005 (0,343) |
0,023 (0,34) |
0,009 (0,347) |
0,026 (0,342) |
0,159 (0,342) |
Размер компании |
-0,642 (0,812) |
-0,523 (0,795) |
-0,689 (0,825) |
-0,574 (0,815) |
-0,323 (0,809) |
Финансовый рычаг |
-1,747 (1,241) |
-2,044* (1,213) |
-1,728 (1,249) |
-2,020 (1,223) |
-2,237* (1,205) |
Финансовая и страховая деятельность |
3,547 (5,845) |
4,213 (6,012) |
3,759 (5,902) |
4,629 (6,179) |
3,858 (6,073) |
N |
50 |
50 |
50 |
50 |
50 |
R 2 |
0,056 |
0,134 |
0,059 |
0,136 |
0,181 |
R 2 adj |
-0,011 |
0,045 |
-0,023 |
0,032 |
0,069 |
F stаstistic |
0,834 |
1,506 |
0,716 |
1,314 |
1,624 |
p-value |
0,532 |
0,180 |
0,638 |
0,252 |
0,127 |
Примечание: Базовая категория сектора — торговля. Малый объем — базовая категория. * p<0,1, ** p<0,05, *** p<0,01. Средний объем: от 1.000.001 до 5.000.000, большой объем: от 5.000.001.
Заключение
В данной работе было проведено исследование влияния аналитики больших данных на эффективность деятельности фирм. Для начала был проведен анализ теоретических и эмпирических работ, посвященных аналитике больших данных в мире и России. Несмотря на то, что во многих странах аналитика больших данных активно применяется в деятельности компаний, В России внедрение данной технологии началось не так давно, и эта тема продолжает оставаться достаточно новой [12, c. 390, 13, c. 908]. К тому же, более ранние исследования по изучению аналитики больших данных в Российских компаниях были основаны, в большинстве случаев, на опросных данных. По результатам исследования, влияние объема больших данных оказывает влияние на показатель рентабельности продаж, что подтверждает гипотезу 2 о негативном влиянии большого объема данных на эффективность деятельности фирмы. Переменная разнообразия не оказала значимого влияния на зависимую переменную, поэтому нельзя принять гипотезу 1 о положительном влиянии разнообразия больших данных на эффективность деятельности фирмы. Хотя такие результаты работы не соотносятся с результатами предыдущих исследований, это может быть связано с низким уровнем распространения больших данных и их аналитики в российских компаниях, так как развитие данной области в других странах находится на более продвинутом уровне [5, c. 65, 9, c. 158, 10, c. 5119]. Гипотеза 3 о положительном совместном влиянии объема и разнообразия больших данных подтвердилась при показателе рентабельности продаж, что соотносится с результатами предыдущих исследований [5, c. 62, 10, c. 5119]. Авторы считают, что когда большие данные обладают большим объемом и разнообразием одновременно, фирмы могут эффективно извлекать из них выгоду, превышая затраты и превращая большие данные в ценный ресурс, который положительно влияет на эффективность работы фирмы.
В целом, подобные исследования являются редкостью в рамках российской практики, и данная работа привносит новую информацию в изучение аналитики больших данных и ее влияния на показатели эффективности фирм. Однако данная работа имеет ряд ограничений. В работе рассматривались только объем и разнообразие больших данных. В дальнейшем возможно изучение остальных характеристик: достоверность, скорость, ценность больших данных и как они могут взаимодействовать между собой. Для расширения исследования рекомендуется увеличить размер выборки и рассмотреть другие отрасли компаний, а также возможно использование иных платформ для сбора данных, таких как Apple Store и RuStore. Также для расширения исследования стоит рассмотреть панельные данные для более полного и всестороннего анализа, что даст возможность выявить долгосрочные тенденции развития аналитики больших данных.
Сбор данных компаниями не всегда означает то, что они собираются с целью их дальнейшей аналитики. Поэтому для более полного изучения темы стоит оценить наличие специальных технологий и инструментов, а также то, на каком этапе находится компания для осуществления аналитики больших данных в компании. Например, компания только внедряет технологии для аналитики больших данных, либо компания уже является лидером по использованию данной технологии в своей деятельности в России или мире.
Литература:
- Aldisa R. T., Maulana P., Abdullah M. A. Penerapan Big Data Analytic Terhadap Strategi Pemasaran Job Portal di Indonesia dengan Karakteristik Big Data 5V //Jurnal Sistem Komputer dan Informatika (JSON). — 2022. — Т. 3. — №. 3. — С. 267–272.
- Ardito L. et al. A bibliometric analysis of research on Big Data analytics for business and management //Management Decision. — 2019. — Т. 57. — №. 8. — С. 1993–2009.
- Bidhari S. C. et al. Effect of corporate social responsibility information disclosure on financial performance and firm value in banking industry listed at Indonesia stock exchange //European Journal of Business and Management. — 2013. — Т. 5. — №. 18. — С. 39–46.
- Big Data [Электронный ресурс] URL: https://www.statista.com/topics/1464/big-data/#topicOverview (дата обращения: 20.05.2024).
- Cappa F. et al. Big data for creating and capturing value in the digitalized environment: unpacking the effects of volume, variety, and veracity on firm performance //Journal of Product Innovation Management. — 2021. — Т. 38. — №. 1. — С. 49–67.
- Chen H., Chiang R. H. L., Storey V. C. Business intelligence and analytics: From big data to big impact //MIS quarterly. — 2012. — С. 1165–1188.
- Dubey R. et al. Big data and predictive analytics and manufacturing performance: integrating institutional theory, resource‐based view and big data culture //British Journal of Management. — 2019. — Т. 30. — №. 2. — С. 341–361.
- George G., Haas M. R., Pentland A. Big data and management //Academy of management Journal. — 2014. — Т. 57. — №. 2. — С. 321–326.
- Ghasemaghaei M., Calic G. Assessing the impact of big data on firm innovation performance: Big data is not always better data //Journal of business research. — 2020. — Т. 108. — С. 147–162.
- Hofmann E. Big data and supply chain decisions: the impact of volume, variety and velocity properties on the bullwhip effect //International Journal of Production Research. — 2017. — Т. 55. — №. 17. — С. 5108–5126.
- Johnson J. S., Friend S. B., Lee H. S. Big data facilitation, utilization, and monetization: Exploring the 3Vs in a new product development process //Journal of Product Innovation Management. — 2017. — Т. 34. — №. 5. — С. 640–658.
- Karlik A. E. et al. Success Factors for the Implementation of Big Data as a New Economic Resource //MIR (Modernization. Innovation. Research). — 2019. — Т. 10. — №. 3. — С. 380–394.
- Kuraeva A., Kazantcev N. Survey on big data analytics in public sector of russian federation //Procedia Computer Science. — 2015. — Т. 55. — С. 905–911.
- Maroufkhani P. et al. Big data analytics and firm performance: A systematic review //Information. — 2019. — Т. 10. — №. 7. — С. 226–247.
- Иванова А. П. Утечка персональных данных: большая проблема в цифровую эпоху //Социальные и гуманитарные науки. Отечественная и зарубежная литература. Сер. 4, Государство и право: Реферативный журнал. — 2020. — №. 4. — С. 100–108.
- Информационная безопасность в цифровой экономике. [Электронный ресурс] URL: https://www.infowatch.ru/ analytics/analitika/utechki-informatsii-ogranichennogo-dostupa-v-mire-2022-g (дата обращения: 19.12.2023).
- Исследование российского рынка Big Data: тренды 2022 года и перспективы развития. [Электронный ресурс] URL: https://globalcio.ru/discussion/27562/ (дата обращения: 20.02.2024).
- Корнев М. С. История понятия» большие данные» (Big Data): словари, научная и деловая периодика //Вестник РГГУ. Серия: Литературоведение. Языкознание. Культурология. — 2018. — №. 1 (34). — С. 81–85.
- Общероссийский классификатор видов экономической деятельности. [Электронный ресурс] URL: https://www.regfile.ru/okved2.html (дата обращения: 13.03.2024).
- Позмогов А. И. Цифровая трансформация промышленного комплекса России //Вопросы управления. — 2019. — №. 3 (39). — С. 149–154.