В статье представлены особенности современного программного обеспечения для анализа данных и сравнительный анализ программных продуктов.
Ключевые слова : программа, анализ данных, SPSS, R, Python, MS Excel.
Инструменты анализа данных — программные продукты и приложения, которые используют исследователи для разработки и выполнения аналитических процессов, которые помогают принимать более обоснованные бизнес-решения с научной точки зрения при одновременном снижении затрат и увеличении прибыли.
Главной функцией программного обеспечения для анализа данных является выполнение трудоемкой работы и автоматизации процесса преобразования данных в аналитическую информацию. Программное обеспечение для обработки данных также выполняет ряд следующих действий:
— предоставляет необходимые инструменты для проведения качественного и количественного анализа;
— применяет статистические и аналитические возможности для принятия решений;
— обрабатывает и преобразует информацию для анализа корреляций между наборами данных;
— визуализирует наборы данных и результаты анализа.
Программные продукты для статистической обработки данных являются неотъемлемой частью современных исследований в различных сферах. Системы не только ускоряют процессы обработки, но и облегчают трудоемкие процессы анализа данных и помогают качественно визуализировать результаты исследований.
В качестве инструментального средства для реализации методов многомерной статистики используется распространенная программа обработки статистической информации — SPSS (аббревиатура от Statistical Package for the Social Science) [1].
MS SPSS Statistics компьютерная программа для статистической обработки данных, предназначенная для проведения прикладных исследований в социальных науках.
Хедли Халл, Норман Най и Дейл Бент создали первую версию системы в 1968 году. Далее данный пакет совершенствовался в рамках Чикагского университета. В 1970 году вышло первое пользовательское руководство издательстве McGraw-Hill. А с 1975 года проект отделился в собственную компанию SPSS Inc . В 1992 году вышла первая версия пакета под Microsoft Windows. На данный момент также существуют версии под Mac OS X и Linux.
Возможности статистического пакета SPSS [2]:
— первичная описательная статистика;
— использования переменных разных типов;
— частотность признаков, таблицы, графики, таблицы сопряжённости, диаграммы;
— маркетинговые исследования;
— анализ данных маркетинговых исследований.
Программный продукт SPSS предоставляет широкие возможности для статистического анализа данных. Набор аналитического функционала системы представлен на рисунке 1.
Рис. 1. Окно SPSS
Таким образом, SPSS является гибким инструментом для статистической обработки различных наборов данных.
Необходимым условием современного статистического анализа данных является эффективное использование компьютерных программ, от функциональной полноты и алгоритмической продуманности которых зависит итоговая интерпретация результатов исследования и надежность выводов. В настоящее время такой программой является система R, которая является наиболее полной, надежной и динамично развивающейся статистической средой, объединяющей язык программирования высокого уровня и библиотеки программных модулей для вычислительной и графической обработки данных.
R — это язык и среда для статистических вычислений и графики, который предоставляет широкий спектр статистических (линейное и нелинейное моделирование, классические статистические тесты, анализ временных рядов, классификация, кластеризация и т. Д.) и графических методов и обладает высокой степенью расширения [3].
Одной из сильных сторон R является легкость, с которой происходит визуализация графиков качества публикации, включая математические символы и формулы, где это необходимо.
Сегодня статистическая среда R является безусловным лидером среди некоммерческих систем статистического анализа и постепенно становится незаменимой при проведении научно-технических расчетов в большинстве западных университетских, научных центров и международных организаций. Расширение библиотек программных модулей за счет усилий множества разработчиков привело к возникновению распределенной системы хранения и распространения пакетов R, то есть “CRAN” (от «Comprehensive R Archive Network») которая обладает развитой системой информационной поддержки [4].
Всемерная поддержка научным сообществом данного проекта и широкое преподавание статистики на базе R обусловили приведение скриптов на данном языке постепенно становится общепризнанным мировым стандартом в научных публикациях.
В данном языке программирования существует множество пакетов и библиотек, предназначенных для выполнения различных задач статистической обработки данных. Пакеты Ggplot2, Data.table, Dplyr, Tidy, Shiny, Ploty, Knitr, Caret являются основными для анализа данных в среде R. В основе пакетов находятся функции, которые в свою очередь применяются для статистического анализа данных и визуализации. Данный язык прост в использовании и обеспечивает быструю и надежную платформу для обработки данных, визуализации, моделирования и статистического тестирования.
Другим распространенным инструментом для анализа данных является Python. Python-это интерпретируемый, интерактивный, и высокоуровневый язык программирования общего назначения, который был создан Гвидо ван Россумом в 1985–1990 годах. Исходный код Python доступен под лицензией GNU General Public License (GPL).
Основными характеристиками Python являются:
— Поддержка функциональных и структурированных методов программирования, а также объектно-ориентированное программирование.
— Использование в качестве языка сценариев или может быть скомпилирован в байт-код для создания больших приложений.
— Обеспечение и проверка высокоуровневых динамических типов данных.
— Возможность интеграции с C, C++, COM, ActiveX, CORBA и Java.
Для любых научных вычислений и анализа данных в среде программирования Python применятся NumPy, SciPy, Matplotlib, Pandas, Scikit Learn, Statsmodels, Seaborn, SymPy библиотеки.
Язык программирования Python предоставляет широкие возможности для визуализации как исходных данных, так и данных, которые были обработаны различными статистическим методами.
Другим популярным программным инструментом анализа данных является MS Excel. Анализ данных в MS Excel предполагает сама конструкция табличного процессора. Очень многие средства программы подходят для реализации этой задачи.
MS Excel позиционирует себя как лучший универсальный программный продукт в мире по обработке аналитической информации. MS Excel предлагает средства для анализа статистических данных. Такие встроенные функции, как СРЗНАЧ (AVERAGE), МЕДИАНА (MEDIAN) и МОДА (MODE), могут использоваться для проведения анализа данных. Если встроенных статистических функций недостаточно, необходимо обратиться к пакету Анализ данных.
Пакет Анализ данных, являющийся надстройкой, содержит коллекцию функций и инструментов, расширяющих встроенные аналитические возможности MS Excel. В частности, пакет Анализ данных можно использовать для создания гистограмм, ранжирования данных, извлечения случайных или периодических выборок из набора данных, проведения регрессионного анализа, получения основных статистических характеристик выборки, генерации случайных чисел с различным распределением, а также для обработки данных с помощью преобразования Фурье и других преобразований.
При анализе данных часто возникает необходимость определения различных статистических характеристик или параметров распределения. С помощью Microsoft Excel можно анализировать распределение, используя несколько инструментов: встроенные статистические функции, функции для оценки разброса данных, инструмент Описательная статистик, который предоставляет удобные сводные таблицы основных параметров распределения, инструменты Гистограмма, Ранг и Персентиль.
Таким образом, программный продукт MS Excel является отличным инструментом для работы с данными и включает различный набор.
Обеспечение выполнения анализа данных на максимально высоком уровне основывается на использовании инструментов и программного обеспечения, которые вычисляют наилучшие результаты.
В зависимости от целей исследования необходимо ориентироваться на возможности, и недостатки используемого программного продукта. Каждая из систем имеет свой определенный функционал, используемый для анализа данных, в связи с этим определение ключевых методов анализа в исследовании является основополагающим для выбора системы и набора пакетов. Сравнительная таблица исследуемого программного обеспечение для анализа данных представлена в таблице 1.
Таблица 1
Программный продукт |
Положительные черты |
Отрицательные черты |
SPSS |
— SPSS имеет широкий доступ к данным с различными типами переменных. — SPSS R способен работать с не стандартизированными данными различной природы. — SPSS помогает исследователям легко настроить модель, поскольку большая часть процесса автоматизирована. — Инструментарий SPSS не требует дополнительного изучения синтаксиса, так как не является языком программирования. — SPSS предлагает углубленные статистические возможности для анализа точных результатов и визуализации. |
— Данное ПО не является бесплатными и требует лицензирования. — Интерфейс системы не соответствует трендам создания ПО. — Качество графики при визуализации требует улучшений. |
Статистическая среда R |
— Язык программирования R способен работать с не стандартизированными данными. — Возможность загрузки данных на основе сторонних документов в различных форматах (MS Excel, текстовые документы) — Язык программирования R имеет открытый исходный код. — Использование платформ бесплатно и не требует лицензирования. — Язык программирования R имеет широкую графическую библиотеку. — Язык программирования R содержит более 10 000 пакетов, используемых для статистического анализа данных. — Поддержка векторных вычислений. |
— Язык программирования R не обладает базовой безопасностью, так как не встраивает веб-приложений. — Необходимо первоначальное обучение основам синтаксиса языка программирования. |
Python |
— Язык программирования Python позволяет совершать статистический анализ данных с минимальным написанием программного кода. — Python имеет расширенную поддержку стандартных библиотек. — Python является бесплатным программным продуктом. — Возможность поддержки как процедурной, так и объектно-ориентированной парадигмы программирования. — Поддержание высокой культуры документации. |
— Редко используется для реализации приложений на базе смартфонов. — Недостаточно развитые уровни доступа к базам данных. — Необходимо первоначальное обучение основам синтаксиса языка программирования. — Снижение скорости обработки данных при выполнении сложных операций. |
MS Excel |
— Содержит мощные инструменты фильтрации, сортировки и поиска. — Доступная цена. — Широкий выбор встроенных функций для анализа данных, математической обработки. — Большой выбор инструментов для визуализации графиков. |
— Низкая скорость обработки большого объема данных. — MS Excel использует аппроксимацию очень больших чисел с использованием неточных вычислений. — Применение нескольких сложных формул при работе с системой могут привести снижению скорости обработки данных — Так же одним из ограничивающих факторов при использовании MS Excel для управления данными является отсутствие доступа сразу нескольким пользователям. |
Таким образом, каждый из рассмотренных программных продуктов имеет сильные и слабые стороны. Исследователь, ориентируясь на поставленную цель и задачи, а также на набор предусмотренного функционала, выбирает оптимальный программный продукт.
Литература:
- Орлова И. В. Статистический анализ в экономических задачах: компьютерное моделирование в SPSS [Текст] / И. В. Орлова, Н. В. Концевая // Международный журнал прикладных и фундаментальных исследований. — 2014. — № 3. — С. 248–250.
- Наследов, А. Д. IBM SPSS Statistics 20 и Amos: Профессиональный статистический анализ данных [Текст]: практическое руководство / А. Д. Наследов. — СПб.: Питер, 2013 –C. 416.
- А. И. Шафоростов, В. В. Шумилин Возможности языка программирования «R» при проведении научно-исследовательских работ [Текст] / А. И. Шафоростов, В. В. Шумилин // Пожарная безопасность: проблемы и перспективы. — 2016. — № 1(7). — С. 284–286.
- В. В. Ивин Применение языка R и среды RStudio для статистического анализа данных [Текст] / В. В. Ивин // Педагогический опыт: от теории к практике. — 2018. — С. 47–53.