В последнее десятилетие корпорации все активнее занимаются анализом и широким использованием больших данных. Большинство научных статей о больших данных посвящены методам, подходам, возможностям и организационному воздействию анализа больших данных. В этой статье основное внимание уделяется способности больших данных (выступая в качестве прямого источника эффективного анализа) также увеличивать и обогащать аналитическую мощь хранилищ данных.
Ключевые слова: большие данные, хранилище данных, финансы, данные, CRM.
1. Введение
В то время как деловой мир быстро меняется, а бизнес-процессы становятся все более сложными, менеджерам становится все труднее иметь полное представление о бизнес-среде [1]. Факторы глобализации, дерегулирования, слияний и поглощений, конкуренции и технологических инноваций заставили компании пересмотреть свои бизнес-стратегии, и многие крупные компании прибегли к методам бизнес-аналитики (BI), чтобы помочь им понять и контролировать бизнес-процессы для получения конкурентных преимуществ [2]. BI в первую очередь используется для повышения своевременности и качества информации, а также для того, чтобы менеджеры лучше понимали положение своей фирмы по сравнению с конкурентами. BI-приложения и технологии помогают компаниям анализировать меняющиеся тенденции в доле рынка, изменения в поведении клиентов и моделях расходов, предпочтения клиентов, возможности компании и рыночные условия. Он используется для того, чтобы помочь аналитикам и менеджерам определить, какие корректировки с наибольшей вероятностью будут соответствовать меняющимся тенденциям [3]. Она возникла как концепция анализа собранных данных с целью помочь подразделениям, принимающим решения, получить более полное представление о деятельности организации и тем самым принять более эффективные бизнес-решения [4].
Современные организации имеют дело с растущими объемами и сложностями данных [5]. В дополнение к управлению и обработке традиционных источников данных, таких как оперативные базы данных и хранилища данных, в последнее десятилетие корпорации все активнее участвуют в усилиях, направленных на анализ и более широкое использование больших данных [6]. Много было написано о феномене больших данных, и большинство научных работ в этой области были сосредоточены на методах, подходах, возможностях и организационном воздействии анализа больших данных. Эти статьи представляют большие данные как источник, который при правильной обработке и анализе обладает потенциалом для открытия новых знаний, предлагая свежие и действенные идеи для корпораций и других организаций [7].
Приложения для хранения данных без надежных систем мониторинга вызывают недовольство бизнес-пользователей, поскольку SLA загрузки данных часто пропускаются из-за задержек в решении экологических проблем. Эти хранилища данных обречены на провал, поскольку бизнес-пользователи ищут альтернативные варианты удовлетворения потребностей в данных из-за ненадежности данных и в конечном итоге приводят к их закату [8]. Комплексная система мониторинга хранилищ данных необходима для оповещения групп поддержки о таких проблемах окружающей среды, а также для содействия быстрому решению этой проблемы путем предоставления средств для выявления первопричины.
В этой статье основное внимание будет уделено способности больших данных (выступая в качестве прямого источника для эффективного анализа) также увеличивать и обогащать аналитическую мощь хранилищ данных.
2. Обзор хранилищ данных
В начале 1970-х годов появились системы поддержки принятия решений (ССО), которые принципиально отличались от операционных или транзакционных систем [9]. DSS требует создания DW для завершения своего жизненного цикла. И объединяет данные, разбросанные по всей организации, в единую централизованную структуру данных с общим форматом [10]. Что касается компонента данных, то было признано, что для получения данных из операционных систем и других источников данных необходимо отдельное хранилище данных, и поэтому в ответ на эту потребность были разработаны независимые витрины данных в качестве первой инфраструктуры поддержки принятия решений [9].
Складирование данных началось в 1980-х годах как ответ на недостаток информации, предоставляемой многими создаваемыми онлайн-прикладными системами, онлайн-приложения обслуживали потребности ограниченного сообщества пользователей и редко интегрировались друг с другом [11]. Кроме того, онлайн-приложения не имели заметного объема исторических данных, потому что они выбрасывали свои исторические данные как можно быстрее во имя высокой производительности. Таким образом, корпорации имели много данных и очень мало информации [11]. Инмон утверждает, что DW была первой попыткой создания архитектуры, с которой когда-либо сталкивалось большинство организаций.” До создания хранилищ данных все было новым приложением; однако стало очевидно, что приложения не смогут со временем доставить организацию туда, куда ей нужно. Решение состояло в том, чтобы построить архитектуру или, по крайней мере, первые неоперившиеся шаги архитектуры”. Инмон утверждает, что до сих пор существует большая путаница относительно того, что такое хранилище данных на самом деле”. Билл Инмон, [12 с. 31], всемирно известный эксперт, сказал, что определение DW было и остается сегодня. “Источник данных, который является субъектно-ориентированным, интегрированным, энергонезависимым и временным вариантом для целей процессов принятия управленческих решений”. Инмон, который ввел термин DW, сказал, что базовая архитектура для DW развивалась на протяжении многих лет, хотя первоначальное определение осталось прежним.
Из-за необходимости дальнейшего исследования этой темы, учитывая важность выбора архитектуры и недостаток эмпирических исследований [13], у нас есть все основания исследовать успешность различных архитектур. В данной статье мы обсуждаем различные архитектуры хранилищ данных и анализируем их структуру и особенности, а также факторы, влияющие на их выбор.
3 . Структура хранилища данных
Структура хранилища данных организует все компоненты среды хранилища данных. Фреймворк может использоваться в качестве средства коммуникации со всеми сторонами, участвующими в работе хранилища данных. Фрейм хранилища данных предназначен для сбора данных из различных операционных источников. Собранные данные затем преобразуются в основное хранилище данных [14]. Это корпоративное хранилище данных управляется, а иногда реплицируется и распространяется для формирования витрин данных, также известных как ведомственное хранилище. Эта информация в хранилище данных с помощью инструментов обнаружения знаний, интеллектуального анализа данных и доступа к информации используется бизнес-пользователями для улучшения организационных процессов [15].
4 . Архитектура хранилища данных
Корпоративное хранилище данных — это централизованное хранилище подробных данных из всех соответствующих исходных систем, которое позволяет осуществлять специальное обнаружение и детальный целенаправленный анализ несколькими группами пользователей. Все исторические и транзакционные данные хранятся в одном централизованном хранилище данных (Рис. 1) [16].
Рис. 1. Архитектура хранилища данных
Основываясь на инструментах интеллектуального анализа данных и доступа к информации, бизнес — пользователи извлекают соответствующие факты и цифры. Независимый рынок данных — это специфическое распределенное подмножество операционных данных, предназначенных для анализа определенной группой пользователей. Он также известен как ведомственное хранилище данных. Этот подход требует более простого интеллектуального анализа данных, поскольку данные уже разделены [17]. Корпоративное хранилище данных с зависимым рынком данных: Зависимый рынок данных-это специальное подмножество более крупного хранилища данных, в котором данные отбираются и организуются для заранее определенных наборов требований. У разных компаний есть свои собственные решения; некоторые рекомендуют распределенный подход для DW, а некоторые рекомендуют централизованный подход для DW. IBM рекомендует распределенный подход, также известный как федеративный подход. Корпорация NCR рекомендует централизованный подход.
5. Использование хранилища данных для обработки информации о клиентах
Операционные и аналитические требования — это путь CRM. CRM работает, собирая информацию о клиентах при каждой транзакции и от каждого действия клиента [18]. Эти данные анализируются для достижения качества бизнес-процессов. Здесь в роль вступает хранилище данных, поскольку оно является хранилищем всей связанной с клиентами информации: операционных или транзакционных данных, данных взаимодействия, данных профиля клиента, демографических и поведенческих данных [19].
В таблице 1 показаны различия в системах обработки транзакций (TPS), использующих базы данных, и Системах поддержки принятия решений, использующих хранилища данных.
Аналитическая CRM показывает лучшее использование данных, извлеченных из хранилищ данных, для лучшего понимания клиентов (Рис. 2). Аналитическая CRM-система использовала точные, интегрированные и доступные данные на складе. Данные о клиентах контролируются для выявления возможностей продажи, выявления неэффективности, увеличения спроса на продукцию среди клиентов и улучшения удержания существующих клиентов (Рис. 3).
Таблица 1
Различия между TPS и DSS
TPS |
DSS |
|
Пользователи |
Фронтовые рабочие |
Управление |
Цель |
Поддерживает повседневные операции |
Поддержка стратегических решений |
Данные |
Сырые данные |
Отфильтрованные и преобразованные данные |
Источник данных |
Только внутренние источники |
Внутренние и внешние источники |
Период |
Текущие данные |
Исторические данные |
Уровень детализации |
Только подробные данные |
Подробные и сводные данные |
Структура данных |
3NF |
Де-нормализованные таблицы |
Цель проектирования |
Максимальная эффективность обновления |
Максимальная эффективность запросов |
Рис. 2. Аналитическая CRM
Рис. 3. Процесс обнаружения знаний
6. Результаты и обсуждения
Существует относительно мало исследовательских проектов, направленных на объединение концепций хранилищ данных с системами управления рабочими процессами. Существующие источники можно сгруппировать в две категории: те, которые применяют концепции документооборота к домену хранилища данных, и те, которые описывают анализ данных журнала аудита документооборота.
6.1. Применение концепций рабочего процесса к проектированию хранилища данных
Успех хранилищ данных является важным вопросом как для исследователей, так и для практиков; однако не многие исследования эмпирически оценивали практику хранения данных в целом и критические факторы успеха в частности. Хотя существует множество руководящих принципов для их реализации, лишь немногие из них были подвергнуты строгой эмпирической проверке [20]. Другая проблема заключается в том, что исследователи использовали различные переменные в отдельных исследованиях, что затрудняет сравнение и интеграцию результатов различных исследований [21]. В данной статье рассматривается исследовательская модель успеха хранилища данных, облегчающая интеграцию исследований и выбор переменных в будущих исследованиях. Модель является общей, и новые факторы или переменные успеха, когда они определены, могут быть легко добавлены. Например, по мере того как компании стремятся построить все более крупные склады в погоне за большей детализацией и информацией в реальном времени, резервное копирование терабайт данных может стать проблемой. В такой среде “простота управления” может стать дополнительной переменной успеха, связанной с качеством системы.
Как упоминалось ранее, в большинстве предыдущих исследований рассматривались либо факторы внедрения, либо успех хранилища данных, но не оба. Исследователям рекомендуется начать включать оба набора переменных, чтобы проверить влияние любого критического фактора успеха. Они могли бы сосредоточиться на одном конкретном факторе, например, на специально разработанном процессоре запросов, и изучить его влияние на различные переменные успеха. Они также могли бы расширить текущие исследования, изучив, какие факторы являются значимыми для получения новой выгоды, например, “простота управления.” Мы считаем, что список критических факторов для различных выгод может меняться по мере изменения временных рамок или окружающей среды. В исследовании исполнительных информационных систем (ИС) [22] утверждал, что факторы успеха могут взаимодействовать и что их влияние может варьироваться на разных этапах проекта. Авторы [23] в своем исследовании реализации EIS также пришли к выводу, что удовлетворение статического набора факторов не является достаточным объяснением результатов системы. В исследовании хранилища данных [24] пришли к выводу, что успех внедрения хранилища данных зависит от того, насколько хорошо измеряются и управляются результирующие изменения культуры. Потенциальное влияние культурных изменений, а также других политических, социальных и экономических факторов [23] должно быть дополнительно исследовано, чтобы обеспечить более полное понимание успеха хранилищ данных.
Заключение
Учитывая все описанные преимущества, делается вывод о том, что интеграция CRM с хранилищем данных может обеспечить следующие корпоративные преимущества: снижение затрат на приобретение клиентов, снижение затрат на продажу, снижение затрат на обслуживание и сокращение времени обслуживания. Точно так же CRM повышает следующие показатели: удовлетворенность клиентов, доходность отношений, конкурентное преимущество, количество клиентов, коэффициент удержания клиентов, сбор аналитической оценки для измерения ценности клиента, доход на одного клиента и влияние выполнения заказов, доходности и работы колл-центра на ощутимые показатели продаж.
Для функционирования корпоративных хранилищ данных требуется множество приложений для хранения данных, и мониторинг каждого из этих приложений является ключом к общему успеху хранилища данных. Сбой в мониторинге любого из этих приложений приводит к задержкам в доступности данных корпоративного хранилища данных. В этой статье представлена структура мониторинга, которая может помочь в создании инструмента для эффективного мониторинга приложений хранилища данных.
Литература:
1. Costa, E., Costa, C., & Santos, M. Y. (2017, September). Efficient big data modelling and organization for hadoop hive-based data warehouses. In European, Mediterranean, and Middle Eastern Conference on Information Systems (pp. 3–16). Springer, Cham.
2. Черников, Б. В. (2017). Особенности создания систем нормативно-справочной информации в организациях холдингового типа. Фундаментальные исследования, (12–1), 149–156.
3. Sureddy, M. R., & Yallamula, P. (2020). A Framework for Monitoring Data Warehousing Applications. International Research Journal of Engineering and Technology, 7(6), 7023–7029.
4. Васильева, Е. В., Солянов, К. С., & Коневцева, Т. Д. (2020). Адаптивное хранилище данных как технологический базис экосистемы банка. Финансы: теория и практика, 24(3).
5. Rosenkranz, C., Holten, R., Räkers, M., & Behrmann, W. (2017). Supporting the design of data integration requirements during the development of data warehouses: a communication theory-based approach. European Journal of Information Systems, 26(1), 84–115.
6. Armbrust, M., Ghodsi, A., Xin, R., & Zaharia, M. (2021). Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics. CIDR.
7. Иванов, А. А. (2017). Сравнительный анализ хранилища данных и базы данных. Academy, (5 (20)).
8. Venkatesh, K., Ali, M. J. S., Nithiyanandam, N., & Rajesh, M. (2019). Challenges and Research Disputes and Tools in Big Data Analytics. International Journal of Engineering and Advanced Technology, 6, 1949–1952.
9. Солянов, К. С., & Стацюк, Л. В. (2020). Фреймворк проектирования логической модели хранилища данных. Инновации и инвестиции, (8).
10. T. R. Sahama, P. R. Croll, «A Data Warehouse Architecture for Clinical Data Warehousing», in Roddick, J. F. and Warren, J. R., Eds. Proceedings Australasian Workshop on Health Knowledge Management and Discovery (HKMD 2007) CRPIT, 68, pages pp. 227–232, Ballarat, Victoria.
11. Перепелкин, Д. А., Сапрыкин, А. Н., Иванчикова, М. А., & Косоруков, С. (2019). Разработка программного компонента построения распределенного облачного хранилища данных образовательного учреждения. Вестник Рязанского государственного радиотехнического университета, (70), 3–14.
12. W. H. Inmon, «Building the Data Warehouse», Third Edition, New York: John Wiley & Sons, 2002.
13. T. Ariyachandra, H. J. Watson., «Which Data Warehouse Architecture Is Most Successful», Business Intelligence Journal Vol. 11, No. 1 2006 pp. 4–6.
14. Jaiswal, M. (2018). Big Data concept and imposts in business. Manishaben Jaiswal'Big Data Concept and Imposts in Business' International Journal of Advanced and Innovative Research (IJAIR) ISSN, 2278–7844.
15. El-Seoud, S. A., El-Sofany, H. F., Abdelfattah, M., & Mohamed, R. (2017). Big Data and Cloud Computing: Trends and Challenges. International Journal of Interactive Mobile Technologies, 11(2).
16. Wang, Y., Kung, L., Gupta, S., & Ozdemir, S. (2019). Leveraging big data analytics to improve quality of care in healthcare organizations: A configurational perspective. British Journal of Management, 30(2), 362–388.
17. Davenport, T. H. (2017). How analytics has changed in the last 10 years (and how it’s stayed the same). Harvard Business Review, 28(08), 2017.
18. Benjamin, L. M., Voida, A., & Bopp, C. (2018). Policy fields, data systems, and the performance of nonprofit human service organizations. Human Service Organizations: Management, Leadership & Governance, 42(2), 185–204.
19. Солянов, К. С. (2020). Применение компонентного подхода в задаче проектирования хранилища данных. Russian Economic Bulletin, 3(1), 146–151.
20. Патраков, Д. О. (2020). Построение хранилища данных для OLAP системы в целях поддержки принятия решений в организации производственной сферы: выпускная бакалаврская работа по направлению подготовки: 38.03. 01-Экономика.
21. Schwartz, A. L., Zaslavsky, A. M., Landon, B. E., Chernew, M. E., & McWilliams, J. M. (2018). Low‐value service use in provider organizations. Health services research, 53(1), 87–119.
22. Nandhakumar, J. (1996). Design for success? Critical success factors in executive information systems development. European Journal of Information Systems, 5(1), 62–72
23. Лисенкова, А. А., Попов, С. Г., & Голубева, И. Э. (2020). Исследование архитектуры распределенного реляционного хранилища большого объёма разнородных данных. Математические методы в технике и технологиях-ММТТ, 10, 85–87.
24. Doherty, N.F. & Doig, G. (2003). An analysis of the anticipated cultural impacts of the implementation of data warehouses. IEEE Transactions on Engineering Management, 50(1), 78–88