В этой статье основное внимание будет уделено тому, какое хранилище больших данных является наиболее подходящим для крупномасштабных оперативных сценариев использования в режиме реального времени — фабрика данных (Date Fabric) или озеро данных (Date Lake). Также будут рассмотрены хранилища данных, а также реляционные и нереляционные системы управления базами данных.
Ключевые слова: хранилища данных, реляционные базы данных, фабрика данных, озеро данных, СУБД.
Предприятия, интенсивно использующие данные, сталкиваются с широким спектром сценариев использования в реальном времени, требующих масштабной и высокоскоростной архитектуры данных, способной поддерживать миллионы одновременных транзакций. Например:
— 360-градусный обзор клиента из множества различных устаревших систем;
— прогноз оттока;
— кредитный скоринг (используемая банками система оценки клиентов, в основе которой заложены статистические методы. Как правило, это компьютерная программа, куда вводятся данные потенциального заемщика. В ответ выдается результат — стоит ли предоставлять ему кредит);
— предотвращение мошенничества;
— безопасность транзакций по платежным картам и многое другое.
Для оперативных вариантов использования требуется платформа больших данных, способная выполнять сложные запросы данных за миллисекунды при работе с:
— оперативными данными, которые постоянно обновляются из операционных систем (миллионы или миллиарды обновлений каждый день);
— терабайтами фрагментированных данных, охватывающих множество разных баз данных или таблиц, обычно в разных форматах и технологиях;
— конкретными экземплярами бизнес-объекта, например, отдельный клиент, продукт, местоположение и т. д.;
— высоким параллелизмом, представляющим тысячи запросов в секунду.
Сегодня наиболее часто применяемые варианты хранения, которым доверяют команды обработки данных, это:
- Озеро данных(Date Lake)
Озеро данных — это набор экземпляров хранилища различных активов данных. Эти активы хранятся и поддерживаются как точная или почти точная копия структурированного или неструктурированного исходного формата — в дополнение к исходным хранилищам данных. Озера данных становятся все более жизнеспособным решением для извлечения нужной, ценной информации из больших данных на уровне предприятия. Гибкость, оперативность и безопасность, связанные со структурированными, неструктурированными и историческими данными, которые в свободном доступе в отдельных логических зонах, предоставляют компаниям массу возможностей для модификации.
- Хранилища данных (ХДД)
Хранилище данных имеет отношение к архитектуре хранилища, предназначенной для хранения данных, извлеченных из оперативных хранилищ данных, систем транзакций и внешних источников. Оно объединяет данные в агрегированную форму, пригодную для анализа данных и отчетности в масштабах всего предприятия.
- Системы управления базами данных (СУБД)
Система управления базами данных хранит и организует данные в определенных форматах и структурах. СУБД классифицируется по своей базовой структуре и по способу использования или развертывания.
— Реляционная СУБД, которая обычно включает в себя интерфейс программирования приложений языка структурированных запросов (SQL), основана и доступна через отношения между объектами данных.
— Нереляционная (NoSQL) СУБД часто применяется в больших данных и веб-приложениях реального времени. Даже учитывая, то что неструктурированная база данных оптимизирована для крупномасштабного использования, она не может обеспечивать связь между объектами данных.
- Фабрика данных
Фабрика данных (Data Fabric) может быть определена как интегрированный уровень связанных данных, который принимается и нормализуется из источников данных предприятия — независимо от формата данных, технологии или исходной системы. Он хранит обработанные данные в своем собственном хранилище данных, доставляя их в хранилища больших данных, приложениям-потребителям и механизмам принятия решений AI/ML/в реальном времени — по запросу. Data Fabric возникла на фоне активного применения данных крупными предприятиями в условиях стандартных ограничений, касающихся управленческих процессов.
Современные Data Fabric позволяют эффективно справляться с основными задачами в плане хранения и обработки невзаимосвязанной информации. При помощи Data Fabric такую информацию стало легче искать, обрабатывать, структурировать и интегрировать с другими системами IT-инфраструктуры.
Далее приведены сильные и слабые стороны фабрики данных по сравнению с озером данных, а также реляционными и нереляционными базами данных.
- Озеро данных
Сильные стороны: поддержка сложных запросов данных для структурированных и неструктурированных данных.
Слабые стороны: нет поддержки запросов с одним объектом, что приводит к медленному времени отклика; нет поддержки оперативных данных, поэтому данные, которые необходимо постоянно обновлять, ненадежны или доставляются с неприемлемо медленным временем отклика.
- Реляционная база данных
Сильные стороны : поддержка SQL, широкое внедрение и простота использования.
Слабые стороны: нелинейная масштабируемость, требующая дорогостоящего оборудования для выполнения сложных запросов к терабайтам данных почти в реальном времени; высокая степень параллелизма, что приводит к неприемлемо медленному времени отклика.
- База данных NoSQL
Сильные стороны: распределенная архитектура хранилища данных с поддержкой линейной масштабируемости.
Слабые стороны: нет поддержки SQL, нужны специальные навыки; чтобы поддерживать запросы данных, необходимо предопределить индексы или внедрить сложную логику приложения, что затрудняет гибкость разработки и сокращает время выхода на рынок.
- Фабрика данных
Сильные стороны: полная поддержка SQL; распределенная архитектура хранилища данных с поддержкой линейной масштабируемости; поддержка высокого параллелизма с высокой производительностью; поддержка сложных запросов для отдельных бизнес-объектов.
Слабые стороны: нет встроенной поддержки запросов к нескольким микробазам данных, но Elasticsearch (высокомасштабируемая распределенная поисковая система полнотекстового поиска и анализа данных с веб-интерфейсом) удовлетворительно решает эту проблему.
Выводы
При сравнении фабрики данных и озера данных очевидно, что предпочтительной архитектурой для оперативных сценариев использования в реальном времени является фабрика данных. Но решения фабрики данных и озера данных в действительности дополняют друг друга в том смысле, что фабрика данных может подготавливать достоверные данные для озер данных, а озера данных могут предоставлять оперативную аналитику фабрике данных для незамедлительного использования.
Литература:
- Элис Лаплант. Data Fabric as Modern Data Architecture // O’Reilly Media, 2021, С.40.
- Джон Келлехер, Брендан Тирни. Наука о данных: базовый курс. // Издание на русском языке, перевод, оформление. ООО «Альпина Паблишер», 2020, С.19.
- Data Fabric: что это такое и зачем вам это нужно?// https://dzone.com/
- Благирев А. Big data простым языком //А. Благирев — «Издательство АСТ», 2019 — (Бизнес-бук), С.38.
- Алан Р. Саймон. Data Lakes For Dummies // Издательство Wiley, 2021, С.327.