Сравнительный анализ архитектур данных Data Fabric и Data Lake применительно к оперативным сценариям | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 1 февраля, печатный экземпляр отправим 5 февраля.

Опубликовать статью в журнале

Авторы: , ,

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №17 (412) апрель 2022 г.

Дата публикации: 30.04.2022

Статья просмотрена: 116 раз

Библиографическое описание:

Шихвеледова, Т. А. Сравнительный анализ архитектур данных Data Fabric и Data Lake применительно к оперативным сценариям / Т. А. Шихвеледова, А. Г. Саидбегова, З. А. Сеферова. — Текст : непосредственный // Молодой ученый. — 2022. — № 17 (412). — С. 375-377. — URL: https://moluch.ru/archive/412/90978/ (дата обращения: 18.01.2025).



В этой статье основное внимание будет уделено тому, какое хранилище больших данных является наиболее подходящим для крупномасштабных оперативных сценариев использования в режиме реального времени — фабрика данных (Date Fabric) или озеро данных (Date Lake). Также будут рассмотрены хранилища данных, а также реляционные и нереляционные системы управления базами данных.

Ключевые слова: хранилища данных, реляционные базы данных, фабрика данных, озеро данных, СУБД.

Предприятия, интенсивно использующие данные, сталкиваются с широким спектром сценариев использования в реальном времени, требующих масштабной и высокоскоростной архитектуры данных, способной поддерживать миллионы одновременных транзакций. Например:

— 360-градусный обзор клиента из множества различных устаревших систем;

— прогноз оттока;

— кредитный скоринг (используемая банками система оценки клиентов, в основе которой заложены статистические методы. Как правило, это компьютерная программа, куда вводятся данные потенциального заемщика. В ответ выдается результат — стоит ли предоставлять ему кредит);

— предотвращение мошенничества;

— безопасность транзакций по платежным картам и многое другое.

Для оперативных вариантов использования требуется платформа больших данных, способная выполнять сложные запросы данных за миллисекунды при работе с:

— оперативными данными, которые постоянно обновляются из операционных систем (миллионы или миллиарды обновлений каждый день);

— терабайтами фрагментированных данных, охватывающих множество разных баз данных или таблиц, обычно в разных форматах и технологиях;

— конкретными экземплярами бизнес-объекта, например, отдельный клиент, продукт, местоположение и т. д.;

— высоким параллелизмом, представляющим тысячи запросов в секунду.

Сегодня наиболее часто применяемые варианты хранения, которым доверяют команды обработки данных, это:

  1. Озеро данных(Date Lake)

Озеро данных — это набор экземпляров хранилища различных активов данных. Эти активы хранятся и поддерживаются как точная или почти точная копия структурированного или неструктурированного исходного формата — в дополнение к исходным хранилищам данных. Озера данных становятся все более жизнеспособным решением для извлечения нужной, ценной информации из больших данных на уровне предприятия. Гибкость, оперативность и безопасность, связанные со структурированными, неструктурированными и историческими данными, которые в свободном доступе в отдельных логических зонах, предоставляют компаниям массу возможностей для модификации.

  1. Хранилища данных (ХДД)

Хранилище данных имеет отношение к архитектуре хранилища, предназначенной для хранения данных, извлеченных из оперативных хранилищ данных, систем транзакций и внешних источников. Оно объединяет данные в агрегированную форму, пригодную для анализа данных и отчетности в масштабах всего предприятия.

  1. Системы управления базами данных (СУБД)

Система управления базами данных хранит и организует данные в определенных форматах и структурах. СУБД классифицируется по своей базовой структуре и по способу использования или развертывания.

— Реляционная СУБД, которая обычно включает в себя интерфейс программирования приложений языка структурированных запросов (SQL), основана и доступна через отношения между объектами данных.

— Нереляционная (NoSQL) СУБД часто применяется в больших данных и веб-приложениях реального времени. Даже учитывая, то что неструктурированная база данных оптимизирована для крупномасштабного использования, она не может обеспечивать связь между объектами данных.

  1. Фабрика данных

Фабрика данных (Data Fabric) может быть определена как интегрированный уровень связанных данных, который принимается и нормализуется из источников данных предприятия — независимо от формата данных, технологии или исходной системы. Он хранит обработанные данные в своем собственном хранилище данных, доставляя их в хранилища больших данных, приложениям-потребителям и механизмам принятия решений AI/ML/в реальном времени — по запросу. Data Fabric возникла на фоне активного применения данных крупными предприятиями в условиях стандартных ограничений, касающихся управленческих процессов.

Современные Data Fabric позволяют эффективно справляться с основными задачами в плане хранения и обработки невзаимосвязанной информации. При помощи Data Fabric такую информацию стало легче искать, обрабатывать, структурировать и интегрировать с другими системами IT-инфраструктуры.

Далее приведены сильные и слабые стороны фабрики данных по сравнению с озером данных, а также реляционными и нереляционными базами данных.

  1. Озеро данных

Сильные стороны: поддержка сложных запросов данных для структурированных и неструктурированных данных.

Слабые стороны: нет поддержки запросов с одним объектом, что приводит к медленному времени отклика; нет поддержки оперативных данных, поэтому данные, которые необходимо постоянно обновлять, ненадежны или доставляются с неприемлемо медленным временем отклика.

  1. Реляционная база данных

Сильные стороны : поддержка SQL, широкое внедрение и простота использования.

Слабые стороны: нелинейная масштабируемость, требующая дорогостоящего оборудования для выполнения сложных запросов к терабайтам данных почти в реальном времени; высокая степень параллелизма, что приводит к неприемлемо медленному времени отклика.

  1. База данных NoSQL

Сильные стороны: распределенная архитектура хранилища данных с поддержкой линейной масштабируемости.

Слабые стороны: нет поддержки SQL, нужны специальные навыки; чтобы поддерживать запросы данных, необходимо предопределить индексы или внедрить сложную логику приложения, что затрудняет гибкость разработки и сокращает время выхода на рынок.

  1. Фабрика данных

Сильные стороны: полная поддержка SQL; распределенная архитектура хранилища данных с поддержкой линейной масштабируемости; поддержка высокого параллелизма с высокой производительностью; поддержка сложных запросов для отдельных бизнес-объектов.

Слабые стороны: нет встроенной поддержки запросов к нескольким микробазам данных, но Elasticsearch (высокомасштабируемая распределенная поисковая система полнотекстового поиска и анализа данных с веб-интерфейсом) удовлетворительно решает эту проблему.

Выводы

При сравнении фабрики данных и озера данных очевидно, что предпочтительной архитектурой для оперативных сценариев использования в реальном времени является фабрика данных. Но решения фабрики данных и озера данных в действительности дополняют друг друга в том смысле, что фабрика данных может подготавливать достоверные данные для озер данных, а озера данных могут предоставлять оперативную аналитику фабрике данных для незамедлительного использования.

Литература:

  1. Элис Лаплант. Data Fabric as Modern Data Architecture // O’Reilly Media, 2021, С.40.
  2. Джон Келлехер, Брендан Тирни. Наука о данных: базовый курс. // Издание на русском языке, перевод, оформление. ООО «Альпина Паблишер», 2020, С.19.
  3. Data Fabric: что это такое и зачем вам это нужно?// https://dzone.com/
  4. Благирев А. Big data простым языком //А. Благирев — «Издательство АСТ», 2019 — (Бизнес-бук), С.38.
  5. Алан Р. Саймон. Data Lakes For Dummies // Издательство Wiley, 2021, С.327.
Основные термины (генерируются автоматически): озеро данных, SQL, фабрика данных, данные, реальное время, баз данных, хранилище данных, медленное время отклика, поддержка, сторона.


Ключевые слова

СУБД, реляционные базы данных, хранилища данных, фабрика данных, озеро данных

Похожие статьи

Обзор и сравнительный анализ промышленных хранилищ данных и баз данных

В статье рассматриваются такие понятия, как хранилище данных и база данных. Проводится сравнительный анализ рассматриваемых технологий, их назначение и ключевые отличия в промышленной эксплуатации. Также представлен краткий обзор современных решений ...

Особенности проектирования и разновидности хранилищ данных

Статья посвящена последним достижениям в области таких современных и актуальных на сегодняшний день технологий, как хранилища данных. Рассматриваются основные особенности проектирования хранилищ данных, их роль в современном мире, преимущества исполь...

Создание хранилища данных для распределённой системы

В данной работе рассматривается реализация модуля хранения данных в распределённой системе, решающей задачи хранения и анализа файлов, содержащих данные в виде текста. Задачами модуля являются размещение файлов, а также управление загруженными файлам...

Разработка веб-сервиса для хранения и передачи данных

В данной статье рассматривается процесс разработки веб-сервиса для облачного хранения и передачи данных, описываются основные аспекты создания серверной части с использованием фреймворка Spring и реализации клиентской части с использованием React, а ...

Архитектура базы данных для системы средств контроля обучаемых в образовательных учреждениях

В статье рассматриваются вопросы разработки базы данных для комплекса программно-инструментальных средств мониторинга образовательного процесса в школьном учреждении. На начальных этапах разработки любой системы важно правильно спроектировать базу да...

Автоматизированная информационно-справочная система по курсу моделирования

В данной статье рассматривается вариант организации, хранения и представления многочисленных разнородных файлов, располагающихся на компьютере. Основное внимание в работе акцентируется на сочетании словарно-справочной системы, системы хранения докуме...

Облачные системы: виртуализация ресурсов, управления данными в облаке и использование облачных технологий в таможенном деле

В статье рассматриваются основные понятия облачных систем, работа с виртуальными ресурсами, преимущество облачного распоряжения информацией, использование облачных технологий в таможенном деле с примерами на опыте пользования.

Обзор технологий для работы с BigData

В последнее время термин Big Data очень часто встречается в жизни многих людей, но не все люди знают. что это такое. В этой статье рассматриваются технологии для работы с BigData. Также в статье рассматриваются свойства больших данных и сферы, где пр...

Построение программного комплекса для генерации звуков барабанов с использованием GAN сетей

В статье рассматривается построение программного комплекса для генерации звуков барабанов с использованием GAN сетей. Программный комплекс работает на клиент-сервер архитектуре и использует нейронные сети WaveGAN для генерации звуков. Результаты, пол...

Перспективы внедрения больших данных в бизнесе

Большие данные — это то, что является обыденным в наши дни. Аналитика больших данных — это зачастую сложный процесс изучения больших данных для выявления информации, такой как скрытые закономерности, корреляции, рыночные тенденции и предпочтения клие...

Похожие статьи

Обзор и сравнительный анализ промышленных хранилищ данных и баз данных

В статье рассматриваются такие понятия, как хранилище данных и база данных. Проводится сравнительный анализ рассматриваемых технологий, их назначение и ключевые отличия в промышленной эксплуатации. Также представлен краткий обзор современных решений ...

Особенности проектирования и разновидности хранилищ данных

Статья посвящена последним достижениям в области таких современных и актуальных на сегодняшний день технологий, как хранилища данных. Рассматриваются основные особенности проектирования хранилищ данных, их роль в современном мире, преимущества исполь...

Создание хранилища данных для распределённой системы

В данной работе рассматривается реализация модуля хранения данных в распределённой системе, решающей задачи хранения и анализа файлов, содержащих данные в виде текста. Задачами модуля являются размещение файлов, а также управление загруженными файлам...

Разработка веб-сервиса для хранения и передачи данных

В данной статье рассматривается процесс разработки веб-сервиса для облачного хранения и передачи данных, описываются основные аспекты создания серверной части с использованием фреймворка Spring и реализации клиентской части с использованием React, а ...

Архитектура базы данных для системы средств контроля обучаемых в образовательных учреждениях

В статье рассматриваются вопросы разработки базы данных для комплекса программно-инструментальных средств мониторинга образовательного процесса в школьном учреждении. На начальных этапах разработки любой системы важно правильно спроектировать базу да...

Автоматизированная информационно-справочная система по курсу моделирования

В данной статье рассматривается вариант организации, хранения и представления многочисленных разнородных файлов, располагающихся на компьютере. Основное внимание в работе акцентируется на сочетании словарно-справочной системы, системы хранения докуме...

Облачные системы: виртуализация ресурсов, управления данными в облаке и использование облачных технологий в таможенном деле

В статье рассматриваются основные понятия облачных систем, работа с виртуальными ресурсами, преимущество облачного распоряжения информацией, использование облачных технологий в таможенном деле с примерами на опыте пользования.

Обзор технологий для работы с BigData

В последнее время термин Big Data очень часто встречается в жизни многих людей, но не все люди знают. что это такое. В этой статье рассматриваются технологии для работы с BigData. Также в статье рассматриваются свойства больших данных и сферы, где пр...

Построение программного комплекса для генерации звуков барабанов с использованием GAN сетей

В статье рассматривается построение программного комплекса для генерации звуков барабанов с использованием GAN сетей. Программный комплекс работает на клиент-сервер архитектуре и использует нейронные сети WaveGAN для генерации звуков. Результаты, пол...

Перспективы внедрения больших данных в бизнесе

Большие данные — это то, что является обыденным в наши дни. Аналитика больших данных — это зачастую сложный процесс изучения больших данных для выявления информации, такой как скрытые закономерности, корреляции, рыночные тенденции и предпочтения клие...

Задать вопрос