ETL: обзор и роль в развитии компаний | Статья в сборнике международной научной конференции

Отправьте статью сегодня! Журнал выйдет 23 ноября, печатный экземпляр отправим 27 ноября.

Опубликовать статью в журнале

Автор:

Рубрика: 1. Информатика и кибернетика

Опубликовано в

VII международная научная конференция «Технические науки в России и за рубежом» (Москва, ноябрь 2017)

Дата публикации: 27.10.2017

Статья просмотрена: 6591 раз

Библиографическое описание:

Коновалов, М. В. ETL: обзор и роль в развитии компаний / М. В. Коновалов. — Текст : непосредственный // Технические науки в России и за рубежом : материалы VII Междунар. науч. конф. (г. Москва, ноябрь 2017 г.). — Москва : Буки-Веди, 2017. — С. 31-34. — URL: https://moluch.ru/conf/tech/archive/286/13149/ (дата обращения: 15.11.2024).



В статье рассматриваются понятия ETL, ETL-инструмент, а также OLTP и OLAP. Проводится краткий обзор ETL-инструментов от крупнейших мировых компаний разработчиков их роль в современном мире и развитии бизнеса крупных компаний.

Ключевые слова: ETL, ETL-инструменты, хранилище данных, ХД, DWH, OLTP, OLAP, анализ, бизнес-процесс, бизнес-анализ, ИТ

Введение

Последние десятилетия технологии и ИТ-индустрия в частности развиваются по экспоненте, оказывая влияние не только на смежные, но и, пожалуй, на все виды деятельности человека. В геометрической прогрессии растут объемы обрабатываемых данных, разнообразие инструментариев для создания и усовершенствования систем и приложений, используемых в промышленных целях.

Разнообразие программного обеспечения направлено, с одной стороны на упрощение ручного труда, автоматизацию бизнес-процессов, сокращение издержек и расходов компаний, но, вместе с этим значительно усложняется ИТ-инфраструктура и архитектура системного ландшафта в организациях. Это бросает вызовы ИТ-персоналу и требует все более высокой квалификации от специалистов, ответственных за информационные системы компании.

Вместе с тем растет количество источников и потребителей данных. Это обусловлено не только тенденциями внутри компании, но и увеличением количества внешних провайдеров информации, таких как, например, web-ресурсы государственных органов или коммерческих организаций, агрегирующих и предоставляющих справочные данные юридическим лицам.

Понятие ETL

Данные, загружаемые из каких-либо источников, как правило, требуется не просто хранить внутри одной системы, а передавать для обработки и анализа в другие системы. Для этого существуют, так называемые, хранилища данных (ХД или DWH — Data Warehouse). ХД — это базы данных для сбора и обработки различной информации, разработанные и ориентированные специально для подготовки отчетов и бизнес-анализа, с целью поддержки принятия решений на предприятии. [1]

Из-за множества используемых технологий, различий в системах с точки зрения архитектуры и структуры данных, при передаче информации в системы потребители, ее необходимо преобразовывать.

Таким образом, учитывая вышесказанное, можно выделить три этапа в процессе работы с данными:

  1. Извлечение (Extract),
  2. Преобразование (Transform),
  3. Загрузка (Load).

Эти три этапа и составляют аббревиатуру ETL — одного из основных процессов в управлении данными при получении их из множества систем источников и загрузки в ХД, с целью получения достоверной информации (см. Рис.1).

Рис.1. ETL-процесс

Рассмотрим подробнее выделенные этапы:

  1. Извлечение. На этом этапе данные извлекаются из систем источников без преобразований (как есть, произвольного качества) и загружаются в промежуточную область.
  2. Преобразование. Данные группируются, преобразуются к формату, соответствующему структуре хранилища данных. Выполняются очистка, проверка данных на полноту, формируются отчеты об ошибках для дальнейшего исправления.
  3. Загрузка. Данные загружаются из промежуточной области в хранилище данных. Причем загружается не вся информация, а только новая или измененная части, с поддержкой версионности. Это необходимо для возможности получить актуальную версию записи на произвольную дату.

Часто ETL является промежуточным слоем между OLTP системами и OLAP системой или хранилищем данных.

OLTP (Online Transaction Processing) — понятие относится к транзакционным системам сравнительно небольшого размера, обрабатывающих большие потоки данных в реальном времени.

OLAP (Online analytical processing) — понятие относится к системам для динамического построения отчетов и документов, составления сложных запросов к базе данных для глубокого анализа.

Краткие сравнительные характеристики OLTP и OLAP систем приведены в Таблица 1.

Таблица 1

Сравнительные ихарактеристики OLTP иOLAP [2]

Характеристика

OLTP

OLAP

1

Источник данных

Деятельность компании

Внутренние и внешние данные

2

Объем данных

Как правило, необходимо за последние несколько месяцев

На порядки больше, чем для OLTP-систем. Необходимо, как правило, за несколько лет.

3

Качество данных

Эквивалентная информация может быть в разных форматах, и даже противоречивая

Единообразная, согласованная и очищенная информация.

4

Набор запросов

Для конкретных задач и выборки относительно небольшого объема данных. Набор может быть заранее известен.

Заранее предсказать набор невозможно (нерегламентированные запросы). Выбираются большие объемы данных.

5

Изменчивость

Сильная изменчивость, данные не упорядочены

Малая изменчивость, упорядоченность данных

6

Защита

Защита на уровне таблиц

Большая грануляция защиты из-за большой критичности для компании

ETL-инструменты

Вообще, для реализации ETL-процесса можно использовать большинство современных языков программирования. Но, если требуется не просто выполнить разовую конвертацию данных, а речь идет о реализации постоянного процесса интеграции данных из нескольких разнородных источников, то имеет смысл рассмотреть использование специализированных инструментов, облегчающих автоматизацию типовых операций, поддержку основных используемых форматов и наиболее распространенных информационных систем. При этом следует принимать во внимание параметры масштабируемости, скорости и расширяемости таких инструментов.

Наиболее распространенными разработчиками ETL-инструментов на сегодняшний день можно назвать Oracle, Informatica и IBM. Как правило, системы таких производителей перекрывают потребности бизнеса настолько, что большинство клиентов не используют и половины имеющегося функционала. Поэтому имеет смысл выбирать ETL-инструменты, основываясь на требуемых задачах решения и имеющейся платформе предприятия.

К примеру, если в компании доминируют системы от компании IBM — то можно рассмотреть решение Data Stage от IBM. С приобретением в 2008 году канадской компании Cognos, у IBM появилось и второе решение Data Manager, к одному из достоинств которого можно отнести наличие OLAP, чего нет у ряда других систем. Это позволяет обходиться без построения сложных ХД, что сильно экономит средства компании.

При использовании Unix/Linux подобных операционных систем часто используются решения от Informatica или Oracle. К преимуществам решений PowerCenter и PowerMart от Informatica можно отнести следование за новыми технологиями, регулярные релизы и, как следствие, наибольший набор инструментов для интеграции данных. Гибкости системе добавляет возможность программировать на языке разработки Java. [3,4] Для Oracle Data Integrator характерна возможность масштабирования от небольшой организации до целого предприятия, наличие специальных технологии для манипулирования большими объемами данных. Также для поддержки разработчиков в системе имеются специальные модули знаний для многих других систем, содержащие шаблоны кода. [5]

Если в компании преобладают системы от компании Microsoft, то ETL могут быть построены на продукте SSIS от Microsoft. Данный продукт имеет развитый пользовательский интерфейс, предоставляет широкую библиотеку стандартных компонентов потоков данных. В дополнении к ним, SSIS предоставляет инфраструктуру для создания пользовательских компонентов. Это позволяет компаниям разрабатывать узкоспециализированные высокоэффективные компоненты обработки данных. Но продукт не является кроссплатформенным и ориентирован на взаимодействие с продуктами Miscosoft. [6]

Заключение

Сегодня ETL-системы рассматриваются не только как инструмент для создания отчетов или исправления ошибок, которые могут возникать на уровне ввода, переноса данных, по причине системных ошибок или различий в данных между смежными ИТ-системами. Эти задачи действительно крайне важны для бизнеса, т. к. при наличии огромного количества различных систем в компании с противоречивыми данными, критичной является возможность получать достоверные и качественные данные, приведенные к единой системе значений и детализации. Но в понятие ETL-система сегодня вкладывается значительно больший смысл, т. к. решаемые задачи стали одними из наиболее приоритетных для компаний. Бизнес осознал необходимость внедрения подобных интеллектуальных систем для принятия своевременных решений и успешного ведения конкурентной борьбы. А это значит, что разработчики и интеграторы подобных решений и впредь должны все больше стремиться к тому, чтобы предлагать бизнесу новые инновационные решения с еще более развитым и интеллектуальным функционалом.

Литература:

  1. Ralph Kimball, Joe Caserta. The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data. — John Wiley & Sons, 2004.
  2. Проектирование баз данных: Распределенные базы и хранилища данных. Лекция 2: Многомерное представление данных. Общая схема организации хранилища данных. Характеристики, типы и основные отличия технологий OLAP и OLTP. Схемы звезда и снежинка. Агрегирование // Национальный Открытый Университет «ИНТУИТ». URL: http://www.intuit.ru/studies/professional_retraining/953/courses/214/lecture/5508/ (дата обращения: 23.10.2017).
  3. PowerCenter // DIS Group. URL: http://www.dis-group.ru/products/informatica/powercenter/ (дата обращения: 23.10.2017)
  4. Informatica Basic Features- Power Centre,Power Mart // DATAWAREHOUSE CONCEPTS. URL: http://dwhlaureate.blogspot.ru/2012/08/informatica-basic-features.html (дата обращения: 23.10.2017).
  5. Oracle Data Integrator Enterprise Edition // ORACLE. URL: http://www.oracle.com/us/products/middleware/data-integration/odi-ee-11g-ds-168065.pdf (Дата обращения: 23.10.2017).
  6. Бергер А. Б. Microsoft SQL Server 2005 Analysis Services. OLAP и многомерный анализ данных / Бергер А. Б., Горбач И. В., Меломед Э. Л., Щербинин В. А., Степаненко В. П. / Под общ. Ред. А. Б. Бергера, И. В. Горбач. — СПб.: БХВ-Петербург, 2007.
  7. Основные функции ETL-систем // Хабрахабр. URL: https://habrahabr.ru/post/248231/ (Дата обращения: 23.10.2017).
Основные термины (генерируются автоматически): OLAP, OLTP, ETL, IBM, система, DWH, SSIS, данные, хранилище данных, компания.

Похожие статьи

Обзор и сравнительный анализ промышленных хранилищ данных и баз данных

В статье рассматриваются такие понятия, как хранилище данных и база данных. Проводится сравнительный анализ рассматриваемых технологий, их назначение и ключевые отличия в промышленной эксплуатации. Также представлен краткий обзор современных решений ...

Обзор различных средств фаззинга как инструментов динамического анализа программного обеспечения

В данной статье описывается суть динамического анализа ПО на основе инструментов фаззинга, обзор и сценарии применения различных инструментов, реализующих данный подход. Все инструменты, представленные в статье, используются в цикле проверки ПО обесп...

Перспективы внедрения больших данных в бизнесе

Большие данные — это то, что является обыденным в наши дни. Аналитика больших данных — это зачастую сложный процесс изучения больших данных для выявления информации, такой как скрытые закономерности, корреляции, рыночные тенденции и предпочтения клие...

Бизнес-аналитика и большие данные

Данная научная статья рассматривает роль и влияние больших данных в сфере бизнес-аналитики. С развитием технологий и увеличением объемов данных, предприятия сталкиваются с потребностью в эффективных инструментах для анализа и интерпретации информации...

Big Data. Особенности и роль в современном бизнесе

В статье рассматриваются основные понятия, связанные с big data, основы и принципы работы с методами и подходами больших данных. Анализируются текущие тенденции на современном рынке предоставляемых услуг и продуктов, а также в каких случаях могут при...

Определение классов информационных систем электронного бизнеса в логистических процессах и использование стандартов GS1 в цепях поставок

В статье определены классы информационных систем электронного бизнеса в логистических процессах, описаны их ключевые особенности, рассмотрен стандарт GS1, применяемый в цепях поставок и представлена классификация стандартов, входящих в GS1.

Исследование проблем инфраструктурных цифровых платформ

В статье рассматривается модель данных, которая является структурированным форматом данных для описания объекта или явления. Модель данных используется в цифровых платформах для обработки, анализа и поиска информации. Каждый элемент информации размещ...

Особенности проектирования и разновидности хранилищ данных

Статья посвящена последним достижениям в области таких современных и актуальных на сегодняшний день технологий, как хранилища данных. Рассматриваются основные особенности проектирования хранилищ данных, их роль в современном мире, преимущества исполь...

Моделирование бизнес-процессов в условиях антикризисного управления

В данной статье представлены и проанализированы современные методы и подходы создания новых бизнес-процессов в условиях антикризисного управления. Даны характеристики и определения основных понятий и терминов. Наглядно представлен каждый из методов и...

Методы обработки видеоизображений с помощью языка программирования Python

В статье рассматриваются современные методы обработки видеоизображений с использованием языка программирования Python. Описываются ключевые библиотеки, такие как OpenCV и scikit-image, а также их применение для выполнения задач, включая распознавание...

Похожие статьи

Обзор и сравнительный анализ промышленных хранилищ данных и баз данных

В статье рассматриваются такие понятия, как хранилище данных и база данных. Проводится сравнительный анализ рассматриваемых технологий, их назначение и ключевые отличия в промышленной эксплуатации. Также представлен краткий обзор современных решений ...

Обзор различных средств фаззинга как инструментов динамического анализа программного обеспечения

В данной статье описывается суть динамического анализа ПО на основе инструментов фаззинга, обзор и сценарии применения различных инструментов, реализующих данный подход. Все инструменты, представленные в статье, используются в цикле проверки ПО обесп...

Перспективы внедрения больших данных в бизнесе

Большие данные — это то, что является обыденным в наши дни. Аналитика больших данных — это зачастую сложный процесс изучения больших данных для выявления информации, такой как скрытые закономерности, корреляции, рыночные тенденции и предпочтения клие...

Бизнес-аналитика и большие данные

Данная научная статья рассматривает роль и влияние больших данных в сфере бизнес-аналитики. С развитием технологий и увеличением объемов данных, предприятия сталкиваются с потребностью в эффективных инструментах для анализа и интерпретации информации...

Big Data. Особенности и роль в современном бизнесе

В статье рассматриваются основные понятия, связанные с big data, основы и принципы работы с методами и подходами больших данных. Анализируются текущие тенденции на современном рынке предоставляемых услуг и продуктов, а также в каких случаях могут при...

Определение классов информационных систем электронного бизнеса в логистических процессах и использование стандартов GS1 в цепях поставок

В статье определены классы информационных систем электронного бизнеса в логистических процессах, описаны их ключевые особенности, рассмотрен стандарт GS1, применяемый в цепях поставок и представлена классификация стандартов, входящих в GS1.

Исследование проблем инфраструктурных цифровых платформ

В статье рассматривается модель данных, которая является структурированным форматом данных для описания объекта или явления. Модель данных используется в цифровых платформах для обработки, анализа и поиска информации. Каждый элемент информации размещ...

Особенности проектирования и разновидности хранилищ данных

Статья посвящена последним достижениям в области таких современных и актуальных на сегодняшний день технологий, как хранилища данных. Рассматриваются основные особенности проектирования хранилищ данных, их роль в современном мире, преимущества исполь...

Моделирование бизнес-процессов в условиях антикризисного управления

В данной статье представлены и проанализированы современные методы и подходы создания новых бизнес-процессов в условиях антикризисного управления. Даны характеристики и определения основных понятий и терминов. Наглядно представлен каждый из методов и...

Методы обработки видеоизображений с помощью языка программирования Python

В статье рассматриваются современные методы обработки видеоизображений с использованием языка программирования Python. Описываются ключевые библиотеки, такие как OpenCV и scikit-image, а также их применение для выполнения задач, включая распознавание...