Что такое Big Data? Основные проблемы: хранение и управление данными | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 30 ноября, печатный экземпляр отправим 4 декабря.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №28 (214) июль 2018 г.

Дата публикации: 13.07.2018

Статья просмотрена: 1707 раз

Библиографическое описание:

Шилина, Н. В. Что такое Big Data? Основные проблемы: хранение и управление данными / Н. В. Шилина. — Текст : непосредственный // Молодой ученый. — 2018. — № 28 (214). — С. 1-3. — URL: https://moluch.ru/archive/214/52028/ (дата обращения: 16.11.2024).



Ключевые слова: данные, Big Data, Data Mining, распределенная система, обработка данных, процесс, система.

Информационные технологии окружают нас везде. Все сервисы, помогающие нам, генерируют огромное количество данных. Эти данные могут использоваться для различных целей — от создания оптимального предложения для покупки товара или услуги до прогнозирования необходимого количества специалистов в той или иной области.

Данных много, среди них очень много полезных сведений, которые могут помочь эффективнее решать различные задачи, как коммерческим компаниям, так и органам государственного управления и учёным. Но существует проблема — эти данные не получится просто «взять и использовать» по двум причинам: данных очень много, и очень часто эти данные не структурированы. Объём информации, доступной для анализа, может занимать сотни, тысячи, даже десятки тысяч терабайт! Для обработки таких объёмов информации требуются новое оборудование и новый подход к анализу. Вторая проблема заключается в том, что данные зачастую не имеют общей структуры, так как они сформированы в различных системах, которые не связаны между собой. Так же, эти данные могут быть представлены в виде фотографий, аудиофайлов, рисунков, текстов.

Необходимость обработки огромного количества данных, которые зачастую неструктурированные, породила новый термин в информационных технологиях — Big Data.

Введение термина «Big Data» связывают с Клиффордом Линчем, редактором журнала Nature, подготовившим к 3 сентября 2008 года специальный выпуск с темой «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?», в котором были собраны материалы о феномене взрывного роста объёмов и многообразия обрабатываемых данных

Где используется термин «Big Data»? Там, где актуальна работа с качественно большими объемами данных, где постоянно происходит увеличение скорости потока данных в организационный процесс: в экономике, банковской деятельности, производстве. В настоящее время одновременно со стремительным накоплением данных также стремительно развиваются и технологии их анализа и обработки.

Какие же задачи решаются с помощью Big Data? Это глубокий анализ данных, так называемый Data Mining, заключающийся в поиске нетривиальных закономерностей в данных для описательного или предсказательного моделирования. Например, проанализировав данные билинга, а также анкетные данные абонента, можно сделать вывод о том, что абонент вскоре перестанет пользоваться услугами связи оператора, и перейдёт к конкуренту, соответственно, можно провести к таким абонентам мероприятия по их удержанию. Используется так называемое «машинное обучение», которое основывается на эмпирическом анализе информации и последующем построении алгоритмов самообучения систем.

Несмотря на схожесть задач при работе с обычными данными и Big Dаta, существуют огромные проблемы: хранение, подготовка и обработка данных большого объёма, так как при традиционном подходе реализация таких мероприятий связана с огромными материальными и временными затратами. Если материальные затраты можно частично компенсировать за счёт новых технологий и удешевления удельной стоимости хранения, то временные затраты компенсировать невозможно, потому что со временем информация теряет актуальность и становится устаревшей.

Объем данных в сотни терабайт или петабайт не позволяет легко хранить и управлять ими с помощью традиционных реляционных баз данных. Кроме того, в случае с Big Data, традиционные подходы к организации хранения и обработки данных займут количество времени, несопоставимое с актуальностью знаний, которые из этих данных можно извлечь. Big Data обычно хранятся и обрабатываются в распределенных файловых системах.

Под распределённой системой понимают совокупность взаимосвязанных автономных компьютеров или процессоров. Это совокупность независимых процессов, взаимодействующих посредством передачи сообщений для обмена данными и координации своих действий.

В последнее время распределённые сети достигли нового витка эволюции — облачных сетей, обеспечивающие облачные вычисления. Облако может означать как программное обеспечение, так и инфраструктуру. Оно может быть приложением, доступ к которому предоставляется через Web, или сервером.

В распределённой системе каждый процесс имеет свое собственное состояние, представляемое набором данных, включающим текущие значения счетчика команд, регистров и переменных, к которым процесс может обращаться и которые может изменять. Состояние каждого процесса является полностью закрытым для других процессов.

Скорости выполнения операций разных процессов в распределенной системе различны и заранее неизвестны, а доставка отправленных сообщений может занимать непредсказуемое время. В большинстве случаев в распределенной системе содержится несколько процессоров, взаимосвязанных друг с другом при помощи средств коммуникации.

Создание и поддержка хранилищ объемом в терабайты и более стали возможны благодаря технологии организации распределенных вычислительных систем. В распределенных системах вместо хранения данных в одной файловой системе данные сохраняются и индексируются на нескольких (сотнях и даже тысячах) жестких дисках и серверах.

Зачастую на практике анализ Big Data заключается не в том, чтобы производить вычисления на всём объёме, а в возможности разделения данных на микросегменты, а затем, уже с помощью методов Data Mining и прогнозного моделирования, строить большое число описательных и предсказательных моделей для небольших групп.

Литература:

  1. Леонид Черняк. Большие данные — новая теория и практика (рус.) // Открытые системы. СУБД. — 2011. — № 10. — ISSN 1028–7493
  2. Косяков М. С. Введение в распределенные вычисления.– СПб НИУ ИТМО, 2014
  3. Риз Д. Облачные вычисления. СПб: БХВ-Петербург, 2011.
Основные термины (генерируются автоматически): данные, распределенная система, обработка данных, объем данных, процесс, система.


Похожие статьи

Планирование задач и ресурсов в распределённых системах

В статье рассматриваются аспекты планирования задач в системах распределенных вычислений.

BigData: анализ больших данных сегодня

В данной статье рассматривается, что такое BigData, текущее положения дел, перспективы развития.

Сравнительный анализ методологий проектирования хранилищ данных

Цель данной статьи — сравнительный анализ методологий проектирования хранилищ данных. Формирование критериев сравнения. Описание архитектур, используемых в каждой методологии.

Роль SQL в среде облачных баз данных

В статье автор рассмотрел, что такое SQL, его роль в управлении данными, а также преимущества использования SQL в облачных базах данных.

Распределенные информационные системы: особенности применения и построения

Данная статья направлена на исследование вопроса построения распределенных информационных систем. Рассмотрены методы Grid и Cloud в качестве средства построения распределенных ИС, а также технологии построения распределенных баз данных.

Использование Big Data в управлении взаимоотношениями с клиентами

В статье рассмотрено основное понятие Big Data, его основные характеристики. Так же было описано, какое место занимают большие данные в управлении взаимоотношений с клиентами, описано четкое планирование действий при внедрении Big Data в компании.

Хранимые процедуры как один из способов повышения производительности информационной системы

В данной статье рассматривается влияние механизма хранимых процедур на производительность информационной системы при работе с базами данных.

Big Data и интернет вещей (IoT): методы сбора, обработки и применения данных

В данной статье представлен анализ методов сбора, обработки и использования больших данных, получаемых от устройств IoT, а также рассмотрены вызовы, с которыми сталкиваются специалисты при работе с такими объемами информации.

Облачные вычисления. Модели развертывания систем облачных вычислений

В статье автор рассмотрел такое понятие, как «облачные вычисления» и выявил его ключевые концепции, а также рассмотрел основные модели развертывания, в которых могут быть реализованы облачные вычисления.

Моделирование данных телеметрии в Apache Cassandra

В статье авторы исследуют возможную структуру хранения данных датчиков в нереляционной распределенной базе данных Apache Cassandra.

Похожие статьи

Планирование задач и ресурсов в распределённых системах

В статье рассматриваются аспекты планирования задач в системах распределенных вычислений.

BigData: анализ больших данных сегодня

В данной статье рассматривается, что такое BigData, текущее положения дел, перспективы развития.

Сравнительный анализ методологий проектирования хранилищ данных

Цель данной статьи — сравнительный анализ методологий проектирования хранилищ данных. Формирование критериев сравнения. Описание архитектур, используемых в каждой методологии.

Роль SQL в среде облачных баз данных

В статье автор рассмотрел, что такое SQL, его роль в управлении данными, а также преимущества использования SQL в облачных базах данных.

Распределенные информационные системы: особенности применения и построения

Данная статья направлена на исследование вопроса построения распределенных информационных систем. Рассмотрены методы Grid и Cloud в качестве средства построения распределенных ИС, а также технологии построения распределенных баз данных.

Использование Big Data в управлении взаимоотношениями с клиентами

В статье рассмотрено основное понятие Big Data, его основные характеристики. Так же было описано, какое место занимают большие данные в управлении взаимоотношений с клиентами, описано четкое планирование действий при внедрении Big Data в компании.

Хранимые процедуры как один из способов повышения производительности информационной системы

В данной статье рассматривается влияние механизма хранимых процедур на производительность информационной системы при работе с базами данных.

Big Data и интернет вещей (IoT): методы сбора, обработки и применения данных

В данной статье представлен анализ методов сбора, обработки и использования больших данных, получаемых от устройств IoT, а также рассмотрены вызовы, с которыми сталкиваются специалисты при работе с такими объемами информации.

Облачные вычисления. Модели развертывания систем облачных вычислений

В статье автор рассмотрел такое понятие, как «облачные вычисления» и выявил его ключевые концепции, а также рассмотрел основные модели развертывания, в которых могут быть реализованы облачные вычисления.

Моделирование данных телеметрии в Apache Cassandra

В статье авторы исследуют возможную структуру хранения данных датчиков в нереляционной распределенной базе данных Apache Cassandra.

Задать вопрос