Ключевые слова: данные, Big Data, Data Mining, распределенная система, обработка данных, процесс, система.
Информационные технологии окружают нас везде. Все сервисы, помогающие нам, генерируют огромное количество данных. Эти данные могут использоваться для различных целей — от создания оптимального предложения для покупки товара или услуги до прогнозирования необходимого количества специалистов в той или иной области.
Данных много, среди них очень много полезных сведений, которые могут помочь эффективнее решать различные задачи, как коммерческим компаниям, так и органам государственного управления и учёным. Но существует проблема — эти данные не получится просто «взять и использовать» по двум причинам: данных очень много, и очень часто эти данные не структурированы. Объём информации, доступной для анализа, может занимать сотни, тысячи, даже десятки тысяч терабайт! Для обработки таких объёмов информации требуются новое оборудование и новый подход к анализу. Вторая проблема заключается в том, что данные зачастую не имеют общей структуры, так как они сформированы в различных системах, которые не связаны между собой. Так же, эти данные могут быть представлены в виде фотографий, аудиофайлов, рисунков, текстов.
Необходимость обработки огромного количества данных, которые зачастую неструктурированные, породила новый термин в информационных технологиях — Big Data.
Введение термина «Big Data» связывают с Клиффордом Линчем, редактором журнала Nature, подготовившим к 3 сентября 2008 года специальный выпуск с темой «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?», в котором были собраны материалы о феномене взрывного роста объёмов и многообразия обрабатываемых данных
Где используется термин «Big Data»? Там, где актуальна работа с качественно большими объемами данных, где постоянно происходит увеличение скорости потока данных в организационный процесс: в экономике, банковской деятельности, производстве. В настоящее время одновременно со стремительным накоплением данных также стремительно развиваются и технологии их анализа и обработки.
Какие же задачи решаются с помощью Big Data? Это глубокий анализ данных, так называемый Data Mining, заключающийся в поиске нетривиальных закономерностей в данных для описательного или предсказательного моделирования. Например, проанализировав данные билинга, а также анкетные данные абонента, можно сделать вывод о том, что абонент вскоре перестанет пользоваться услугами связи оператора, и перейдёт к конкуренту, соответственно, можно провести к таким абонентам мероприятия по их удержанию. Используется так называемое «машинное обучение», которое основывается на эмпирическом анализе информации и последующем построении алгоритмов самообучения систем.
Несмотря на схожесть задач при работе с обычными данными и Big Dаta, существуют огромные проблемы: хранение, подготовка и обработка данных большого объёма, так как при традиционном подходе реализация таких мероприятий связана с огромными материальными и временными затратами. Если материальные затраты можно частично компенсировать за счёт новых технологий и удешевления удельной стоимости хранения, то временные затраты компенсировать невозможно, потому что со временем информация теряет актуальность и становится устаревшей.
Объем данных в сотни терабайт или петабайт не позволяет легко хранить и управлять ими с помощью традиционных реляционных баз данных. Кроме того, в случае с Big Data, традиционные подходы к организации хранения и обработки данных займут количество времени, несопоставимое с актуальностью знаний, которые из этих данных можно извлечь. Big Data обычно хранятся и обрабатываются в распределенных файловых системах.
Под распределённой системой понимают совокупность взаимосвязанных автономных компьютеров или процессоров. Это совокупность независимых процессов, взаимодействующих посредством передачи сообщений для обмена данными и координации своих действий.
В последнее время распределённые сети достигли нового витка эволюции — облачных сетей, обеспечивающие облачные вычисления. Облако может означать как программное обеспечение, так и инфраструктуру. Оно может быть приложением, доступ к которому предоставляется через Web, или сервером.
В распределённой системе каждый процесс имеет свое собственное состояние, представляемое набором данных, включающим текущие значения счетчика команд, регистров и переменных, к которым процесс может обращаться и которые может изменять. Состояние каждого процесса является полностью закрытым для других процессов.
Скорости выполнения операций разных процессов в распределенной системе различны и заранее неизвестны, а доставка отправленных сообщений может занимать непредсказуемое время. В большинстве случаев в распределенной системе содержится несколько процессоров, взаимосвязанных друг с другом при помощи средств коммуникации.
Создание и поддержка хранилищ объемом в терабайты и более стали возможны благодаря технологии организации распределенных вычислительных систем. В распределенных системах вместо хранения данных в одной файловой системе данные сохраняются и индексируются на нескольких (сотнях и даже тысячах) жестких дисках и серверах.
Зачастую на практике анализ Big Data заключается не в том, чтобы производить вычисления на всём объёме, а в возможности разделения данных на микросегменты, а затем, уже с помощью методов Data Mining и прогнозного моделирования, строить большое число описательных и предсказательных моделей для небольших групп.
Литература:
- Леонид Черняк. Большие данные — новая теория и практика (рус.) // Открытые системы. СУБД. — 2011. — № 10. — ISSN 1028–7493
- Косяков М. С. Введение в распределенные вычисления.– СПб НИУ ИТМО, 2014
- Риз Д. Облачные вычисления. СПб: БХВ-Петербург, 2011.