В статье рассмотрены основные понятия, актуальность, проблемы и цели обработки больших данных. Также приведена важность обработки больших данных для производства.
Ключевые слова: большие данные, анализ, прогнозирование.
The article discusses the main concepts, relevance, problems and goals of big data processing. The importance of big data processing for production is also shown.
Keywords: big data, analysis, forecasting.
Большие данные — это широкое понятие для наборов данных, настолько объемных и сложных, что традиционные приложения для обработки данных не способны справиться с ними. Проблемы включают в себя анализ, хранение данных, поиск, совместное использование, хранение, передачу, визуализацию и конфиденциальность информации.
Понятие часто относится к использованию прогностической аналитики или других определенных передовых методов для извлечения ценности из данных, и редко к определенному размеру набора данных. Точность в больших данных может привести к более уверенному принятию решений. А лучшие решения могут означать большую операционную эффективность, снижение затрат и снижение риска.
Анализ наборов данных позволяет находить новые корреляции, выявлять тенденции развития бизнеса, предотвращать заболевания, бороться с преступностью и так далее [2]. Ученые, специалисты в области средств массовой информации и рекламы, а также правительства регулярно сталкиваются с трудностями при работе с большими массивами данных в таких областях, как поиск в Интернете, финансы и бизнес-аналитика. Ученые сталкиваются с ограничениями в обработке информации, включая метеорологию, сложные физические симуляции, биологические и экологические исследования.
Наборы данных увеличиваются в размерах отчасти потому, что они все чаще собираются дешевыми и многочисленными мобильными устройствами для сбора информации, антеннами (дистанционное зондирование), программными журналами, камерами, микрофонами, считывателями радиочастотной идентификации и беспроводными сенсорными сетями. С 1980-х годов технологический потенциал хранения информации на душу населения в мире примерно удваивался каждые 40 месяцев.
Большинство анализов данных — это анализ данных, которые обрабатываются на персональном компьютере или ноутбуке. Системы управления реляционными базами данных, а также пакеты статистики и визуализации для настольных компьютеров часто испытывают трудности с обработкой больших данных. Вместо этого работа требует массового параллельного программного обеспечения, работающего на десятках, сотнях или даже тысячах серверов. То, что считается большими данными, варьируется в зависимости от возможностей пользователей и их инструментов, а расширяющиеся возможности делают большие данные движущейся целью. Таким образом, то, что считается «большим» в один год, станет обычным в последующие годы. Для некоторых организаций, впервые столкнувшихся с сотнями гигабайт данных, может возникнуть необходимость пересмотреть варианты управления данными. Для других это может занять десятки или сотни терабайт, прежде чем размер данных станет существенным фактором.
- Характеристики
Большие данные могут быть описаны следующими характеристиками [2]:
– Объем — количество генерируемых данных очень важно в этом контексте. Именно размер данных определяет ценность и потенциал рассматриваемых данных, а также то, могут ли они фактически рассматриваться как большие данные или нет. Само название «Большие данные» содержит термин, который связан с размером и, следовательно, характеристикой.
– Разнообразие. Следующим аспектом больших данных является их разнообразие. Это означает, что категория, к которой относятся большие данные, также является очень важным фактом, который должен знать аналитик данных. Это помогает людям, которые тщательно анализируют данные и связаны с ними, эффективно использовать данные в своих интересах и, таким образом, отстаивать важность больших данных.
– Скорость — в данном контексте относится к скорости генерации данных и обработки данных для удовлетворения потребностей и задач, стоящих на пути роста и развития.
– Изменчивость — это фактор, который может стать проблемой для тех, кто анализирует данные. Это относится к несогласованности, которая может иногда проявляться в данных, что затрудняет процесс эффективного управления данными и их обработки.
– Достоверность — качество собираемых данных может сильно отличаться. Точность анализа зависит от достоверности исходных данных.
– Сложность — управление данными может стать очень сложным процессом, особенно когда большие объемы данных поступают из нескольких источников. Эти данные должны быть связаны, чтобы иметь возможность понять информацию, которая, как предполагается, передается этими данными. Поэтому эта ситуация называется «сложностью» больших данных.
- Большие данные впроизводстве
Основываясь на исследованиях о важности больших данных [1], становится понятно, что главным преимуществом обработки больших данных для производства становится улучшение планирования поставок и качества продукции. Большие данные обеспечивают инфраструктуру для прозрачности в обрабатывающей промышленности, которая заключается в способности устранять такие неопределенности, как несоответствие производительности компонентов и доступности. Прогнозное производство как применимый подход к почти нулевому времени простоя и прозрачности требует огромного объема данных и передовых инструментов прогнозирования для систематического процесса преобразования данных в полезную информацию. Концептуальная основа прогнозного производства начинается со сбора данных, где доступны различные типы сенсорных данных, таких как акустика, вибрация, давление, ток, напряжение и данные контроллера. Огромное количество сенсорных данных в дополнение к историческим данным создают большие данные в производстве. Сгенерированные большие данные выступают в качестве входных данных для инструментов прогнозирования и превентивных стратегий, таких как прогнозирование и управление качеством.
Литература:
1. Аналитика больших данных: опрос — SpringerOpen [Электронный ресурс]. — Режим доступа: https://journalofbigdata.springeropen.com/articles/10.1186/s40537–015–0030–3 (дата обращения: 31.01.2020)
2. Большие данные на практике — BernardMarr [Электронный ресурс]. — Режим доступа: https://www.bernardmarr.com/default.asp?contentID=1076 (дата обращения: 31.01.2020)
3. Что такое большие данные? — Oracle [Электронный ресурс]. — Режим доступа: https://www.oracle.com/ru/big-data/guide/what-is-big-data.html (дата обращения: 31.01.2020)