Big Data. Особенности и роль в современном бизнесе
Автор: Коновалов Михаил Владимирович
Рубрика: 1. Информатика и кибернетика
Опубликовано в
Дата публикации: 03.07.2018
Статья просмотрена: 10585 раз
Библиографическое описание:
Коновалов, М. В. Big Data. Особенности и роль в современном бизнесе / М. В. Коновалов. — Текст : непосредственный // Технические науки: проблемы и перспективы : материалы VI Междунар. науч. конф. (г. Санкт-Петербург, июль 2018 г.). — Санкт-Петербург : Свое издательство, 2018. — С. 8-10. — URL: https://moluch.ru/conf/tech/archive/288/14418/ (дата обращения: 18.01.2025).
В статье рассматриваются основные понятия, связанные с big data, основы и принципы работы с методами и подходами больших данных. Анализируются текущие тенденции на современном рынке предоставляемых услуг и продуктов, а также в каких случаях могут применяться подобные технологии, и почему большие данные, несмотря на дороговизну, все больше набирают популярность.
Ключевые слова: big bata, большие данные, масштабируемость, транзакционная система, информационная система, анализ, программное обеспечение, БД, ИТ.
Введение
Не секрет, что на сегодняшний день объемы данных, которые требуется хранить и обрабатывать, растут в геометрической прогрессии. Например, объемы данных, которые хранятся в Интернет, увеличиваются примерно на 40 % ежегодно. Интересно, что с одной стороны, именно развитие современных информационных технологий позволяет и способствует тому, чтобы объемы сохраняемых и обрабатываемых данных постоянно росли. А с другой стороны, для работы с быстрорастущими объемами самых разнообразных видов данных требуется все больше ресурсов и более сложных программных решений. Одной из наиболее современных и быстро набирающих популярность технологий является big data. Этот термин стал применяться и быстро набирать популярность всего 8–10 лет назад. А сегодня крупнейшие мировые компании, занимающие лидирующие позиции в самых разных областях бизнес деятельности, вкладывают миллиарды долларов в развитие этого направления. В данной статье рассмотрены основные понятия, связанные с технологией big data, почему одни крупные компании готовы вкладывать огромные средства в развитие этого направления, а другие нет. Какие наиболее распространенные решения на основе big data существуют сегодня на рынке, какие есть сложности и что ждет остальной рынок ИТ с приходом новой технологии.
Понятие Big Data
Дословно big data означает большие данные. Более подробное определение можно сформулировать так. Big data — это серия подходов и методов обработки большого объема и значительного многообразия данных, которые тяжело обработать обычными способами. Целью обработки больших данных является получение новой информации. При этом данные могут быть как обработанными (структурированными), так и разрозненными (то есть неструктурированными).
Если говорить о типах данных, для которых применимы рассматриваемые методы обработки, то это может быть совершенно разная информация: документы, блоги, социальные сети, любые клиентские данные или даже информация о совершенных клиентами действиях. Также информация, поступающая от измерительных устройств и т. д. Но это все преимущественно текстовая информация. Помимо этого, обработке могут подлежать аудио и видео данные, изображения и т. д.
Но не все абсолютно данные подлежат обработке с применением технологий big data. Есть критерии, по которым можно отнести информацию и данные, пригодные к подобной обработке, т. к. не все данные могут быть пригодны для аналитики. В этих определяющих характеристиках как раз и заложено ключевое понятие больших данных. Все они умещаются в т. н. три V:
Объем (от англ. volume). Данные измеряются величиной физического объема “документа”, который подлежит анализу.
Скорость (от англ. velocity). Данные не статичны в своем развитии, а постоянно прирастают. Поэтому смысл этой характеристики не только в быстро растущих объемах данных, но и в необходимости их быстрой обработки для получения требуемых результатов.
Многообразие (от англ. variety). Данные могут быть не одноформатными. То есть могут быть разрозненными, структурированными, не структурированными или структурированными частично. И смысл заключается в том, чтобы одновременно обрабатывать различные типы данных.
Также к уже рассмотренным трем V, в разных источниках добавляют четвертую. Достоверность или правдоподобность (от англ. veracity). И даже пятую жизнеспособность или ценность (от англ. viability или value). В различных вариантах можно говорить о 7V, но для базового понимания достаточно трех.
Принципы работы big data
Исходя из определения big bata, можно сформулировать три основных принципа работы с такими данными:
Горизонтальная масштабируемость. Поскольку объем данных постоянно и стремительно растет и информации может быть сколь угодно много, то система, которая подразумевает обработку этих данных, должна быть расширяемой. К примеру, если 2 раза вырос объём данных, то должна быть возможность увеличить мощность аппаратного обеспечения в 2 раза в кластере и система продолжит работать без потерь в производительности.
Отказоустойчивость. Рассмотренный выше принцип горизонтальной масштабируемости подразумевает, что машин в кластере может быть много. Например, в компании Yahoo кластер насчитывает более 40000 машин. При этом допускается, что часть этих машин будет регулярно выходить из строя. Методы работы с большими данными должны учитывать вероятность таких сбоев и поддерживать работоспособность системы без каких-либо значимых последствий.
Локальность данных. В крупных распределённых системах, используемые данные хранятся на большом количестве машин. Но если данные находятся физически на одном сервере, а обрабатываются на другом, то ресурсы, требуемые на передачу данных, могут превысить расходы на обработку данных. Поэтому при проектировании решений на big data одним из важнейших принципов является принцип локальности данных, суть которого заключается в том, чтобы данные обрабатывались и хранились на одной и той же машине.
Особенности применения и роль в современном бизнесе
Изучая многообразие современных технологий хранения и обработки данных, возникает логичный вопрос. Для чего придуманы методы и подходы, называемые big data? Что в этом уникального, как можно использовать информацию, обработанную с помощью данных технологий и почему компании готовы вкладывать в развитие больших данных огромные средства?
Во-первых, в отличие от big data, обычные базы данных (БД), не могут хранить и обрабатывать такие огромные объемы данных (сотни и тысячи терабайт). И речь даже не об аналитике, а только лишь о хранении данных. В классическом понимании БД предназначена для быстрой обработки (хранение, изменение) относительно небольших объемов данных или для работы с большим потоком записей небольшого размера, т. е. транзакционная система. С помощью big data как раз решается эта основная задача — успешное хранение и обработка больших объемов данных.
Во-вторых, в big data структурируются разнотипные сведения, которые поступают из различных источников (изображения, фото, видео, аудио и текстовые документы) в один единый, понятный и приемлемый для дальнейшей работы вид.
В-третьих, в big data происходит формирование аналитики и построение точных прогнозов на основании полученной и обработанной информации.
Для чего это нужно и где может быть применено на практике? Для наглядности и для того, чтобы сформулировать ответ простыми словами, рассмотрим на примере типичных бизнес-задач в маркетинге. Обладая такой информацией, как:
‒ полное понимание о своей компании и бизнесе, в том числе с точки зрения статистической информации и цифр;
‒ подробные данные о конкурентах;
‒ новая и подробная информация о своих клиентах;
‒ все это позволит преуспеть в привлечении новых клиентов, значительно повысить уровень предоставляемого сервиса текущим клиентам, лучше понять рынок и своих конкурентов, а значит вырваться вперед за счет преобладания над ними.
Учитывая вышеперечисленные результаты, которых позволяет достигнуть big data, и объясняет стремление компаний, пытающихся завоевать рынок, вкладываться в эти современные методы обработки данных сегодня, чтобы получить увеличение продаж и уменьшение издержек завтра. А если более конкретно, то:
‒ увеличение дополнительных продаж и кросс продаж за счет лучшего знания предпочтений клиентов;
‒ поиск популярных товаров и причин — почему их покупают или наоборот;
‒ усовершенствование предоставляемой услуги или продукта;
‒ повышение качества обслуживания клиентов;
‒ повышение лояльности и клиентоориентированности;
‒ предупреждение мошенничества (больше актуально для банковской сферы);
‒ снижение лишних расходов.
Один из наиболее наглядных и популярных на сегодняшний день примеров, о котором можно прочитать во многих источниках сети Интернет, связан с компанией Apple, которая собирает данные о своих пользователях с помощью производимых устройств: телефон, планшет, часы, компьютер. Именно из-за наличия такой системы корпорация владеет огромным количеством информации о своих пользователях и в дальнейшем использует ее для получения прибыли. И подобных примеров на сегодняшний день можно найти целое множество.
Краткий обзор инструментов big data
Учитывая огромные объемы информации, которые необходимо хранить обрабатывать в процессе работы, следует заметить, что подобные манипуляции не могут выполняться на простых жестких дисках. А программное обеспечение, которое структурирует и анализирует накапливаемые данные — это отдельная интеллектуальная собственность и в каждом отдельном случае является авторской разработкой. При этом можно отметить наиболее популярные на сегодняшний день инструменты, на основе которых создаются такие решения:
‒ Hadoop & MapReduce;
‒ NoSQL базы данных;
‒ Инструменты класса Data Discovery.
Анализу особенностей и отличий перечисленных инструментов, а также обзору решений, которые могут предлагаться на основе данных инструментариев может быть посвящена отдельная статья. Но, в качестве примера, хотелось бы привести модель, которая, пожалуй, является на сегодняшний день одним из лидеров на рынке — это Oracle Big Data Appliance X5–2. Ориентировочная стоимость такой системы в максимальной комплектации может достигать 30 миллионов рублей за 1 стойку. Конечно, речь идет о промышленных системах премиум класса. Тем не менее, приведенный пример позволяет оценить порядок расходов, которые потребуются на реализацию подобных решений в компании. И это еще без учета узкоспециализированных специалистов и дополнительной ИТ инфраструктуры. Поэтому говорить о применении больших данных, например, в малом бизнесе не приходится.
Заключение
В современном бизнесе, практически не зависимо от специфики и индустрии, все более явно прослеживается ценность и высокая роль информации о потенциальных и текущих клиентах компании, о ее конкурентах и грядущих тенденциях на рынке. Все более это становится необходимыми условиями для того, чтобы сохранить конкуренцию в современном мире. В связи с этим и уже существующими примерами успеха внедрения big data крупными компаниями, которыми наполнен Интернет, можно предположить, что роль больших данных со временем будет только расти. Благодаря этому компании будут е лучше знать и понимать потребности своих клиентов и предлагать им наиболее релевантные и подходящие решения, а потребители смогут наслаждаться продуктами и услугами, которые наилучшим образом подходят именно им.
Литература:
- Виктор Майер-Шенбергер, Кеннет Кукьер. Большие данные. Революция, которая изменит то, как мы живём, работаем и мыслим = Big Data. A Revolution That Will Transform How We Live, Work, and Think / пер. с англ. Инны Гайдюк. — М.: Манн, Иванов, Фербер, 2014.
- Академия BIG DATA: Введение в аналитику больших массивов данных: Информация // Национальный Открытый Университет «ИНТУИТ». URL: https://www.intuit.ru/studies/courses/12385/1181/info (дата обращения: 30.06.2018).
- Аналитический обзор рынка Big Data // Хабр. URL: https://habr.com/company/moex/blog/256747/ (Дата обращения: 30.06.2018).
- Streamline Your Big Data Platform // ORACLE. URL: https://www.oracle.com/big-data/index.html (Дата обращения: 30.06.2018)
- MapReduce and Teradata Aster SQL-MapReduce // Teradata. URL: https://www.teradata.com/products-and-services/Teradata-Aster/teradata-aster-sql-mapreduce (Дата обращения: 30.06.2018)
Ключевые слова
анализ, программное обеспечение, масштабируемость, информационная система, ИТ, Большие данные, big bata, транзакционная система, БДПохожие статьи
Перспективы внедрения больших данных в бизнесе
Большие данные — это то, что является обыденным в наши дни. Аналитика больших данных — это зачастую сложный процесс изучения больших данных для выявления информации, такой как скрытые закономерности, корреляции, рыночные тенденции и предпочтения клие...
Бизнес-аналитика и большие данные
Данная научная статья рассматривает роль и влияние больших данных в сфере бизнес-аналитики. С развитием технологий и увеличением объемов данных, предприятия сталкиваются с потребностью в эффективных инструментах для анализа и интерпретации информации...
Информационная безопасность в малом и среднем бизнесе. Алгоритмы и действия
В статье представлен алгоритм по повышению информационной безопасности в компаниях среднего и малого бизнеса. Рассмотрены основные угрозы, возникающие в различных предприятиях, связанных с интернет преступниками и методы их предотвращения. В анализе ...
Технические инновации и их значение для экономики
В статье приводится понятие, общая характеристика инновационных разработок в сфере экономики. Обосновывается преимущества использования технологии Блокчейн, раскрывается содержание этого понятия. Аргументировано, что применение децентрализованной баз...
Большие данные (Big Data) и наука о данных (Data Science): прогрессивные тренды современности
В статье рассматриваются основные аспекты, получившего широкое распространение в последнее время, феномена больших данных. Отдельное внимание уделено науке о данных, появление которой явилось следствием геометрического роста информации в современном ...
Библиотеки инфраструктуры информационных технологий
В статье обосновываются проблемы повышения эффективности бизнеса за счет внедрения в организацию современных ITIL-технологий, которые используются не только в управлении, но и в транспортно-логистических операциях. Так как данное явление в российской...
Особенности проектирования и разновидности хранилищ данных
Статья посвящена последним достижениям в области таких современных и актуальных на сегодняшний день технологий, как хранилища данных. Рассматриваются основные особенности проектирования хранилищ данных, их роль в современном мире, преимущества исполь...
Сбор денег: новые возможности через информационные технологии в Интернете
В статье представлена информация о технологии по сбору денег и ее активному вхождению в Интернет. Рассмотрен исторический аспект сбора денег и новые направления его развития в глобальной сети. Исследованы особенности и характеристики, которые предста...
Смешанное обучение: преимущества, ограничения и опасения
В статье проводится анализ метода смешанного обучения, его преимуществ и недостатков; освещаются проблемы, возникающие при реализации данного метода. На метод смешанного обучения возлагается много надежд, и он призван решить комплекс задач, связанных...
Стратегия деятельности коммерческого банка на основе внедрения методов интеллектуального анализа
В статье рассматривается использование искусственного интеллекта и интеллектуального анализа больших данных (Big Data) для улучшения клиентского опыта и адаптации маркетинговых стратегий. Анализ больших данных включает в себя извлечение полезной инфо...
Похожие статьи
Перспективы внедрения больших данных в бизнесе
Большие данные — это то, что является обыденным в наши дни. Аналитика больших данных — это зачастую сложный процесс изучения больших данных для выявления информации, такой как скрытые закономерности, корреляции, рыночные тенденции и предпочтения клие...
Бизнес-аналитика и большие данные
Данная научная статья рассматривает роль и влияние больших данных в сфере бизнес-аналитики. С развитием технологий и увеличением объемов данных, предприятия сталкиваются с потребностью в эффективных инструментах для анализа и интерпретации информации...
Информационная безопасность в малом и среднем бизнесе. Алгоритмы и действия
В статье представлен алгоритм по повышению информационной безопасности в компаниях среднего и малого бизнеса. Рассмотрены основные угрозы, возникающие в различных предприятиях, связанных с интернет преступниками и методы их предотвращения. В анализе ...
Технические инновации и их значение для экономики
В статье приводится понятие, общая характеристика инновационных разработок в сфере экономики. Обосновывается преимущества использования технологии Блокчейн, раскрывается содержание этого понятия. Аргументировано, что применение децентрализованной баз...
Большие данные (Big Data) и наука о данных (Data Science): прогрессивные тренды современности
В статье рассматриваются основные аспекты, получившего широкое распространение в последнее время, феномена больших данных. Отдельное внимание уделено науке о данных, появление которой явилось следствием геометрического роста информации в современном ...
Библиотеки инфраструктуры информационных технологий
В статье обосновываются проблемы повышения эффективности бизнеса за счет внедрения в организацию современных ITIL-технологий, которые используются не только в управлении, но и в транспортно-логистических операциях. Так как данное явление в российской...
Особенности проектирования и разновидности хранилищ данных
Статья посвящена последним достижениям в области таких современных и актуальных на сегодняшний день технологий, как хранилища данных. Рассматриваются основные особенности проектирования хранилищ данных, их роль в современном мире, преимущества исполь...
Сбор денег: новые возможности через информационные технологии в Интернете
В статье представлена информация о технологии по сбору денег и ее активному вхождению в Интернет. Рассмотрен исторический аспект сбора денег и новые направления его развития в глобальной сети. Исследованы особенности и характеристики, которые предста...
Смешанное обучение: преимущества, ограничения и опасения
В статье проводится анализ метода смешанного обучения, его преимуществ и недостатков; освещаются проблемы, возникающие при реализации данного метода. На метод смешанного обучения возлагается много надежд, и он призван решить комплекс задач, связанных...
Стратегия деятельности коммерческого банка на основе внедрения методов интеллектуального анализа
В статье рассматривается использование искусственного интеллекта и интеллектуального анализа больших данных (Big Data) для улучшения клиентского опыта и адаптации маркетинговых стратегий. Анализ больших данных включает в себя извлечение полезной инфо...