В статье автор формирует структуру измерений для системы оценивания криминогенной обстановки, используя OLAP технологию.
Ключевые слова: OLAP, многомерный анализ данных, компьютерная система, большие данные.
Обсерватория по изучению поведения преступников и антиобщественного поведения в муниципалитете Гуантанамо — это проект, который разрабатывается в Университете Гуантанамо уже 4 года.
Этот проект приносит пользу как Министерству труда и социального обеспечения, Ассамблее Муниципальной народной власти, Коммунистической партии Кубы, Министерству внутренних дел и его заинтересованным органам, Министерству юстиции, Прокуратуре и Муниципальному суду в Гуантанамо, так и гражданскому обществу и академическому сектору, способствуя его участию в разработке проекта в качестве основного исполнителя и участию в исследованиях и мониторинге поведения правонарушителей в провинции.
Цель этой обсерватории — проводить научные и специализированные исследования, которые способствуют пониманию и углублению знаний о причинах и/или условиях, порождающих такое поведение, и способствовать разработке стратегических планов с целью усиления профилактики и борьбы с насилием, преступностью и обеспечением безопасности.
Главной целью проекта является эффективное и своевременное управление знаниями на основе анализа информации о преступлениях и антиобщественном поведении, чтобы организовывать мероприятия и совершенствовать государственную политику с учетом особых характеристик муниципалитета Гуантанамо в социальном, экономическом и экологическом плане, а также оказывать поддержку деятельности учреждений, занимающихся обеспечением безопасности и спокойствия граждан.
Среди ожидаемых результатов проекта-разработка компьютерной системы, позволяющей лучше изучать поведение преступников и антиобщественное поведение в муниципалитете Гуантанамо.
Разрабатываемая система будет состоять из трех модулей (рис. 1.):
– Модуль для сбора данных академической обсерватории по преступности.
– Модуль для графического отображения данных академической обсерватории по преступности.
– Модуль для географической привязки данных академической обсерватории по преступности.
Настоящая работа направлена на разработку модуля для графической визуализации данных обсерватории, который позволит эффективно выявлять закономерности и тенденции, достигать лучшего понимания информации и оптимизировать процесс принятия решений в зависимости от поведения правонарушителей.
Рис. 1. Архитектура разрабатываемой системы
Основная нагрузка по выявлению зависимостей ложится на модуль графической визуализации данных. Данный модуль должен предоставлять пользователю интерфейс для взаимодействия с собранными данными, представленными в виде графиков, диаграмм и прочего. Аналитик будет использовать данный модуль для анализа информации и выявления закономерностей, чтобы быстрее создавать управляющие воздействия с целью снижения преступности [1].
При построении информационных панелей с данными, необходимо в первую очередь определить набор данных, на основании которых будет проводиться аналитика. Для выделения требуемого набора данных был использован подход, основанный на использовании технологии обработки данных OLAP (рис. 2). Данный подход хорошо применим для выбранной предметной области, поскольку преступления являются «фактами». В OLAP-системах разрозненная информация представляется в виде многомерного куба, которым можно легко манипулировать, извлекая срезами нужную информацию. Многомерный куб можно рассматривать как систему координат, осями которой являются измерения, например, Дата, Нарушение, Место. По осям откладываются значения измерений — даты, тип правонарушения, название улицы или района и т. д. В такой системе каждому набору значений измерений (например, «дата — нарушение — место) будет соответствовать ячейка, в которой можно разместить числовые показатели (то есть факты), связанные с данным набором. Таким образом, между объектами и их числовыми характеристиками будет установлена однозначная связь [2].
Рис. 2. Технология OLAP
В свою очередь, измерения представляют собой иерархию (рис. 3). В частности:
– измерение «Преступление»: категория (административное или уголовное нарушение) / Статья / Пункт статьи;
– измерение «Место»: город / район / координата;
– измерение «Дата»: год / день (формат: число.месяц).
Рис. 3. OLAP куб с измерениями согласно предметной области
Для атрибутов используются следующие форматы: категория (текстовый), Статья (числовой), пункт статьи (числовой); город (текстовый), район (текстовый), координата (числовой); Год (числовой), Месяц (текстовый), Дата (числовой). Для следующих атрибутов могут использоваться раскрывающиеся списки: категория преступления, статья, пункт статьи, город, район, год, месяц, дата.
Иерархия сущностей представлена на рисунках 4, 5 и 6.
Рис. 4. Иерархия сущности «Преступление»
Рис. 5. Иерархия сущности «Место»
Рис. 6. Иерархия сущности «Дата»
Каждый элемент куба, являющийся пресечением трех измерений, дает количественное значение, ограниченное выбранными измерениями (рис. 7).
Рис. 7. Пример получения количественных значений по критериям
Помимо получения конкретных значений в точках пересечений измерений, можно анализировать данные, собранные в OLAP-кубе, используя сечения куба — срезы. Такие срезы исходного куба представляются на экране в виде кросс таблицы (сводной таблицы) и кросс (сводной) диаграммы.
Сводная таблица отличается от обычной (плоской) таблицы наличием уровней вложенности (например, разбиение строк (столбцов) на подстроки (подстолбцы).
Помимо срезов, в процессе поиска и извлечения из гиперкуба нужной информации над его измерениями производится ряд и других действий, в том числе транспонирование, свертка, детализация.
Сечение заключается в выделении подмножества ячеек гиперкуба при фиксировании значения одного или нескольких измерений. В результате сечения получается срез или несколько срезов, каждый из которых содержит информацию, связанную со значением измерения, по которому он был построен (рис. 8 и рис. 9) [3].
Рис. 8. Результат одного простого среза
Рис. 9. Результат двойного среза
Использование OLAP кубов — удобный инструмент систематизации данных для последующего анализа, построения гипотез. Позволяет превращать набор разрозненных фактов в данные, которые могут подвергнуться количественному анализу. Помимо этого, данный инструмент позволяет делать прогнозы, используя различный математический аппарат, базирующийся на исторических данных.
В рамках прохождения стажировки в стенах МГТУ «СТАНКИН» были получены практические навыки по работе с табличным редактором (использование формул, построение графиков и др.), основы транзакционного подхода OLTP, использованию технологии обработки данных OLAP. Были проработаны вопросы используемых измерений для OLAP куба и иерархии.
Все это позволяет анализировать большие объемы данных с разных точек зрения, что поможет выявить закономерности и тенденции в данных обсерватории и повысить эффективность и скорость анализа данных, что может быть особенно полезно в контексте обработки больших объемов информации.
Литература:
- Саркисова, И. О. Практикум по информатике: учебное пособие для иностранных слушателей подготовительных факультетов, обучающихся по дополнительной общеобразовательной программе «Подготовка к поступлению в вуз» инженерно-технического и технологического профилей / И. О. Саркисова. — Москва: Станкин, 2022. — 116 c. — Текст: непосредственный.
- Зойнер, Теджада Оперативная аналитическая обработка (OLAP) / Теджада Зойнер. — Текст: электронный // Microsoft Learn: [сайт]. — URL: https://learn.microsoft.com/ru-ru/azure/architecture/data-guide/relational-data/online-analytical-processing (дата обращения: 10.07.2024).
- Орешков, В. И. Консолидация данных — ключевые понятия / В. И. Орешков. — Текст: электронный // Корпоративный менеджмент: [сайт]. — URL: https://text.ru/antiplagiat/unauthorized (дата обращения: 10.07.2024).