В процессе эксплуатации компьютерных систем важно обеспечивать быстрое и корректное реагирование на инциденты информационной безопасности, для этого существуют различные автоматизированные инструменты. С учетом развития методов искусственного интеллекта и механизмов машинного обучения, их применение может позволить повысить качество систем защиты информации. В данной статье рассматриваются сценарии и особенности использования технологий машинного обучения в задачах обеспечения информационной безопасности предприятия.
Ключевые слова: информационная безопасность, компьютерные системы, машинное обучение, искусственный интеллект, защита данных, нейронные сети.
Алгоритмы машинного обучения на сегодняшний день применяются во многих областях деятельности. При интеграции алгоритмов машинного обучения и программных средств, используемых для защиты корпоративных данных возможно повышение качества управления системой информационной безопасности.
К основным задачам машинного обучения относятся:
- Классификация
- Кластеризация
- Регрессия
Примером задачи классификации в контексте управления информационной безопасностью предприятия, может являться определение типа возможной атаки на основе анализа сетевого трафика в режиме реального времени.
В общем случае выделяют следующие классы атак на информационные системы:
— Сетевая разведка
— Парольные атаки
— Атаки типа Man-in-the-Middle
— Атаки на уровне приложений
— Отказ в обслуживании
Примером сетевой разведки может являться сканирование TCP/UDP портов целевых узлов с целью выявления развернутых сервисов, их версий, и возможных уязвимостей служб.
Парольные атаки предполагают подбор строки пароля злоумышленником с целью авторизации в информационной системе. Может выполняться полный перебор возможных комбинаций, либо перебор по словарю строк наиболее часто встречающихся паролей. Для предотвращения данного типа атак необходима качественная разработка политики использования паролей на предприятии и использование многофакторной аутентификации.
Атаки Man-in-the-Middle основаны на том, что при передаче данных между двумя сторонами, третья сторона прослушивает проходящий трафик. Вариантом защиты от подобных атак является применение надежных алгоритмов шифрования данных в применяемых сетевых приложениях.
Атаки на уровне приложений вызваны уязвимостью обработки данных и запросов в модулях сетевых приложений. Для их предотвращения необходимо выполнять установку наиболее актуальных версий программного обеспечения и максимально ограничивать доступ к ресурсам информационных систем [3]. Должна быть утверждена политика обновления программного обеспечения, используемого в информационной инфраструктуре предприятия.
Отказ в обслуживании может происходить по причине перегрузки каналов связи между серверами, на которых размещены информационные системы и пользователями, и перегрузкой серверных приложений большим числом запросов.
Формальная постановка математической задачи классификации может быть представлена следующем образом. Пусть X — множество характеристик объектов, Y — множество определенных классов. Существует неизвестная целевая зависимость — отображение , значения которой известны только на объектах конечной обучающей выборки . Требуется построить алгоритм который относит объект к определенному классу с заданной степенью точности.
В контексте рассматриваемой задачи вектор X представляет из себя набор характеристик анализируемого сетевого трафика в определенный момент времени. Y — множество возможных атак на информационную инфраструктуру предприятия.
Показателями входного вектора характеристик трафика могут быть:
- TCP/UDP-порт источника
- TCP/UDP-порт получателя
- IP-адрес источника
- IP-адрес получателя
- Длительность соединения
- Значение поля TTL IP-пакета
- Значение поля ToS (Type of Service) в заголовке IP-пакета
- Объем переданного трафика
- Содержимое данных протокола прикладного уровня
- Значения полей заголовка протоколов прикладного уровня
Задача кластеризации в отличие от классификации основана на том, что конкретные классы исследуемого набора данных изначально не определены [4, 5].
Задача регрессионного анализа может применяться для оценки прогнозного значения риска информационной безопасности в зависимости от параметров текущего состояния информационной системы.
К применяемым моделям машинного обучения относятся:
— нейронные сети
— деревья решений
— линейная и логистическая регрессия.
В таблице 1 указаны ключевые особенности каждой из перечисленных моделей.
Таблица 1
Ключевые особенности моделей машинного обучения
Модель машинного обучения |
Ключевые особенности |
Нейронная сеть |
Обучение нейронной сети происходит через корректировку весовых коэффициентов связей между нейронами |
Деревья решений |
Преимуществом данной модели является простая интерпретация результата работы |
Регрессионная модель |
Применяется наиболее часто при анализе временных рядов в задачах прогнозирования |
Отдельно следует выделить оценку разработанной модели. Основными используемыми метриками являются:
- Коэффициент детерминации
- Средняя квадратичная ошибка
- Средняя абсолютная процентная ошибка
- Средняя абсолютная масштабированная ошибка
Используя указанные метрики, возможно выполнять сравнение нескольких разработанных альтернативных моделей и выбирать из них лучшие для решаемой задачи.
Перспективным направлением разработки указанных технологий является построение ансамблей моделей машинного обучения. Данная концепция предполагает совместное использование нескольких моделей одновременно. Ансамбли моделей делятся на несколько типов.
- Однородный ансамбль — состоит из моделей одного типа
- Ансамбль, состоящий из моделей разного типа
Для определения результата работы ансамбля применяются следующие типы комбинирования:
— Голосование. Как правило, применятся в задачах классификации
— Взвешенное голосование. Каждая из моделей машинного обучения в ансамбле имеет свой вес.
— Средняя оценка результата. Также может быть как взвешенной, так и невзвешенной.
Несмотря на большую точность аналитики при использовании ансамблей машинного обучения в ряде прикладных задач, указанный подход имеет ряд недостатков, к которым относиться сложность интерпретации итоговых результатов и более низкая прозрачность такой модели для аналитика.
Таким образом, были рассмотрены основные задачи и модели машинного обучения в контексте управления информационной безопасностью. Выделены основные типы атак и информационные системы. Проанализированы концепции использования ансамблей моделей машинного обучения. Перечисленные модели машинного обучения могут быть интегрированы в такие виды систем как SIEM и IPS/IDS для реагирования и блокировки возможных кибератак.
Литература:
- Добродеев, А. Ю. Показатели информационной безопасности как характеристика (мера) соответствия сетей и организаций связи требованиям информационной безопасности / А. Ю. Добродеев // Труды ЦНИИС. Санкт-Петербургский филиал. — 2020. — Т. 2, № 10. — С. 50–78. — EDN NRYSZL.
- Зефиров, С. Л. Оценка информационной безопасности объекта при проведении аудита информационной безопасности / С. Л. Зефиров, А. Ю. Щербакова // Информационные системы и технологии ИСТ-2020: Сборник материалов XXVI Международной научно-технической конференции, Нижний Новгород, 24–28 апреля 2020 года / Нижегородский государственный технический университет им. Р. Е. Алексеева. — Нижний Новгород: Нижегородский государственный технический университет им. Р. Е. Алексеева, 2020. — С. 517–522. — EDN XZASEW.
- Рыленков, Д. А. Управление доступом к информационным ресурсам организации на основе анализа структуры бизнес-процессов / Д. А. Рыленков, С. Н. Калашников // Наука и молодежь: проблемы, поиски, решения: труды Всероссийской научной конференции студентов, аспирантов и молодых ученых, Новокузнецк, 16–17 мая 2023 года. — Новокузнецк: Сибирский государственный индустриальный университет, 2023. — С. 207–209. — EDN DSWRIW.
- Галимов, Р. Г. Основы алгоритмов машинного обучения — обучение с учителем / Р. Г. Галимов // Аллея науки. — 2017. — Т. 1, № 14. — С. 810–817. — EDN ZTBUCH.
- Сохина, С. А. Машинное обучение. Методы машинного обучения / С. А. Сохина, С. А. Немченко // Современная наука в условиях модернизационных процессов: проблемы, реалии, перспективы: Сборник научных статей по материалам V Международной научно-практической конференции, Уфа, 30 апреля 2021 года. — Уфа: Общество с ограниченной ответственностью «Научно-издательский центр «Вестник науки», 2021. — С. 165–168. — EDN BKEJKF.