Приведены классификация сетевого трафика, а также методы на основе порта, полезной нагрузки и статистики трафика.
Ключевые слова: сетевой трафик, TCP, HTTP, администрирование.
Важную роль при построении компьютерной сети любого масштаба играет возможность сетевого администратора получать информацию о сетевом трафике.
Классификация трафика — это процесс идентификации различных приложений и протоколов, существующих в сети. Классификация имеет решающее значение для сети, управления и безопасности. В частности, хорошо спроектированная сеть должна обеспечивать наличие модуля классификации трафика для определения приоритетов различных приложений в ограниченной полосе пропускания для обеспечения QoS — эффективного качества обслуживания. Системному администратору также важно правильно понимать приложения и протоколы, относящиеся к сетевому трафику, чтобы надлежащим образом разработать и внедрить эффективную политику безопасности.
В последние годы знание того, какая информация проходит через сети, становится все более и более сложной из-за постоянно растущего количества приложений, формирующих современный Интернет-трафик. Следовательно, мониторинг и анализ трафика стали критически важными для решения самых разных задач, от обнаружения вторжений, управления трафиком до планирования пропускной способности.
Классификация сетевого трафика — это процесс анализа характера потоков трафика в сетях, и он классифицирует эти уровни в основном на основе протоколов (например, TCP, UDP и IMAP) или по различным классам приложений (например, HTTP, одноранговые (P2P), игры).
Точная классификация трафика необходима для решения вопросов QoS (включая выделение ресурсов, ценообразование в Интернете и законный перехват (LI)), а также для задач мониторинга безопасности.
В настоящее время, например, сети Интернет-провайдеров в большинстве стран обязаны предоставлять возможность законного перехвата (L1) трафика. Категоризация трафика является основным решением этого юридического требования. Для идентификации сетевых потоков используются три типа методов классификации трафика, в том числе методы на основе порта, полезной нагрузки и статистики трафика.
Метод на основе портов зависит от тщательного изучения стандартных портов, используемых популярными приложениями. Однако на такой метод нельзя полагаться постоянно, поскольку не все существующие приложения используют стандартные порты.
Метод на основе полезной нагрузки в основном ищет запись приложения в полезной нагрузке IP-пакетов. В результате этот метод решает проблему динамических портов и, следовательно, широко используется во многих промышленных продуктах. Несмотря на свою популярность, этот метод на основе полезной нагрузки не работает с зашифрованным трафиком и требует значительного объёма ресурсов процессора и памяти.
В проводимых на сегодняшний день научных исследованиях метод, основанный на статистике потока, классифицирует трафик, создавая дополнительные новые функции из статистики потока (TLS), например, длину пакета и время прибытия пакета без необходимости глубокой проверки пакетов, а затем применяя контролируемую или неконтролируемую машину — алгоритмы обучения на данных TLS для классификации сетевого трафика по предопределённым категориям в зависимости от идентифицированных приложений.
На рис. 1 можно видеть поиск Microsoft Academic для подсчёта количества статей, соответствующих фразе «классификация трафика», «потоки трафика» или «идентификация трафика».
Рис. 1. Эволюция подходов к классификации сетевого трафика
Для идентификации Интернет-трафика использовались хорошо известные номера портов [1]. Такой подход оказался успешным, потому что традиционные приложения использовали фиксированные номера портов; однако существующие исследования показывают, что нынешнее поколение приложений P2P пытается скрыть свой трафик, используя динамические номера портов. Кроме того, приложения, номера портов которых неизвестны, не могут быть идентифицированы заранее.
Другой метод основан на проверке содержимого пакетов [2] и анализе полезной нагрузки пакетов, чтобы определить, содержат ли они сигнатуры известных или аномальных приложений. Функции извлекаются из данных о трафике, а затем сравниваются с известными сигнатурами приложений, предоставленными экспертами-людьми. Эти подходы очень хорошо работают для Интернет-трафика; однако исследования показывают, что эти подходы имеют ряд недостатков и противоречий. Во-первых, они не могут идентифицировать новые или неизвестные атаки и приложения, для которых недоступны сигнатуры, поэтому эти методы должны поддерживать актуальный список сигнатур. Это проблема, потому что каждый день появляются новые приложения и атаки; следовательно, нецелесообразно, а иногда и невозможно следить за последними подписями. Во-вторых, глубокая проверка пакетов — сложная задача, поскольку она требует значительного времени обработки и памяти. Наконец, если приложение использует шифрование, этот подход больше не работает.
Многообещающие подходы [3], которые в последнее время привлекли некоторое внимание, основаны на данных статистики транспортного уровня (TLS) и эффективном машинном обучении (ML). Это предполагает, что приложения обычно отправляют данные по некоторому шаблону, который можно использовать как средство классификации соединений по разным классам трафика. Для извлечения таких шаблонов необходимы только заголовки TCP/IP для наблюдения за статистикой потока, такой как средний размер пакета, длина потока и общее количество пакетов. Это позволяет методам классификации [3] иметь достаточно информации для работы.
Литература:
- Ethan Bueno de Mesquita, Anthony Fowler. Thinking Clearly with Data: A Guide to Quantitative Reasoning and Analysis [Text]. — Princeton University Press, 2021. 400 с.
- Estan C., Savage S., Varghese G. Automatically inferring patterns of resource consumption in network traffic [Text] // SIGCOMM '03: Proceedings of the 2003 conference on Applications, technologies, architectures, and protocols for computer communications. — 2003. — PP. 137–148.
- Nazarovs J., Stokes J. W., Turcotte M. J., Carroll J., & Grady I. (2022). Radial Spike and Slab Bayesian Neural Networks for Sparse Data in Ransomware Attacks [Electronic resource]. — URL: https://arxiv.org/abs/2205.14759 (дата обращения: 03.06.2022).