Ключевые слова: трафик, устройства, сеть, приложения.
Распространение мобильных устройств в последние годы привело к резкому увеличению мобильного трафика. Спрос на обеспечение точной идентификации мобильных приложений растет, поскольку это важный шаг для улучшения множества сетевых услуг: учета, мониторинга безопасности, прогнозирования трафика и качества обслуживания. Однако традиционные методы классификации трафика плохо работают для мобильного трафика. Кроме того, многочисленные решения машинного обучения, разработанные в этой области, сильно ограничены своими ручными функциями, а также ненадежными наборами данных. В этой статье мы предлагаем структуру для сбора и маркировки реального сетевого трафика масштабируемым способом. Специальный инструмент захвата трафика Android разработан для создания наборов данных с идеальной наземной правдой. Используя наш установленный набор данных, мы проводим эмпирическое исследование методов глубокого обучения для задачи идентификации мобильных приложений, которые могут автоматизировать процесс разработки объектов сквозным способом. Мы вводим три наиболее репрезентативные модели глубокого обучения и разрабатываем и оцениваем наши специальные классификаторы, а именно SDAE, 1D CNN и двунаправленную сеть LSTM соответственно. По сравнению с двумя другими базовыми решениями, наши модели CNN и RNN с необработанным трафиком способны достигать самых современных результатов независимо от шифрования TLS. В частности, классификатор 1D CNN обеспечивает наилучшую производительность с точностью 91,8 % и макросъемкой F -мера 90,1 %. Для дальнейшего понимания обученной модели выполняются интерпретации конкретных примеров, показывающие, как она может автоматически изучать важные и расширенные функции из самых верхних байтов необработанных потоков приложения.
Трафик через типичную сеть неоднороден и состоит из потоков от множества приложений и утилит. Связывание потоков трафика с приложениями, которые их генерируют, известно, как классификация трафика (или идентификация трафика), которая является важным шагом для определения приоритетов, защиты или предотвращения определенного трафика. С точной и полной классификацией трафика различные сетевые действия или услуги, такие как учет, мониторинг, контроль и оптимизация, могут быть выполнены с конечной целью повышения производительности сети или безопасности. В последние годы все более растущий мобильный трафик из-за распространения мобильных устройств (в основном смартфонов) значительно изменил характеристики сетевого трафика. Ожидается, что эта тенденция приведет к почти 4-кратному увеличению объема глобальных мобильных данных в течение следующих 4 лет. В связи с этим анализ мобильного трафика становится в центре внимания наряду с растущим спросом и трудностями реализации идентификации мобильных приложений (APP-ID). В дополнение к преимуществам для мобильных операторов идентификация мобильных приложений также важна для компаний, когда политики bring-your-own-device (BYOD) позволяют управлять доступом к корпоративным ресурсам. Несмотря на то, что он может повысить риски конфиденциальности, некоторые группы, такие как рекламодатели и агентства безопасности, также заинтересованы в его потенциале для получения ценной профильной информации.
За последнее десятилетие уровень развития классификации транспортных средств значительно повысился. Эта технология находится в постоянном развитии, чтобы идти в ногу с постоянно развивающимся интернетом: от портовой глубокой проверки пакетов (DPI) до машинного обучения (ML). Требования и проблемы APP-ID в мобильных сетях еще более сложны. В отличие от традиционных настольных приложений, коммуникационные схемы, которые обычно просты, мобильные приложения трудно идентифицировать по их протоколам и номерам портов. Как правило, они предлагают несколько сервисов с различными протоколами (например, HTTP/HTTPS), использующими общие или произвольные номера портов, и редко включают уникальные подписи в пакет, как это рекомендуется для идентификации. Кроме того, многие мобильные приложения используют сети доставки контента (CDNs) и сторонние сервисы (например, рекламу, аналитику), что делает ненадежными такие стратегии, как разрешение доменных имен и поиск IP-адресов.
Поскольку технологии шифрования набирают обороты с каждым днем, все больше трафика передается по зашифрованным протоколам (например, TLS), чтобы избежать перехвата на сетевом уровне. Многочисленные традиционные классификаторы ML оказались успешными как в мобильной, так и в традиционной классификации трафика. Тем не менее, они подвержены ручному процессу проектирования характеристик, который может быть трудоемким. Основываясь на интуиции и экспертных знаниях, feature engineering стремится найти представление исходных данных, которое передает характеристики, наиболее релевантные для проблемы обучения. На самом деле во многих приложениях, включая APP-ID, он обнаруживает еще большую важность, чем выбор конкретного алгоритма машинного обучения. Таким образом, в этой работе мы исследуем, можем ли мы использовать глубокое обучение для повышения точности идентификации мобильных приложений. Извлекая выгоду из способности обрабатывать естественные данные в их сырой форме, глубокое обучение (DL) может обнаружить хорошие функции автоматическим способом без участия человека.
И последнее, но не менее важное: мы сталкиваемся с обычным препятствием для прогресса в разработке APP-ID: отсутствием реального мобильного трафика, служащего в качестве данных для тестирования поездов, а также наземной истины (т. е. аннотированных объектов потока, используемых в качестве эталона) для проверки. Большинство предыдущих работ, по-видимому, пренебрегают этим затруднительным положением, что весьма важно для обучения и тестирования моделей ML или DL. Обычно они основывают свои результаты на фундаментальной истине, построенной из частных наборов данных и помеченной с помощью неизвестной надежности. Поэтому методология, которая может эффективно построить надежный набор данных реальной сети, пользуется большим спросом.
Литература:
- Рыжков А. Е., Сиверс М. А., Воробьев В. О., Гусаров А. С., Слышков А. С., Шуньков Р. В. Системы и сети радиодоступа 4G: LTE, WiMax. — СПб: Линк, 2012. — 226 с.
- Тихвинский В. О., Терентьев С. В., Юрчук А. Б. Сети мобильной связи LTE. Технологии и архитектура. — М: Эко-Трендз, 2010.– 284 с.
- Иго, Т. Arduino, датчики и сети для связи устройств / Т. Иго. — СПб.: BHV, 2019. — 544 c.