Управляющие системы и машины, №6, 2018, статья 5
DOI: https://doi.org/10.15407/usim.2018.06.074
Antonyuk Ya.M., Oleksyuk T.N., Kovalenko Ya.O., Shiyak B.A. The Principles of Application of Machine Learning in Classification of Network Traffic. Управляющие системы и машины. 2018. № 6. C. 74-80.
Антонюк Я.М., н.с. , E—mail – ant@noc.irtc.org.ua,
Коваленко Я.А., вед. инж.-прогр.,
Олексюк Т.Н., инж.-прогр.,
Шияк Б.А., м.н.с.,
Международный научно-учебный центр информационных технологий и систем НАН и МОН Украины, просп. Академика Глушкова, 40, Киев 03187, Украина
Принципы применения машинного обучения в классификации сетевого трафика
Вступление. Задача классификации сетевого трафика решается на узлах распределения региональных провайдеров, корпоративных сетевых центрах, кампусных узлах управления. Исторически эта задача наиболее актуальна в области управления трафиком для повышения эффективности использования существующих каналов связи и качества предоставляемых услуг для конечных пользователей.
Цель. Целью исследования является разработка подхода к решению в общем виде задачи классификации сетевого трафика, а именно, получение на вход некоторых характеристик сетевого трафика с выдачей на выходе класса, к которому данный вид трафика относится.
Методы решения. Рассмотрены два основных метода классификации трафика:
1. Классификация на основе блоков данных (Payload-Based Classification). Основывается на полях с блоками данных, таких как порты (Layer 4) OSI (отправитель и получатель или оба). Данный метод является наиболее распространенным, но не работает с зашифрованным и туннелированным трафиком.
2.Классификация на основе статистического метода. Основывается на анализе поведения трафика (время между пакетами, время сеанса и т. п.).
Результаты. Разработаны рекомендации по применению метода решения задачи классификации на основе анализа набора статистических метрик потока. Рассмотрен альтернативный способ решения одной из главных задач DPI — определение протокола прикладного уровня — на основе ограниченного количества информации, без сверки со списком известных портов (well-known ports) и без анализа полезной нагрузки.
Собственно, для машинного обучения предложено и выбрано популярный алгоритм «Random Forest», поскольку он слабо чувствителен к шумам и корреляции признаков.
Выводы. На основании осмотра подходов к классификации трафика делаются выводы о существовании большого количества алгоритмов и подходов с различными преимуществами, недостатками, отличающиеся по скорости обработки, области применения и точности результатов, сравнение которых значительно затруднено из-за отсутствия общедоступной базы полноценных размеченных сетевых трасс, на которых было бы возможно проводить сравнения.
Развивающимся направлением является разработка комбинированных подходов и систем классификации в ходе попыток преодоления недостатков отдельных подходов и использование их преимуществ.
Перспективой использования решения задачи классификации является применение в задаче приоритезации классов трафика. Предложено определять приоритеты классов трафиков на основе решения многокритериальной задачи теории полезности.
Загрузить полный текст в формате PDF (на английском).
Ключевые слова: анализ сетевого трафика, сетевая безопасность, классификация сетевого трафика, машинное обучение, DPI
Поступила 04.12.18