Управляющие системы и машины, №6, 2018, статья 5

DOI: https://doi.org/10.15407/usim.2018.06.074
Antonyuk Ya.M., Oleksyuk T.N., Kovalenko Ya.O., Shiyak B.A. The Principles of Application of Machine Learning in Classification of Network Traffic. Управляющие системы и машины. 2018. № 6. C. 74-80.

Abstract on English.

Антонюк Я.М., н.с. , Emailant@noc.irtc.org.ua,

Коваленко Я.А., вед. инж.-прогр.,

Олексюк Т.Н., инж.-прогр., 

Шияк Б.А., м.н.с.,

Международный научно-учебный центр информационных технологий и систем НАН и МОН Украины, просп. Академика Глушкова, 40, Киев 03187, Украина

Принципы применения машинного обучения в классификации сетевого трафика

Вступление. Задача классификации сетевого трафика решается на узлах распределения региональных провайдеров, корпоративных сетевых центрах, кампусных узлах управления. Исторически эта задача наиболее актуальна в области управления трафиком для повышения эффективности использования существующих каналов связи и качества предоставляемых услуг для конечных пользователей.

Цель. Целью исследования является разработка подхода к решению в общем виде задачи классификации сетевого трафика, а именно, получение на вход некоторых характеристик сетевого трафика с выдачей на выходе класса, к которому данный вид трафика относится.

Методы решения. Рассмотрены два основных метода классификации трафика:

1. Классификация на основе блоков данных (Payload-Based Classification). Основывается на полях с блоками данных, таких как порты (Layer 4) OSI (отправитель и получатель или оба). Данный метод является наиболее распространенным, но не работает с зашифрованным и туннелированным трафиком.

2.Классификация на основе статистического метода. Основывается на анализе поведения трафика (время между пакетами, время сеанса и т. п.).

Результаты. Разработаны рекомендации по применению метода решения задачи классификации на основе анализа набора статистических метрик потока. Рассмотрен альтернативный способ решения одной из главных задач DPI — определение протокола прикладного уровня — на основе ограниченного количества информации, без сверки со списком известных портов (well-known ports) и без анализа полезной нагрузки.

Собственно, для машинного обучения предложено и выбрано популярный алгоритм «Random Forest», поскольку он слабо чувствителен к шумам и корреляции признаков.

Выводы. На основании осмотра подходов к классификации трафика делаются выводы о существовании большого количества алгоритмов и подходов с различными преимуществами, недостатками, отличающиеся по скорости обработки, области применения и точности результатов, сравнение которых значительно затруднено из-за отсутствия общедоступной базы полноценных размеченных сетевых трасс, на которых было бы возможно проводить сравнения.

Развивающимся направлением является разработка комбинированных подходов и систем классификации в ходе попыток преодоления недостатков отдельных подходов и использование их преимуществ.

Перспективой использования решения задачи классификации является применение в задаче приоритезации классов трафика. Предложено определять приоритеты классов трафиков на основе решения многокритериальной задачи теории полезности.

Загрузить полный текст в формате PDF (на английском).

Ключевые слова: анализ сетевого трафика, сетевая безопасность, классификация сетевого трафика, машинное обучение, DPI

Поступила 04.12.18