Управляющие системы и машины, №6, 2018, стаття 5

DOI: https://doi.org/10.15407/usim.2018.06.074
Antonyuk Ya.M., Oleksyuk T.N., Kovalenko Ya.O., Shiyak B.A. The Principles of Application of Machine Learning in Classification of Network Traffic. Управляющие системы и машины. 2018. № 6. C. 74-80.

Abstract on English.

Антонюк Я.М., н.с. , Emailant@noc.irtc.org.ua,

Коваленко Я.А., пров.інж.-прогр.,

Олексюк Т.Н., інж.-прогр., 

Шияк Б.А., м.н.с.,

Міжнародний науково-навчальний центр інформаційних технологій і систем НАН і МОН України, просп. Глушкова, 40, Київ 03187, Україна

Принципи застосування машинного навчання в класифікації мережевого трафіку.

Вступ. Завдання класифікації мережевого трафіку вирішується на вузлах розподілу регіональних провайдерів, корпоративних мережевих центрах, кампусних вузлах управління. Історично ця задача найбільш актуальна в галузі управління трафіком для підвищення ефективності використання існуючих каналів зв’язку і якості послуг, що надаються для кінцевих користувачів.

Мета. Метою дослідження є розробка підходу до вирішення у загальному вигляді задачі класифікації мережевого трафіку, а саме, отримання на вхід деяких характеристик мережевого трафіку з видачею на виході класу, до якого даний вид трафіку відноситься.

Методи рішення. Розглянуто два основні методи класифікації трафіку:

1. Класифікація на основі блоків даних (Payload-Based Classification). що грунтується на аналізі полів з блоками даних, таких як порти (Layer 4) OSI (відправник і одержувач чи обидва). Даний метод є найбільш поширеним, але не працює з зашифрованим і тунельованним трафіком.

2. Классификация на основі статистичного методу. Грунтується на аналізі поведінки трафіку (час між пакетами, час сеансу і т. п.) та аналізі службових полів.

Результати. Розроблено рекомендації щодо застосування методу рішення задачі класифікації на основі аналізу набору статистичних метрик потоку. Розглянуто альтернативний спосіб вирішення однієї з головних завдань DPI – визначення протоколу прикладного рівня – на основі дуже невеликої кількості інформації, без звірки зі списком широко відомих портів (well-known ports) і без аналізу корисного навантаження.

Власне, для машинного навчання запропоновано і вибрано популярний алгоритм «Random Forest», оскільки він слабо чутливий до шумів і кореляції ознак.

Висновки. На підставі огляду підходів до класифікації трафіку робляться висновки з існування великої кількості алгоритмів і підходів з різними перевагами, недоліками, що відрізняються за швидкістю обробки, області застосування і точності результатів, порівняння яких значно ускладнено через відсутність загальнодоступної бази повноцінних розмічених мережевих трас, на яких було б можливо проводити порівняння.

Напрямком, що розвивається є комбінування підходів і систем класифікації в ході спроб подолання недоліків окремих підходів і використання їх переваг.

Перспективою використання рішення задачі класифікації є застосування в задачі пріоритетності класів трафіку. Запропоновано визначати пріоритети класів трафіків на основі рішення багатокритеріальної задачі теорії корисності.

Завантажити повний текст в PDF (англійською).

Ключові слова: аналіз мережевого трафіку, мережева безпека, класифікація мережевого трафіку, машинне навчання, DPI.

Надійшла 04.12.18