Управляющие системы и машины, №6, 2018, стаття 5
DOI: https://doi.org/10.15407/usim.2018.06.074
Antonyuk Ya.M., Oleksyuk T.N., Kovalenko Ya.O., Shiyak B.A. The Principles of Application of Machine Learning in Classification of Network Traffic. Управляющие системы и машины. 2018. № 6. C. 74-80.
Антонюк Я.М., н.с. , E–mail – ant@noc.irtc.org.ua,
Коваленко Я.А., пров.інж.-прогр.,
Олексюк Т.Н., інж.-прогр.,
Шияк Б.А., м.н.с.,
Міжнародний науково-навчальний центр інформаційних технологій і систем НАН і МОН України, просп. Глушкова, 40, Київ 03187, Україна
Принципи застосування машинного навчання в класифікації мережевого трафіку.
Вступ. Завдання класифікації мережевого трафіку вирішується на вузлах розподілу регіональних провайдерів, корпоративних мережевих центрах, кампусних вузлах управління. Історично ця задача найбільш актуальна в галузі управління трафіком для підвищення ефективності використання існуючих каналів зв’язку і якості послуг, що надаються для кінцевих користувачів.
Мета. Метою дослідження є розробка підходу до вирішення у загальному вигляді задачі класифікації мережевого трафіку, а саме, отримання на вхід деяких характеристик мережевого трафіку з видачею на виході класу, до якого даний вид трафіку відноситься.
Методи рішення. Розглянуто два основні методи класифікації трафіку:
1. Класифікація на основі блоків даних (Payload-Based Classification). що грунтується на аналізі полів з блоками даних, таких як порти (Layer 4) OSI (відправник і одержувач чи обидва). Даний метод є найбільш поширеним, але не працює з зашифрованим і тунельованним трафіком.
2. Классификация на основі статистичного методу. Грунтується на аналізі поведінки трафіку (час між пакетами, час сеансу і т. п.) та аналізі службових полів.
Результати. Розроблено рекомендації щодо застосування методу рішення задачі класифікації на основі аналізу набору статистичних метрик потоку. Розглянуто альтернативний спосіб вирішення однієї з головних завдань DPI – визначення протоколу прикладного рівня – на основі дуже невеликої кількості інформації, без звірки зі списком широко відомих портів (well-known ports) і без аналізу корисного навантаження.
Власне, для машинного навчання запропоновано і вибрано популярний алгоритм «Random Forest», оскільки він слабо чутливий до шумів і кореляції ознак.
Висновки. На підставі огляду підходів до класифікації трафіку робляться висновки з існування великої кількості алгоритмів і підходів з різними перевагами, недоліками, що відрізняються за швидкістю обробки, області застосування і точності результатів, порівняння яких значно ускладнено через відсутність загальнодоступної бази повноцінних розмічених мережевих трас, на яких було б можливо проводити порівняння.
Напрямком, що розвивається є комбінування підходів і систем класифікації в ході спроб подолання недоліків окремих підходів і використання їх переваг.
Перспективою використання рішення задачі класифікації є застосування в задачі пріоритетності класів трафіку. Запропоновано визначати пріоритети класів трафіків на основі рішення багатокритеріальної задачі теорії корисності.
Завантажити повний текст в PDF (англійською).
Ключові слова: аналіз мережевого трафіку, мережева безпека, класифікація мережевого трафіку, машинне навчання, DPI.
Надійшла 04.12.18