Управляющие системы и машины, №1, 2019, стаття 5
https://doi.org/10.15407/usim.2019.01.041
Бобровник Е.А., Духновськая К.К., Пирог М.В. Тематическая классификация украиноязычных текстов, трудности ее внедрения. Управляющие системы и машины. 2019. № 1.
С. 41-51.
УДК 004.04.043; 004.912; 004.62
К.А. Бобровник, магістрант, кафедра укр . мови та прикладної лінгвістики, Ін-т філології Київського національного університету ім. Тараса Шевченка, бульвар Тараса Шевченка, 14, Київ 01601, Україна, mailkatherine.bobrovnik@gmail .com
К.К. Духновська, асистент, кафедра прикладних інформаційних технологій, Київський національний університет ім. Тараса Шевченка, просп. Академіка Глушкова, 4, Київ 03022, Україна,
duchnov@ukr .net
М.В. Пирог, асистент, кафедра прикладних інформаційних технологій, Київський національний університет ім . Тараса Шевченка, просп. Академіка Глушкова, 4, Київ 03022, Україна,
mykola .pyroh@ukr .net
Тематична класифікація українськомовних текстів та труднощі її впровадження
Вступ. Однією з зважливих задач штучного інтелекту, інформаційного пошуку та систем текстової обробки є задача класифікації . Головна складність автоматичної класифікації текстової інформації в тому, що документ представлений на природній мові і він не відноситься до структурованих даних.
Рішень для класифікації англомовних чи російськомовних текстів багато . Проте робіт, в яких описано алгоритми побудови класифікатора для текстів, поданих на українській мові, та в чому їх особливість автори не знайшли.
Мета роботи — визначити особливості автоматичної класифікації текстів, поданих на українській мові.
Результати. БрУК — єдиний корпус українських текстів у відкритому доступі, тексти якого можна використо-
вувати для розробки алгоритмів і методів класифікації українськомовних текстів.
Для побудови класифікаторів українськомовних текстів використовувались такі методи та алгоритми: Random
Forest Classifier, Support Vector Machines, Naive Bayes Сlassifier. и Logistic Regression. Метод контрольованого навчання використовується для тренування всіх цих класифікаторів . Суть цього методу в тому, що для навчання використовується вже готовий класифікований набір текстів, яким є БрУК .
Висновок. Кращі результати показала модель класифікації українськомовних текстів на основі методу опорних
векторів. Її середня точність — 0,80.
Завантажити повний текст в PDF (російською).
Ключові слова: класифікатор текстових документів, корпус документів, метод контрольованого навчання.
Надійшла 15.01.2019