Управляющие системы и машины, №1, 2019, статья 5

https://doi.org/10.15407/usim.2019.01.041
Бобровник Е.А., Духновськая К.К., Пирог М.В. Тематическая классификация украиноязычных текстов, трудности ее внедрения. Управляющие системы и машины. 2019. № 1.
С. 41-51.

Abstract on English.

УДК 004.04.043; 004.912; 004.62

Е.А. Бобровник, магистрант, кафедра укр. языка и прикладной лингвистики,  Ин-т филологии Киевского национального университета имени Тараса Шевченко, бульвар Т. Шевченко, 14, Киев 01601, Украина,  mailkatherine.bobrovnik@gmail.com,

К.К. Духновская, ассистент, кафедра прикладных информационных технологий,  Киевский национальный университет имени Тараса Шевченко,  просп. академика Глушкова, 4, киев 03022, украина, duchnov@ukr.net,

Н.В. Пирог, ассистент, кафедра прикладных информационных технологий, Киевский национальный университет имени Тараса Шевченко,  просп. академика Глушкова, 4, Киев 03022, Украина, mykola.pyroh@ukr.net

Тематическая классификация украиноязычных текстов, трудности ее внедрения

Построены классификаторы украиноязычных текстов методами Random Forest Classifier, Support Vector Machines, Naive Bayes Сlassifier.и Logistic Regression. Для тренировки этих классификаторов использовался метод контролированного обучения. Суть этого метода заключается в том, что для обучения используется уже готовый классифицированный набор текстов, в качестве которого выступают тексты Брауновский корпуса украинского языка. Лучшие результаты показала модель для классификации украиноязычных текстов на основе метода опорных векторов. Ее средняя точность — 0,80.

Загрузить полный текст в PDF (на русском).

Ключевые слова: классификатор текстовых документов, корпус документов, метод контролированного обучения.

Поступила 15.01.2019