Управляющие системы и машины, №1, 2018, статья 7
DOI: https://doi.org/10.15407/usim.2018.01.071
Savchenko M.M., Kriachok A.S. Automatic generation of semantic knowledge networks from an unstructured text. Управляющие системы и машины. 2018. № 1. С. 72-79.
Abstract on English.
УДК 004.89
Савченко Н.Н., студент (магістр), E-mail: zitros.lab@gmail.com
Крячок А.С., к.т.н., доцент, E-mail: alexandrkriachok@gmail.com
Национальный технический университет Украины «Киевский политехнический институт им. Игоря Сикорского», г. Киев, пр. Победы, 37, корпус 5, 03056
Автоматическое построение семантической сети знаний из неструктурированных текстов
Введение. В связи с наличием в современном информационном пространстве огромного количества неструктурированной текстовой информации существует потребность в поиске, изъятии, формализации и обработке наиболее существенных знаний, заложенных авторами в тексты. Такими знаниями могут быть концепты, представленные в документах, и характерные отношения между ними. Каждый текст любого текстового корпуса несёт определённый уникальный смысл, характерный только для данного текста. Актуальной задачей является разработка алгоритмической и программной базы, позволяющей обрабатывать только наиболее содержательную часть текстов и изымать из неё знания, релевантные для данного контекста.
Цель статьи: создание алгоритмической и программной базы для построения семантических сетей знаний из самой релевантной по отношению к контексту документов информации.
Методы: предложены комплексная методика, алгоритм и его реализация для построения семантической сети знаний из самой значимой информации в заданных текстах. Предложенный комплексный алгоритм сочетает в себе работу нескольких алгоритмов на основе нейронных сетей и статистического анализа. Комбинация данных алгоритмов позволяет распознавать концепты в тексте, находить между ними связи и определять, какие из концептов должны быть включены в результирующую семантическую сеть с помощью оценки их веса в заданном контексте.
Результат: проведён анализ большого текстового корпуса, общей численностью около миллиона слов. На основе собранной информации с помощью разработанного алгоритма и рекурсивной грамматики естественного языка построено семантическую сеть знаний для нескольких текстов и отдельную совмещённую семантическую сеть знаний. Проведено сравнение недостатков и преимуществ разработанного алгоритма по отношению к нескольким уже существующих подходам извлечения знаний из текстов. Продемонстрированы полученные результаты.
Выводы: комплексный метод построения семантических сетей сочетает в себе все преимущества описанных в статье методов и не наследует их основные недостатки. С помощью комплексного метода можно строить семантические сети (графы знаний) из текстов в полностью автоматическом режиме без необходимости вмешательства экспертов в работу системы. Результаты извлечения из текстов основной, наиболее релевантной информации, представленной в виде графа знаний можно использовать в дальнейшем, например, для разработки систем автоматического интеллектуального анализа любых текстовых данных.
Загрузить полный текст PDF (на английском).
Ключевые слова: Построение семантических сетей, извлечение знаний, модели знаний, обработка естественного языка
Поступила 21.02.2018