Управляющие системы и машины, №1, 2018, стаття 7
DOI: https://doi.org/10.15407/usim.2018.01.071
Savchenko M.M., Kriachok A.S. Automatic generation of semantic knowledge networks from an unstructured text. Управляющие системы и машины. 2018. № 1. С. 72-79.
Abstract on English.
УДК 004.89
М.М. Савченко, студент(магістр), zitros.lab@gmail.com
О.С. Крячок, к. т. н., доцент, alexandrkriachok@gmail.com
Національний технічний університет України«Київський політехнічний інститут ім. Ігоря Сікорського», м. Київ, пр. Перемоги, 37, корпус 5, 03056.
Автоматична побудова семантичних мереж знань із неструктурованих текстів
Вступ. В сучасному інформаційному просторі, через величезну кількість неструктурованої текстової інформації, існує потреба в пошуку, вилученні, формалізації та обробці найбільш суттєвих знань, що закладені автором у текст. Такими знаннями можуть бути концепти, представлені в документах та характерні відношення між ними. Кожний текст будь-якого текстового корпусу несе певний унікальний зміст, характерний лише для даного тексту. Актуальною задачею є розробка алгоритмічної та програмної бази, яка б дозволяла оброблювати лише найбільш змістовну частину текстів та вилучати із неї знання, релевантні для даного контексту.
Мета статті – створення алгоритмічної і програмної бази для побудови семантичних мереж знань із найбільш релевантної інформації відносно контексту документів.
Методи: Запропоновано комплексну методику, алгоритм та його реалізацію для побудови семантичної мережі знань із найбільш значимої інформації у заданих текстах. Запропонований комплексний алгоритм поєднує в собі роботу кількох алгоритмів на основі нейронних мереж та статистичного аналізу. Комбінація даних алгоритмів дозволяє розпізнавати концепти в тексті, знаходити між ними зв’язки та визначати, які із концептів мають бути включені до результуючої семантичної мережі за допомогою оцінки їх ваги.
Результат: Проведено аналіз великого текстового корпусу, загальною чисельністю близько мільйону слів. На основі зібраної інформації за допомогою розробленого алгоритму і рекурсивної граматики природної мови побудовано семантичну мережу знань для декількох текстів і окрему поєднану семантичну мережу знань. Проведено порівняння недоліків і переваг розробленого алгоритму по відношенню до кількох вже існуючих підходів вилучення знань із текстів. Продемонстровано отримані результати.
Висновок: Комплексний метод побудови семантичних мереж поєднує в собі всі переваги описаних в статті методів і не наслідує їх основних недоліків. За допомогою комплексного метода можна будувати семантичні мережі (графи знань) з текстів у повністю автоматичному режимі та без необхідності втручання експертів у систему. Результати вилучення з текстів основної, найбільш релевантної інформації, що представлені у вигляді графу знань можна використовувати в подальшому, наприклад, для розробки систем автоматичного інтелектуального аналізу будь-яких текстових даних.
Завантажити повний текст в PDF (англійською).
Ключові слова: побудова семантичних мереж, вилучення знань, моделі знань, обробка природної мови
Надійшла 21.02.2018