Управляющие системы и машины, №4, 2018, статья 3
DOI: https://doi.org/10.15407/usim.2018.04.032
Зосімов В.В. Комплексний підхід до підвищення ефективності обробки веб-даних на основі семантичної розмітки. Управляющие системы и машины. 2018. № 4. C. 32-45.
УДК 6:004.8
Вячеслав Зосимов, кандидат технических наук, доцент кафедры компьютерных наук и прикладной математики Николаевского национального университета им. В.А. Сухомлинского, Николаев, Украина, zosimovvv@gmail.com
Комплексный подход к повышению эффективности обработки веб-данных на основе семантической разметки
Введение. Быстрое развитие информационных технологий в последние десятилетия поставило перед обществом целый ряд задач по эффективной обработке больших объемов слабо структурированной информации, представленной в виде веб-страниц. Среди них исследование стандартов разработки определенных видов веб-ресурсов, поиск, извлечение, обработка, анализ, хранение и отображение информации.
Цель. Разработка системы комплексного оперирования веб-данных в рамках концепции семантической паутины, направленной на совершенствование методов поиска информации, создание веб-ресурсов с интегрированной семантической разметкой и программных поисковых агентов.
Методы. Методы анализа и обработки данных, Data Mining, Web Mining, методы машинного обучения, метод группового учета аргументов, современные методы построения программных продуктов с модульной архитектурой, методы разработки поисковых агентов, методы интеграции семантической разметки.
Результаты. На основе результатов исследования были разработаны: общая структура и словарь семантической разметки для корпоративных веб-ресурсов, предметно-ориентированный язык обработки веб-данных и программный комплекс, реализующий работу всех модулей описанной системы комплексной обработки веб-данных.
Выводы. Представленная система комплексной обработки веб-данных предоставляет пользователю эффективные, удобные и простые в использовании инструменты для обработки веб-данных на всех этапах взаимодействия со всемирной паутиной — от создания веб-ресурсов до поиска информации. В основе системы лежит новый предметно-ориентированный язык обработки веб-данных и словарь семантической разметки корпоративных веб-ресурсов.
Загрузить полный текст в формате PDF (на украинском).
Ключевые слова: поиск информации, модель ранжирования, метапоисковая система, семантическая разметка, онтологии, структура веб-ресурса, добыча данных, предметно-ориентированный язык, система управления содержимым.
Получена 21.11.18