Control Systems and Computers, N4, 2024, Стаття 5
Мрозек Є.Р. Аналіз сучасних підходів до розв’язання задач розпізнавання мовлення. Control Systems and Computers. 2024. 4. С.
УДК 004:09
Є.Р. МРОЗЕК, аспірант, відділ Розпізнавання та синтезу звукових образів, Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України, просп. Академіка Глушкова, 40, м. Київ, Україна, 03187, ORCID: https://orcid.org/0009-0008-4989-5016, zekamrozek@gmail.com
АНАЛІЗ СУЧАСНИХ ПІДХОДІВ ДО РОЗВ’ЯЗАННЯ ЗАДАЧ РОЗПІЗНАВАННЯ МОВЛЕННЯ
Необхідність сучасних підходів до розв’язання задач розпізнавання мови зумовлена швидким розвитком штучного інтелекту та необхідністю покращення точності й швидкості взаємодії людини з комп’ютером у різних сферах, таких як голосові помічники, переклад та автоматизація. Цей напрям стає дедалі актуальнішим через зростання обсягів згенерованих аудіоданих та необхідності їхньої обробки в реальному часі, зокрема в українських реаліях, де поєднуються кілька мов та діалектів. На цей час існує кілька підходів до розпізнавання, аналізу та транскрибування мовлення, зокрема методи на базі нейронних мереж, методи діаризації співрозмовників, видалення шуму та структуризації даних. Проте залишається актуальною проблема створення універсального рішення, яке б відповідало потребам багатомовних середовищ і дозволяло ефективно працювати з неструктурованими аудіоданими.
Метою статті є огляд наявних інструментів та алгоритмів для розв’язання задачі розпізнавання мови, зокрема української.
Використовуються методи розпізнавання мови, глибоке навчання, трансформери.
Для побудови бази даних і знань системи багатомовного усного діалогу було розглянуто теоретичне підгрунтя підходів та моделей для розпізнавання мови. Також досліджено ефективні приклади покращення точності транскрибування для мов з обмеженими даними та потенційні кроки збільшення швидкодії системи. Розглянуто потенційні дані для навчання моделей, наведено структурований огляд сучасних методів обробки та аналізу багатомовних аудіофайлів, їхніх переваг та недоліків, а також визначення невирішених проблем.
Ключові слова: розпізнавання мови, нейронні мережі, машинне навчання.