Control Systems and Computers, N6, 2019, Стаття 5

https://doi.org/10.15407/csc.2019.06.046

Sazhok M.M., Seliukh R.A., Fedoryn D.Ya., Yukhymenko O.A., Robeiko V.V. Automatic Speech Recognition For Ukrainian Broadcast Media Transcribing. Control Systems and Computers. 2019. № 6. pp. 46-57.

УДК 004.934

Сажок М.М., к.т.н., зав. відділу, E–mail: sazhok@gmail.com,

Селюх Р.А., м.н.с., Федорин Д.Я., м.н.с., 

Юхименко О.А., н.с., Робейко В.В., н.с.

Міжнародний науково-навчальний центр інформаційних технологій та систем НАН та МОН України, просп. Глушкова, 40, Київ 03187, Україна

ЗАСОБИ РОЗПІЗНАВАННЯ МОВЛЕННЄВОГО СИГНАЛУ ДЛЯ ОЦИФРОВУВАННЯ УКРАЇНСЬКОГО МЕДІЙНОГО ПРОСТОРУ

Вступ. Застосувуючи розпізнавання мовлення для оцифровування медійного простору ми розглядаємо мовленнєвий сигнал, отриманий у різних акустичних умовах від осіб, що не лише мають індивідуальні особливості вимови, а й розмовляють різними мовами. Отже, перетворення мовлення на текст має бути інваріантним до широкого класу шумів і завад, а також спотворень, які вносяться під час стискання мовленнєвого сигналу. Налаштування системи має відбуватися не лише на акустичні особливості диктора, а й на мову, якою розмовляє чи інша особа, в тому числі, здійснюючи перехід з однієї мови на іншу й у зворотному напрямку.

Методи. Метод глибокого навчання успішно проявив себе в низці задач комп’ютерного зору і згодом почав використовуватися в мовленнєвих технологіях. DNN меншою мірою ніж GMM піддається локальності, а отже має більший прогнозувальний потенціал. До того ж, розташовані в околі багатовимірних многовидів, отримують кращу апроксимацію. Водночас, для для оцінки параметрів багатошарового перцептрону поьрібно значно більше обчислювальних ресурсів. Також залишається необхідним попереднє навчання з використанням GMM.

Результати та висновки. Реалізована схема перетворення мовлення на текст дала змогу отримати результат розпізнавання фонограм телерадіомовлення у формі, зручній для користувача-людини, і для подальшої автоматичної обробки. А саме, за отриманим текстом зрозуміло, про що йде мова, відстежується фактичний матеріал (власні назви, числа, дати тощо), розділові знаки полегшують сприйняття тексту, і загалом зменшуються затрати на ручне редагування для отримання кінцевої стенограми.

Завантажити повний текст в PDF (англійською).

Ключові слова: мовлення, мовленнєвий сигнал, аналіз, розпізнавання, розуміння, синтез.

Надійшла 26.11.19