Control Systems and Computers, N6, 2019, Статья 5

https://doi.org/10.15407/csc.2019.06.046

Sazhok M.M., Seliukh R.A., Fedoryn D.Ya., Yukhymenko O.A., Robeiko V.V. Automatic Speech Recognition For Ukrainian Broadcast Media Transcribing. Control Systems and Computers. 2019. № 6. pp. 46-57.

УДК 004.934

Сажок Н.Н., к.т.н., зав. отдела, E-mail: sazhok@gmail.com,

Селюх Р.А., м.н.с., Федорин Д.Я., м.н.с., 

Юхименко А.А., н.с., Робейко В.В., н.с., 

Международный научно-учебный центр информационных технологий и систем НАН и МОН Украины, просп. Глушкова, 40, Киев 03187, Украина

Средства распознавания речевых сигнала для оцифровки украинского медийного пространства

При применении распознавания речи для оцифровки медийного пространства мы рассматриваем речевой сигнал, полученный в различных акустических условиях от лиц, не только имеют свои особенности произнесения, но и на разных языках. Итак, преобразование речи в текст должен быть инвариантным к широкому классу шумов и помех, а также искажений, вносимых при сжатии речевого сигнала. Настройка системы должно происходить не только на акустические особенности диктора, но и на язык, на котором говорит то или иное лицо, в том числе, осуществляя переход с одного языка на другой и обратно.

Метод глубокого обучения успешно проявил себя в ряде задач компьютерного зрения и впоследствии стал использоваться в речевых технологиях. DNN меньшей степени, чем GMM подвергается локальности, а следовательно имеет больший прогнозувальний потенциал. При этом данные, расположенные в окрестности многомерных многообразий, получают лучшую аппроксимацию. Вместе с тем, для для оценки параметров многослойного персептрона гораздо больше вычислительных ресурсов. Также остается необходимым проведение предварительного обучения с использованием GMM.

Загрузить полный текст в PDF (на английском).

Ключевые слова: речь, речевое сигнал, анализ, распознавание, понимание, синтез.

 Поступила 26.11.2019