Control Systems and Computers, N4, 2021, Стаття 4
https://doi.org/10.15407/csc.2021.04.028
Manokhin A.V., Rybachok N.A. English Accent Recognition Using Deep Machine Learning. Control Systems and Computers. 2021. № 4. С. 28-34.
УДК 004.032.26
А.В.Манохін, студент кафедри ПЗКС ФПМ НТУУ «КПІ ім. І.Сікорського», просп. Перемоги, 37, Київ, 03056, Україна,
Н.А.Рибачок, к.т.н., ст. викладач кафедри ПЗКС ФПМ НТУУ «КПІ ім. І.Сікорського», просп. Перемоги, 37, Київ, 03056, Україна, rybachok@pzks.fpm.kpi.ua
Розпізнавання акцентів англійської мови з використанням глибинного машинного навчання
Вступ. Розпізнавання акцентів користувачів є актуальною задачею як для покращення функціонування програмних систем, так і для людей, які вивчають певну мову чи її акценти.
Ціль статті. Метою даної роботи є розроблення нейронної мережі та відповідного програмного забезпечення для розпізнавання 8 акцентів англійської мови.
Методи. Обрано датасет для навчання нейронної мережі. Проведено початкове оброблення даних, яке полягає у вилученні «тихих» ділянок. Спроектовано згорткову нейромережу, що складається із 2 згорткових шарів, 1 шару max pooling, а також 2 щільних шарів.Нейромережа та відповідне ПЗ реалізованопрограмно. Проведено тренування мережі протягом 2 епох на множині 5 516 аудіозаписів, взятих із ресурсу English Multi-speaker Corpus for Voice Cloning.
Результат. Досягнуто точність прогнозування 89.07% на тестових даних, що представлялися 11 тис. матрицями MFCC розмірністю 50х87.Розроблено програмне забезпечення для визначення акцентів англійської мови, яке надає можливість користувачу через вебінтерфейс або Телеграм-бот за рахунок використання загорткової нейромережі визначати відсоток належності аудіозапису до 8 найбільш розповсюджених англомовних акцентів.
Висновки. Висвітлено аспекти використання глибинного машинного навчання для розпізнавання акцентів англійської мови. Розроблено програмне забезпечення, яке визначає відсоток належності аудіозапису до 8 найбільш розповсюджених англомовних акцентів. Згорткова нейронна мережа, що складається із 2 згорткових шарів, 1 шару max pooling, а також 2 щільних шарів була натренована протягом 2 епох на множині 5 516 аудіозаписів, взятих із ресурсу English Multi-speaker Corpus for Voice Cloning. Досягнуто точність прогнозування 89.07% на тестових даних, що представлялися 11 тис. матрицями MFCC розмірністю 50х87. Матеріали статті будуть корисними при вирішенні задач класифікації аудіо-, відео- та графічних матеріалів із використанням нейронних мереж.
Завантажити повний текст в PDF (англійською).
Ключові слова: нейронна мережа, глибинне машинне навчання, розпізнавання акцентів, MFCC, CNN.
Надійшла 20.07.2021