Control Systems and Computers, N1, 2024, Стаття 4

https://doi.org/10.15407/csc.2024.01.038

Kholiev V.O., Barkovska O.Yu. Improved Speaker Recognition System Using Automatic Lip Recognition. Control Systems and Computers. 2024. № 1.C. 38-49 

В.О. Холєв, асистент кафедри “Електронно-обчислювальних машин”, Національний університет радіоелектроніки «ХНУРЕ», м. Харків, пр. Науки, 14, 61166, Україна, ORCID: https://orcid.org/0000-0002-9148-1561,  vladyslav.kholiev@nure.ua

О.Ю. Барковська, кандидат технічних наук, доцент кафедри “Електронно-обчислювальних машин”, Національний університет радіоелектроніки «ХНУРЕ», м. Харків, пр. Науки, 14, 61166, Україна,  ORCID: https://orcid.org/0000-0001-7496-4353olesia.barkovska@nure.ua

ВДОСКОНАЛЕНА СИСТЕМА РОЗПІЗНАВАННЯ МОВИ
ЗА ДОПОМОГОЮ AUTOMATIC LIP RECOGNITION

Вступ. Робота присвячена актуальній проблемі розпізнавання мовлення за допомогою додаткових джерел, окрім власне голосу, в умовах, коли якість або доступність аудіо-інформації є недостатньою (наприклад, за наявності шумів або додаткових спікерів). Це досягається за допомогою методів Automatic Lip Recognition (ARL), що покладається на неакустичні біосигнали, які генеруються людським тілом під час відтворення мови. Серед застосувань такого підходу можна виокремити медичні застосування, а також обробку голосових команд у мовах з поганим звуковим середовищем.

Метою роботи є створити систему для розпізнавання мови на основі поєднання розпізнавання рухів губ спікера (SSI) та прогнозування контексту. Для її досягнення було виконано наступні задачі: обґрунтовано системи розпізнавання голосових команд безшумного голосового інтерфейсу (SSI) на основі поєднання двох архітектур нейронних мереж, реалізувати модель для розпізнавання візем на основі архітектури нейронної мережі CNN та архітектуру encoder-decoder для моделі нейронної рекурентної мережі LSTM з метою аналізу та прогнозування контексту промови спікера.

Результати. Розроблену систему було протестовано на обраному наборі даних. Тестування систем з шумом проводилися на основі ALR, AV-ASR та ASR. Реалізація на основі ALR вміє розпізнавати команди тільки з відео, тому для порівняння в різних звукових умовах застосовуються інші підходи: класичний ASR та поєднання ASR та ALRAV-ASR. Тестова вибірка використовується з минулих експериментів, а також завантажується окремий набір даних корпусу GRID без відео для навчання LipNet на основі AV-ASR і тестування CMU Sphinx, який не може працювати з відеофайлами. Також для тестування систем було створено декілька умов, які відрізняються перешкодами (додавання звуку гучністю 10 дБ) для розпізнавання голосу.

Висновки. Результати показують, що похибка розпізнавання в різних умовах у середньому становить від 4,34% до 5,12% для CER та від 5,52% до 6,06% для WER для власної ALR системи у 7 експериментах що має перевагу над проєктом LipNet, який додатково обробляє дані з аудіо для оригіналу без шумів.

Завантажити повний текст! (англійською)

Ключові слова: SSI; ALR; AV-ASR., RNN, LSTM, інтерфейс безмовного доступу, автоматичне розпізнавання рухів губ, розпізнавання мови, рекурентні нейронні мережі.

    1. Huang, X., Alleva, F., Hwang, M.-Y. and Rosenfeld, R. (1993). An overview of the SPHINX-II speech recognition system. CiteSeer X (The Pennsylvania State University). doi:https://doi.org/10.3115/1075671.1075690.
    2. Chung, J.S. and Zisserman, A. (2018). “Learning to lip read words by watching videos”. Computer Vision and Image Understanding, 173, pp. 76–85. doi:https://doi.org/10.1016/j.cviu.2018.02.001.
    3. Rybach, D., Gollan, C., Heigold, G., Hoffmeister, B., Lööf, J., Schlüter, R., Ney, H. (2009). “The RWTH aachen university open source speech recognition system”. Proc. Interspeech 2009, pp. 2111-2114, doi: 10.21437/Interspeech.2009-604.
    4. Терещенко О. В., Барковська О.Ю. Аналіз впливу SSI-підходу на продуктивність розпізнавання голосових команд. Матеріали десятої міжнародної науково-технічної конференції «Проблеми інформатизації» (24–25 листопада 2022 року).
    5. Kapur, A., Kapur, S., & Maes, P. (2018). “Alterego: A personalized wearable silent speech interface”. In 23rd International conference on intelligent user interfaces, Association for Computing Machinery, New York, NY, USA, pp. 43-53. https://doi.org/10.1145/3172944.3172977.
    6. Orosco, E.C., Amorós, J.G., Gimenez, J.A., & Soria, C.M. (2019). “Deep learning-based classification using Cumulants and Bispectrum of EMG signals”. IEEE Latin America Transactions, December 2019, 17(12), pp. 1946-1953. December 2019, doi: 10.1109/TLA.2019.9011538.
    7. Zhang, T., He, L., Li, X. and Feng, G. (2021). “Efficient End-to-End Sentence-Level Lipreading with Temporal Convolutional Networks”. Applied Sciences, 11 (15), p. 6975. doi:https://doi.org/10.3390/app11156975.
    8. Hueber, T., Benaroya, E.-L., Chollet, G., Denby, B., Dreyfus, G. and Stone, M. (2010). “Development of a silent speech interface driven by ultrasound and optical images of the tongue and lips”. Speech Communication, 52 (4), pp. 288–300. doi: https://doi.org/10.1016/j.specom.2009.11.004.
    9. Mohapatra, D. R., Saha, P., Liu, Y., Gick, B., & Fels, S. (2021). “Vocal tract area function extraction using ultrasound for articulatory speech synthesis”. In Proc. 11th ISCA Speech Synthesis Workshop (SSW 11), pp. 90-95. doi: https://doi.org/10.21437/ssw.2021-16.
    10. Wand, M., Koutník, J., & Schmidhuber, J. (2016). “Lipreading with long short-term memory”. In 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Vol. abs/1601.08188. pp. 6115-6119. URL: http://arxiv.org/abs/1601.08188.
    11. Gonzalez-Lopez, J.A., Gomez-Alanis, A., Martin Donas, J.M., Perez-Cordoba, J.L. and Gomez, A.M. (2020). “Silent Speech Interfaces for Speech Restoration: A Review”. IEEE Access, 8, pp. 177995–178021. doi: https://doi.org/10.1109/access.2020.3026579.
    12. Ялковський, А.Є. (2009). Проблеми розпізнавання мови людини. Problems of Informatization and Management, 3 (27). pp. 163-166. doi:https://doi.org/10.18372/2073-4751.3.570.
    13. Kholiev, V., Barkovska, O. (2023). “Analysis of the of training and test data distribution for audio series classification”. Informatsiyno-keruyuchi systemy na zaliznychnomu transporti, 28. pp. 38–43. 10.18664/ikszt.v28i1.276343.
    14. Chetlur, S., Woolley, C., Vandermersch, P., Cohen, J., Tran, J., Catanzaro, B. and Shelhamer, E. (2014). cuDNN: Efficient Primitives for Deep Learning. arXiv:1410.0759 [cs]. [online]. Available at: https://arxiv.org/abs/1410.0759.
    15. Chen S.H.K., Saeli C., Hu G. (2023). “A proof-of-concept study for automatic speech recognition to transcribe AAC speakers’ speech from high-technology AAC systems”. Assistive Technology, pp. 18.
    16. Del Rio, M., Delworth, N., Westerman, R., Huang, M., Bhandari, N., Palakapilly, J., McNamara, Q., Dong, J., Zelasko, P., & Jette, M. (2021). “Earnings-21: A practical benchmark for ASR in the wild”. Interspeech, pp. 3465–3469. https://doi.org/10.21437/Interspeech.2021-1915.
    17. Huh, J., Park, S., Lee, J. E., & Ye, J. C. (2023). “Improving medical speech-to-text accuracy with vision-language pre-training model”. (arXiv:2303.00091). arXiv. http://arxiv.org/abs/2303.00091.
    18. Shonibare, O., Tong, X., & Ravichandran, V. (2022). “Enhancing ASR for stuttered speech with limited data using detect and pass”. Cureus, 14(9). https://doi.org/10.48550/ARXIV.2202.05396.
    19. GitHub. (n.d.). Release 5.0.3: Major bugfix release cmusphinx/pocketsphinx. [online] Available at: https://github.com/cmusphinx/pocketsphinx/releases/tag/v5.0.3 [Accessed 22 Mar. 2024].

 

 

Надійшла  24.02.2024