Control Systems and Computers, N4, 2024, Стаття 5
https://doi.org/10.15407/csc.2024.04.039
Мрозек Є.Р. Аналіз сучасних підходів до розв’язання задач розпізнавання мовлення. Control Systems and Computers. 2024. 4. С. 39-49.
УДК 004:09
Є.Р. МРОЗЕК, аспірант, відділ Розпізнавання та синтезу звукових образів, Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України, просп. Академіка Глушкова, 40, м. Київ, Україна, 03187, ORCID: https://orcid.org/0009-0008-4989-5016, zekamrozek@gmail.com
АНАЛІЗ СУЧАСНИХ ПІДХОДІВ ДО РОЗВ’ЯЗАННЯ ЗАДАЧ РОЗПІЗНАВАННЯ МОВЛЕННЯ
Необхідність сучасних підходів до розв’язання задач розпізнавання мови зумовлена швидким розвитком штучного інтелекту та необхідністю покращення точності й швидкості взаємодії людини з комп’ютером у різних сферах, таких як голосові помічники, переклад та автоматизація. Цей напрям стає дедалі актуальнішим через зростання обсягів згенерованих аудіоданих та необхідності їхньої обробки в реальному часі, зокрема в українських реаліях, де поєднуються кілька мов та діалектів. На цей час існує кілька підходів до розпізнавання, аналізу та транскрибування мовлення, зокрема методи на базі нейронних мереж, методи діаризації співрозмовників, видалення шуму та структуризації даних. Проте залишається актуальною проблема створення універсального рішення, яке б відповідало потребам багатомовних середовищ і дозволяло ефективно працювати з неструктурованими аудіоданими.
Метою статті є огляд наявних інструментів та алгоритмів для розв’язання задачі розпізнавання мови, зокрема української.
Використовуються методи розпізнавання мови, глибоке навчання, трансформери.
Для побудови бази даних і знань системи багатомовного усного діалогу було розглянуто теоретичне підгрунтя підходів та моделей для розпізнавання мови. Також досліджено ефективні приклади покращення точності транскрибування для мов з обмеженими даними та потенційні кроки збільшення швидкодії системи. Розглянуто потенційні дані для навчання моделей, наведено структурований огляд сучасних методів обробки та аналізу багатомовних аудіофайлів, їхніх переваг та недоліків, а також визначення невирішених проблем.
Завантажити повний текст! (українською)
Ключові слова: розпізнавання мови, нейронні мережі, машинне навчання.
- Jurafsky, D., Martin, J. Speech and Language Processing. 7 Jan. 2023. [online]. Available at: https://web.stanford.edu/~jurafsky/slp3/A.pdf [Accessed 1 Aug. 2024].
- Gales, M., and Steve, Yo. (2007). “The Application of Hidden Markov Models in Speech Recognition.” Foundations and Trends in Signal Processing, vol. 1, no. 3, pp. 195–304. [online]. Available at: https://mi.eng.cam.ac.uk/~mjfg/mjfg_NOW.pdf [Accessed 4 Aug. 2024].
- Jurafsky, D., Martin, J. Speech and Language Processing Automatic Speech Recognition and Text-To-Speech. [online]. Available at: https://web.stanford.edu/~jurafsky/slp3/16.pdf [Accessed 20 Aug. 2024].
- Vaswani, A., et al. “Attention Is All You Need”. ArXiv.org, 12 June 2017, [online]. Available at: https://arxiv.org/abs/1706.03762[Accessed 20 Aug. 2024].
- Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., & Sutskever, I. (2023, July). Robust speech recognition via large-scale weak supervision. In International conference on machine learning). PMLR, pp. 28492−28518.
- Nouza, J., Zdansky, J., Cerva, P., & Silovsky, J. (2010). Challenges in speech processing of Slavic languages (case studies in speech recognition of Czech and Slovak). Development of Multimodal Interfaces: Active Listening and Synchrony: Second COST 2102 International Training School, Dublin, Ireland, March 23−27, 2009, Revised Selected Papers, pp. 225−241.
- 24 Канал. “Якою мовою українці спілкуються вдома: опитування.” 24 Канал, 24 Канал, 17 Aug. 2021, [online]. Available at: 24tv.ua/yakoyu-movoyu-ukrayintsi-spilkuyutsya-vdoma-opituvannya-ukrayina-novini_n1715078 [Accessed 10 Jun. 2024].
- Shubham, K. “Whisper Deployment Decisions: Part I — Evaluating Latency, Costs, and Performance Metrics.” Medium, ML6team, 21 July 2023. [online]. Available at: <blog.ml6.eu/whisper-deployment-decisions-part-i-evaluating-latency-costs-and-performance-metrics-d07f6edc9ec0> [Accessed 12 Sept. 2024]
- Gandhi, S., von Platen, P., & Rush, A. M. (2023). Distil-whisper: Robust knowledge distillation via large-scale pseudo labelling. arXiv preprint arXiv:2311.00430. [online], Available at: https://arxiv.org/abs/2311.00430 [Accessed 1 Sept. 2024].
- Ferraz, T. P., Boito, M. Z., Brun, C., & Nikoulina, V. (2024). Multilingual Distilwhisper: Efficient Distillation of Multi-Task Speech Models Via Language-Specific Experts. In ICASSP 2024−2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). pp. 10716-10720. DOI: 10.1109/ICASSP48485.2024.10447520.
- Bartelds, M., San, N., McDonnell, B., Jurafsky, D., & Wieling, M. (2023). “Making More of Little Data: Improving Low-Resource Automatic Speech Recognition Using Data Augmentation.” ArXiv.org, 2023. [online]. https://arxiv.org/abs/2305.10951 [Accessed 26 Aug. 2024].
Надійшла 13.09.2024