Control Systems and Computers, N1, 2024, Стаття 5

Snitko M.D., Khitsko Ia.V., Rybachok N.A. Recognition of Handwritten Texts on Images Using Deep Machine Learning. Control Systems and Computers. 2024. № 1. pp. 

УДК 004.032.26

М.Д. Снітко, студентка, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», 03056, м, Київ, просп. Перемоги, 37, Україна

Я.В. Хіцко, кандидат технічних наук, стрший викладач, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», ORCID: https://orcid.org/0000-0002-6455-8498,
03056, м, Київ, просп. Перемоги, 37, Україна, khitsko@pzks.fpm.kpi.ua

Н.А. Рибачок, кандидат технічних наук, доцент, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», ORCID: 0000-0002-8133-1148, 03056, м, Київ, просп. Перемоги, 37, Україна, rybachok@pzks.fpm.kpi.ua

РОЗПІЗНАВАННЯ РУКОПИСНИХ ТЕКСТІВ НА ЗОБРАЖЕННЯХ ІЗ ВИКОРИСТАННЯМ ГЛИБИННОГО МАШИННОГО НАВЧАННЯ

Вступ. Розпізнавання рукописного тексту є актуальною задачею, рішення якої сприяє створенню нових програмних систем автоматизації та оптимізації багатьох процесів у різних сферах людського життя. У статті висвітлено аспекти використання глибокого машинного навчання для розпізнавання рукописного тексту, що містить літери латинського алфавіту та цифри.

Мета статті. Метою даної роботи є розроблення нейронної мережі та відповідного програмного забезпечення для розпізнавання рукописного тексту з латинськими літерми та цифрами.

Методи. Обрано датасет для навчання нейронної мережі. Здійснено початкове оброблення даних, яке полягає у нормалізації, бінаризації за методом Оцу видаленні шуму. Спроєктовано згорткову нейромережу, що складається із 13 шарів. Нейромережа та відповідне ПЗ реалізовано програмно. Здійснено тренування мережі протягом 50 епох на множині 814255 символів, взятих  із датасету EMNIST.

Результат. Досягнуто точність прогнозування 0,9468, частота відповідей склала 0,9673, показник F1 досяг 0,9429, середній час обробки одного зображення становить 1,15 секунди. Розроблено програмне забезпечення для розпізнаванння рукописного тексту із використанням латинського алфавіту та цифр.

Висновки. Нейромережа може бути використана для розпізнавання рукописного тексту в інших додатках, включаючи мобільні та вебзастосунки. Архітектура програмної системи є гнучкою і її можна розширювати додаванням нових модулів, що розширять функції системи. Матеріали статті будуть корисними при вирішенні задач класифікації зображень із використанням нейронних мереж.

Завантажити повний текст! (англійською)

Ключові слова: нейронна мережа, глибоке машинне навчання, розпізнавання рукописного тексту, OCR, CNN.

  1. LeCun, Y., Cortes, C., Burges, C.J.C. “The MNIST Database of Handwritten Digits” [Electronic resource]. Access mode: <http://yann.lecun.com/exdb/mnist/> [Accessed 06 Dec. 2024].
  2. González, Digital Image Processing [Text] / Rafael C. González; Richard Eugene Woods, Prentice Hall, 2007, P. 85, ISBN 978-0-13-168728-8.
  3. Chauhan, S., Sharma E., Doegar  A. “Binarization Techniques for Degraded Document Images”. A Review. 2016 5th International Conference on Reliability, Infocom Technologies and Optimization (Trends and Future Directions) (ICRITO).
  4. Krizhevsky, A., Sutskever, I., Hinton, G.E. ImageNet Classification with Deep Convolutional Neural Networks [Text] / A. Krizhevsky, I. Sutskever, G.E. Hinton, Advances in Neural Information Processing Systems 25 (NIPS 2012). 2012. P. 1097–1105.
  5. Mouton, C..  Stride and Translation Invariance in CNNS [Text] / Coenraad Mouton; Johannes C. Myburgh; Marelie H. Davel, In Gerber, Aurona (ed.), Artificial Intelligence Research, Communications in Computer and Information Science, Vol. 1342, Cham: Springer International Publishing, pp. 267–281, 2020, arXiv:2103.10097, doi:10.1007/978-3-030-66151- 9_17, ISBN 978-3-030-66151-9, S2CID 232269854.
  6. Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Rabinovich, A. Going deeper with convolutions. In Proceedings of the IEEE conference on computer vision and pattern recognition. 2015. P. 19.
  7. Nikitha, A., Geetha, J., JayaLakshmi D.S “Handwritten text recognition using deep learning”. 2020 Int. Conf. on Recent Trends on Electronics, Information, Communication & Technology (RTEICT). https://doi.org/10.1109/RTEICT49044.2020.9315679.
  8. Nurseitov D., Bostanbekov K., Kanatov M., Alimova A., Abdallah A., Abdimanap G. “Classification of handwritten names of cities and Handwritten text recognition using various deep learn”. Advances in Science, Technology and Engineering Systems Journal. – Vol. 5, No. 2, XX-YY (2020). https://doi.org/10.25046/aj0505114.
  9. Хіцко Я.В., Снітко М.Д. Спосіб та програмне забезпечення для розпізнавання тексту на зображеннях. Збірник тез XVI конференції молодих вчених «Прикладна математика та комп’ютинг», Київ. 2023. C. 627631.
  10. David M.W. Powers “Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation” [Text] / Journal of Machine Learning Technologies, 2011, 2 (1): 37–63, Archived (PDF) from the original on 2019-11-14.
  11. Манохин А.В., Рыбачок Н.А. Распознавание английского акцента с использованием глубокого машинного обучения. Control Systems and Computers. 2021. № 4. С. 52−59. https://doi.org/10.15407/csc.2021.04.028

Надійшла 15.02.2024