Control Systems and Computers, N1, 2023, Стаття 2

https://doi.org/10.15407/csc.2023.01.018

Holtsev O.O., Grytsenko V.I. A Short Overview of the Main Concepts of Artificial Neural Networks. Control Systems and Computers. 2023. № 1. C. 18-32.

УДК 004.8 + 004.032.26 

О.О. Гольцев, аспірант, Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України, ORCID: https://orcid.org/0000-0002-1846-6648, 03187, м. Київ, просп. Акад. Глушкова,40, Україна, rcwolf@adg.kiev.ua

В.І. Гриценко, чл.-кор. НАН України, почесний директор, Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України, Scopus ID: 7101892671, ORCID: https://orcid.org/0000-0002-6250-3987, 03187, м. Київ, просп. Акад. Глушкова,40, Україна, vig@irtc.org.ua

КОРОТКИЙ ОГЛЯД ОСНОВНИХ КОНЦЕПЦІЙ ШТУЧНИХ
НЕЙРОННИХ МЕРЕЖ

Вступ. У роботі розглянуто такі парадигми нейронних мереж (і їх методи навчання та функціонування), як персептрон Розенблатта, багатошарові персептрони, мережа радіально-базових функцій, мережа Кохонена, мережа Хопфілда, машина Больцмана та глибокі нейронні мережі.

Мета. В результаті розгляду цих парадигм можна зробити висновок, що всі вони з успішно вирішують поставлені перед ними завдання, але на сьогодні глибокі нейронні мережі є найефективнішим механізмом для вирішення інтелектуальних практичних завдань.

Результати. Зростання популярності глибоких нейронних мереж, що відбувається останніми роками, можна пояснити трьома чинниками. По-перше, відбулося суттєве збільшення продуктивності комп’ютерів, у тому числі прискорювачів обчислень GPU (Graphics Processing Unit), що дало змогу навчати глибокі нейронні мережі значно швидше і з вищою точністю.

По-друге, було накопичено великий обсяг даних, необхідний для навчання глибоких нейронних мереж.

По-третє, було розроблено методи навчання нейронних мереж, що дають змогу швидко та якісно навчати мережі, що складаються зі ста і більше шарів, що раніше було неможливо через проблему зникаючого градієнта та перенавчання.

Висновки. Поєднання цих трьох чинників спричинило суттєвий прогрес у навчанні глибоких нейронних мереж та їх практичному використанні, що дало глибоким нейронним мережам змогу посісти позицію лідера серед методів машинного навчання.

Завантажити повний текст! (англійською)

Ключові слова: штучний інтелект, штучні нейронні мережі, методи машинного навчання, глибокі нейронні мережі.

[1]        Rosenblatt, F. (1962). Principles of Neurodynamics. Perceptrons and Theory of Brain Mechanisms. Washington, DC: Spartan Books.

[2]        Hebb, D.O. (1949). The Organization of Behavior. New York, USA: John Wiley & Sons Inc.

[3]        Минский М., Пейперт С. (1971). Персептроны, Мир, 261 с.

[4]        Kussul, Е, Baidyk, T., Kasatkina, L., Lukovich, V. (2001). “Rosenblatt perceptrons for handwritten digit recognition”. IJCNN’01. Proceedings of the International Joint Conference on Neural Networks., Vol. 2, pp. 1516-1520. doi: 10.1109/IJCNN.2001.939589.

[5]        Kussul, E., Baidyk, T. (2004). “Improved method of handwritten digit recognition tested on MNIST database”. Image and Vision Computing, 22, pp. 971–981.

[6]        Kussul E., Baidyk T. (2006). “LIRA neural classifier for handwritten digit recognition and visual controlled microassembly”. Neurocomputing, 69 (16–18), pp. 2227–2235.

[7]        Parallel Distributed Processing: Explorations in the Microstructures of Cognition (1986). Ed. by Rumelhart D. E. and McClelland J.L. Cambridge, MA: MIT Press.

 [8]       Galushkin, A.I. (1974). Sintez Mnogosloynykh Sistem Raspoznavaniya Obrazov. M.: “Energiya”, 1974 p. [Галушкин А.И. (1974). Синтез Многослойных Систем Распознавания Образов. М.: «Энергия», 1974 c.] (In Russian).

[9]        Werbos, P.J. (1974). Beyond regression: New tools for prediction and analysis in the behavioral sciences. Ph.D. thesis, Harvard University, Cambridge, MA.

[10]      Rumelhart, D.E., Hinton, G.E., Williams, R.J. (1986). “Learning internal representations by error propagation”. In: Parallel Distributed Processing, Vol. 1, Cambridge, MA, MIT Press. pp. 318-362.

[11]      Broomhead, D.S., Lowe, D. (1988). “Multivariable functional interpolation and adaptive networks”. Complex Systems. 2, pp. 321–355.

[12]      Schwenker, F., Kestler, H.A., Palm, G. (2001). “Three learning phases for radial-basis-function networks”. Neural Networks. 14 (4–5), pp, 439–458. doi:10.1016/s0893-6080(01)00027-2.

[13]      Kohonen, T. (2001). Self-Organizing Maps (Third Extended Edition), New York, 501 p. ISBN 3-540-67921-9.

[14]      Callan, R. (1999). The Essence of Neural Networks. Prentice Hall Europe, London. ISBN 13: 9780139087325.

[15]      Hopfield, J. (1984). “Neurons with graded response have collective computational properties like those of two-state neurons”. Proceedings of the National Academy of Sciences of the United States of America. 81. pp. 3088-3092. DOI: 10.1073/pnas.81.10.3088.

[16]      Ackley, D.H., Hinton, G.E., Sejnowski, T.J. (1985). “A learning algorithm for Boltzmann machines”. Cognitive Science. 9 (1), pp. 147-169.

[17]      Metropolis, N., Rosenbluth, A.W., Rosenbluth, M.N., Teller, A.H., Teller, E. (1953). “Equations of state calculations by fast computing machines”. Journal Chemical Physics, 21, pp. 1087-1091. DOI: doi.org/10.1063/1.1699114.

[18]      Sozykin, A.V. (2017). “An overview of methods for deep learning in neural networks”. Vestnik Yuzhno-Ural’skogo Gosudarstvennogo Universiteta. Seriya” Vychislitelnaya Matematika i Informatika”. 6 (3), pp. 28-59.

[19]      Fukushima, K. (1980). “Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position”. Biological Cybernetics, 36, pp. 193-202.

[20]      Wiesel, D.H., Hubel, T.N. (1959). “Receptive fields of single neurones in the cat’s striate cortex”. The Journal of Physiology, 148 (3), pp. 574–591. DOI: 10.1113/jphysiol.1959.sp006308.

[21]      Ballard, D.H. (1987). “Modular learning in neural networks”. Proceedings of the Sixth National Conference on Artificial Intelligence. Seattle, Washington, USA, July 13–17, 1987. Vol. 1, pp. 279–284.

[22]      Le Cun, Y., Boser, B., Denker, J.S., Henderson, D., Howard, R.E., Hubbard, W., Jackel, L.D. (1990). “Handwritten digit recognition with a back-propagation network”. Advances in Neural Information Processing Systems 2. Morgan Kaufmann, pp. 396–404.

[23]      Hochreiter, S. (1991). Untersuchungen zu dynamischen neuronalen netzen. Diploma thesis. Institut fur Informatik, Lehrstuhl Prof. Brauer. Technische Universitat Munchen.

[24]      Hochreiter, S., Bengio, Y., Frasconi, P., Schmidhuber, J. (2001). Gradient flow in recurrent nets: the difficulty of learning long-term dependencies. In S. C. Kremer & J. F. Kolen (ed.), A Field Guide to Dynamical Recurrent Neural Networks. Wiley-IEEE Press, pp. 237–243. DOI: 10.1109/9780470544037.ch14.

[25]     Хуршудов А.А. (2014). Обучение многослойного разреженного автокодировщика на изображениях большого масштаба. Вестник компьютерных и информационных технологий, 2, C. 27-30. DOI: 10.14489/vkit.2014.02 (In Russian).

[26]      Hinton, G.E. (2002). “Training products of experts by minimizing contrastive divergence”. Neural Computation. 14 (8), pp. 1771-1800. DOI: 10.1162/089976602760128018.

[27]      He, K., Zhang, X., Ren, S., et al. (2016). “Deep residual learning for image recognition”. IEEE Conference on Computer Vision and Pattern Recognition (Las Vegas, NV, USA, 27–30 June 2016), pp. 770–778. DOI: 10.1109/CVPR.2016.90.

Надійшла 21.10.2022