Управляющие системы и машины, №2, 2019, статья 3

https://doi.org/10.15407/usim.2019.02.025
Стеценко І.В., Талько Ю.С. Методи стиснення моделей в глибинному навчанні на основі методу вчителя-студента.  Управляющие системы и машины. 2019. № 2. С. 25–31.

Abstract on English.

УДК 004.023

И.В. Стеценко, доктор. техн. наук, профессор. кафедра автомат. систем обработки информации и управления, Нац. техн. ун-т Украины «Киевский политехнический институт имени Игоря Сикорского» (НТУУ «КПИ им. И. Сикорского»), просп. Победы, 37, Киев, 03056, Украина, stiv.inna@gmail.com

Ю.С. Талько, студент, кафедра автомат. систем обработки информации и управления, Нац. техн. ун-т Украины «Киевский политехнический институт имени Игоря Сикорского» (НТУУ «КПИ им. И. Сикорского»), просп. Победы, 37, Киев, 03056, Украина, talko.yura@gmail.com

МЕТОДЫ СЖАТИЯ МОДЕЛЕЙ В ГЛУБИННОМ ОБУЧЕНИИ НА ОСНОВЕ МЕТОДА СТУДЕНТА-УЧИТЕЛЯ

Введение. Применение глубоких нейросетей связано с обработкой больших объемов данных внешнего мира (data set) (изображения, видео, огромные массивы статистических данных), что при недостаточном количестве вычислительных ресурсов приводит к неприемлемым затратам времени. С появлением методов сжатия появилась возможность значительно сократить затраты времени, используя для вычислений глубокие сети, и, соответственно, появилась возможность применять их на мобильных или других устройствах с ограниченными вычислительными ресурсами. В статье приведен метод сжатия с использованием шумового регуляризатора и дистилляции знаний.

Цель статьи — предложить эффективный способ сжатия и обучения модели путем видоизменения способа дистилляции знаний.

Методи. Для обеспечения большей точности и меньшего количества ошибок в модели предложен метод сжатия на основе введения регуляризатора, который добавляет гауссовский шум к знаниям учителя в методе студента-учителя (student-teacher training).

Результат. Результаты экспериментов свидетельствуют, что при правильном подборе набора данных и уровня шума можно получить уменьшение количества ошибок до 11 процентов. Таким образом, использование предложенного метода привело к ускорению обучения модели студента (за счет того, что обучение, как таковое, уже было проведено ранее). А с помощью регуляризатора уменьшено количество ошибок, которые допускает сеть студента.

Вывод.  Предложенный метод сжатия моделей на основе имитации обучения от нескольких учителей предоставляет возможность уменьшить количество ошибок в сравнении с обычным подходом студента-учителя (student-teacher methods).

Загрузить полный текст в PDF (на украинском).

Ключевые слова: нейросети, модель, глубинное обучение, дистилляция знаний, гауссовский шум.

Поступила 24.01.2019