Управляющие системы и машины, №5, 2016, статья 8
DOI: https://doi.org/10.15407/usim.2016.05.062
Урсатьев А.А. Некоторые программные среды аналитики больших данных и машинного обучения. Управляющие системы и машины. 2016. № 5. С. 62-75.
УДК 004.65:004.7:004.75:004.738.5
О.А. Урсатьєв, к. техн. н., Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України, просп. Глушкова, 40, Київ 03187, Україна, E-mail: aleksei@irtc.org.ua
Некоторые программные среды аналитики больших данных и машинного обучения
Рассмотрено машинное обучение и распределенная обработка данных на Apache Mahout. Сопоставлены две его реализации – на основе использования парадигмы MapReduce и программной конструкции (framework) Spark с математической средой Mahout Samsara, которая создает семантически дружественные условия для линейной алгебры, построена по образу базового пакета в R, содержит алгебраический DSL Scala и оптимизатор выражений. Библиотека ML Mllib поддерживает универсальную масштабируемую линейную алгебру и включает в себя многие современные алгоритмы.
Загрузить полный текст в PDF (на русском).
Ключевые слова: обработка больших данных, аналитика, машинное обучение, Apache Mahout, MapReduce, Mahout Samsara, Spark.
Поступила 13.07.2016