Управляющие системы и машины, №1, 2019, стаття 6

https://doi.org/10.15407/usim.2019.01.052
Урсатьев А.А. Большие Данные. Аналитические базы данных и хранилища: Netezza.  Управляющие системы и машины. 2019. № 1. С. 52-67.

Abstract on English.

УДК 004.65:004.7:004.75:004.738.5

О.А. Урсатьєв, канд. техн. наук, стар. наук. співроб., пров. наук. співроб., Міжнародний науково-навчальний центр інформаційних технолоaій та систем НАН та МОН України, просп. Глушкова, 40, Київ 03187, Україна, aleksei@irtc.org.ua

 ВЕЛИКІ ДАНІ. АНАЛІТИЧНІ БАЗИ ДАНИХ І СХОВИЩА: NETEZZA

Вступ. Стаття є продовженням досліджень Великих Даних і інструментарію, що трансформується в нове покоління технологій і архітектури платформ БД та сховищ для інтелектуального виводу. У даній частині огляду подано DB Netezza. Основну увагу приділено питанням зміни інфраструктури, інструментального середовища і платформи для виявлення необхідної інформації та нових знань з Великих Даних, а початкові відомості про продукт наведено в загальній характеристиці виробу.

Мета. Розглянути та оцінити ефективність застосування інфраструктурних рішень нових розробок в дослідженнях Великих Даних для виявлення нових знань, неявних зв’язків і поглибленого розуміння, проникнення в суть явищ і процесів.

Методи. Інформаційно-аналітичні методи і технології обробки даних, методи оцінки та прогнозування даних, з урахуванням розвитку найважливіших галузей інформатики та інформаційних технологій.

Результати. Netezza, як і Teradata, являє собою конфігурований, підготовлений до швидкого використання, програмно-апаратний комплекс (Appliances), який об’єднує зберігання і обробку даних в одній системі, спроектованої і оптимізованої під аналітику. Використана SN-середа MPP, що не поділяє ресурсів, і головний сервер SMP верхнього рівня системи асиметричної AMPP-архітектури. Він, крім координування робіт, забезпечує приріст продуктивності при збільшенні числа клієнтських сесій. Значна частина обробки даних виконується практично на рівні дискових контролерів вузлів SPU – інтелектуальних оброблювачів сніпетів. Завантаження даних виконується як штатними утилітами, так і засобами інструментів ETL. Netezza хоче змінити існуючий стан і перейти до реального паралельного завантаження.

Ключова особливість Netezza – це мультиплікатор продуктивності аналітичного комплексу, що дає істотне апаратне прискорення виконання запитів SQL. Програмовані логічні матриці ПЛМ на вузлах SPU виконують потокову обробку даних при зверненні до дисків. Внаслідок цього пам’ять і процесори SPU працюють з вже відфільтрованими даними, що значно прискорює подальшу обробку. Ця потокова технологія FAST EngineTM Framework досягається програмуванням функцій декомпресії і фільтрації даних, перевірки синтаксису, видимості транзакцій та ін. Набір потокових механізмів FAST Engines дозволяє створювати нові функції стосовно виникаючих завдань.

Особливу увагу приділено простоті використання і мінімальним вимогам в налаштуваннях. У Netezza практично нічого адмініструвати. Наприклад, компресія даних виконується автоматично і адаптується до типів даних, не вимагаючи від користувача вказівок на потрібні алгоритми. Немає настройки і проектування БД, вимог до моделі даних. Немає індексів і тюнінгу, в тому числі для виконання ad-hoc запитів – продуктивність така, як вона є (з коробки). Управління навантаженням надає функціонал для регулювання ресурсів і приоритизації виконання запитів в середовищі з багатьма користувачами і в умовах змішаного навантаження. Для збільшення кола завдань і розробки власних аналітичних процесів можливо використовувати C / C ++, Java, Python, Fortran, R і підтримку розширяємого open-source інтегрованого середовища розробки (плагін для Eclipse).

Netezza в першу чергу аналітичний комплекс, у якого досить розвинені засоби аналітики, такі як Data Mining, OLAP, Hadoop та ін., проте він має, на думку Monash Research, одну з найнижчих в індустрії вартість володіння за терабайт даних користувача.

Основними конкурентами Netezza в цій області є Teradata, Vertica, IBM, Greenplum та ін.

Виcновок. Система Netezza інтегрується з існуючими продуктами IBM, які додають можливості хмарного зберігання даних DBPaaS IBM і включають в себе використання різних платформ в середовищі локальних і гібридних хмар, підтримку аналітики в БД на Apache Spark автономних СУБД на платформах Db2 та ще багато іншого. Разом з тим, складається враження, що Netezza залишається послідовним прихильником вбудованих в SPU перепрограмованих засобів обробки інформації та успішного вдосконалення ПО, так як саме в цьому вона отримала значний приріст продуктивності. У зв’язку з цим напрошується питання, чи не піде Netezza по шляху вбудовування в SPU продуктивної,  працюючої  в оперативній пам’яті, програмної конструкції Apache Spark зі стандартними бібліотеками для аналітики великих даних на підтримку вже існуючих frameworks на ПЛМ? Принаймні, це представляється в рамках Appliances більш цікавим, ніж будувати ефективні гібридні системи, здатні як обробляти безліч транзакцій, так і одночасно сканувати великі обсяги інформації в пошуках відповіді на аналітичні запити.

Завантажити повний текст в PDF (російською).

Ключовi слова: платформа Data Warehouse Appliance, AMPP™ – асиметрична архітектура з масовим паралелізмом, архiтектура MPP SN (Shared Nothing),  SPU (Snippet Processing Unit) – модулі обробки фрагментів коду,  FPGA (ПЛМ) програмовані логічні матриці – компонента інтелектуальної потокової архітектури передачі запитів (Intelligent Query Streaming® Netezza®), IBM Netezza, SQL-аналітика на Hadoop, підтримка аналітики на Apache Spark у платформах Db2 IBM.

Надійшла 14.05.18