Управляющие системы и машины, №2, 2019, стаття 5

https://doi.org/10.15407/usim.2019.02.040

Урсатьев А.А. Большие Данные. Аналитические базы данных и хранилища: Greenplum. Управляющие системы и машины. 2019. № 2. С. 40–69.

Abstract on English.

УДК 303.721;004.03142

О.А. Урсатьєв, канд. техн. наук, старший науковий співробітник, провідний науковий співробітник, Міжнародний науково-навчальний центр інформаційних технологій та систем НАН та МОН України, просп. Глушкова, 40, Київ 03187, Україна, aleksei@irtc.org.ua

ВЕЛИКІ ДАНІ. АНАЛІТИЧНІ БАЗИ ДАНИХ І СХОВИЩА: GREENPLUM

Вступ. Стаття є продовженням досліджень Великих Даних і інструментарію, що трансформується в нове покоління технологій і архітектури платформ БД та сховищ для інтелектуального виводу. У даній частині огляду подано DB Greenplum. Основну увагу приділено питанням зміни інфраструктури, інструментального середовища і платформи для виявлення необхідної інформації та нових знань з Великих Даних, а початкові відомості про продукт наведено в загальній характеристиці виробу.

Мета. Розглянути та оцінити ефективність застосування інфраструктурних рішень нових розробок в дослідженнях Великих Даних для виявлення нових знань, неявних зв’язків і поглибленого розуміння, проникнення в суть явищ і процесів.

Методи. Інформаційно-аналітичні методи і технології обробки даних, методи оцінки та прогнозування даних, з урахуванням розвитку найважливіших галузей інформатики та інформаційних технологій.

Результати. Greenplum, так само як Netezza і Teradata, створив свій комплекс Data Computing Appliance, пізніше – аналітичну БД Pivotal Greenplum Database корпоративного класу з потужною і швидкою аналітикою для великих обсягів даних під торговою маркою  Pivotal. Реляційна БД використовує широкомасштабну паралельну MPP-архітектуру без розподілу ресурсів на основі ядра Postgres Core. Внутрішні елементи PostgreSQL були модифіковані або доповнені для підтримки паралельної структури БД Greenplum. Впроваджено технологію Greenplum MPP Scatter/Gather Streaming швидкого завантаження (вивантаження), поліморфного зберігання даних. Для масового завантаження і читання даних використовується Append-оптимізований формат зберігання, що забезпечує переваги продуктивності в порівнянні з таблицями Heap. Управління паралелізмом в БД Greenplum і PostgreSQL відбувається без використання блокування для його контролю. Узгодженість даних підтримується мультиверсійною моделлю контролю конкурентних транзакцій MVCC, що забезпечує ізоляцію транзакцій для кожного сеансу БД.

GPORCA – оптимізатор запитів ORCA розширює можливості планування і оптимізації успадкованого GPQUERY. Вперше ЕМС анонсувала свою програму розвитку аналітики Big Data в 2011 р. Була представлена комплексна стратегія інтеграції та підтримки ПЗ з відкритим вихідним кодом Apache Hadoop. В результаті злиття БД Greenplum з Hadoop з’явилася можливість в рамках одного сховища розширити типи даних в аналітичних дослідженнях.

Адаптація БД Greenplum для розподіленої файлової системи HDFS виконувалася протягом більше двох років найбільшої командою розробників Hadoop, так як було потрібно створити рівень зберігання, який зміг би поліпшити поточну версію HDFS з точки зору продуктивності, доступності та простоти використання. На ринку послуг, що надають підтримку інфраструктури Hadoop, поряд з компаніями Cloudera, Hortonworks і MapR, з’явилися постачальники рішень для зберігання і обробки даних в особі EMC, Greenplum і Pivotal, які також стали просувати свій власний дистрибутив Hadoop.
Розглянуто використовувані технології, що модифікують інфраструктуру Hadoop для платформи аналітики в продуктах Greenplum, і середовища інтеграції реляційної БД з Hadoop: від записуваних зовнішніх таблиць до розширення БД Greenplum (PXF), що дозволяє обмінюватися даними зі сторонніми гетерогенними системами; Pivotal Greenplum HAWQ – власного механізму запитів SQL Hadoop, що поєднує в собі ключові технологічні переваги бази даних MPP з масштабованістю і зручністю Hadoop; платформу self-service data Greenplum Chorus.

Загальні висновки. Проаналізувавши порівняно невеликий ряд аналітичних СУБД для Великих Даних широко відомих виробників в світовому ІТ-співтоваристві крізь призму трансформації існуючих методів обробки та інфраструктури в рішення, які визначаються  IDC як нове покоління технологій і архітектур, призначених для вилучення економічної вигоди з дуже великих обсягів різного типу даних, що забезпечують високу швидкість знімання і аналізу, можна зробити наступний висновок.

1. Поряд з вже загальновизнаною архітектурою масового паралелізму обробки, MPP в класі обчислювальних систем, що складаються з безлічі вузлів, організованих за принципом shared nothing, застосовують кластер Apache Hadoop з широко відомою програмною інфраструктурою, в яку інтегровані ряд модулів, програмних каркасів (frameworks), з тими чи іншими цільовими функціями, що дозволяють створити повнофункціональну платформу зберігання і обробки неструктурованих даних.

Виниклу дилему – можливість обробки в рамках одного сховища різнорідних типів даних високопаралельними, заснованими на мові SQL системами, що забезпечують повне дотримання ACID, і розподіленими системами Hadoop, які швидко стали кращими при роботі з неструктурованою інформацією, мають ряд цікавих рішень інтеграції, але два з них заслуговують на особливу увагу.

Одне з них – проект HAWQ – це рівень реляційної бази даних, розташований поверх розподіленої файлової системи Hadoop (HDFS). HAWQ записує і зчитує дані з HDFS спочатку. HAWQ – це власний механізм запитів SQL Hadoop, який поєднує в собі ключові технологічні переваги бази даних MPP з масштабованістю і зручністю Hadoop. Друге рішення – сховище, яке надається уніфікованою архітектурою даних Teradata Unified Data Architecture™, і платформа керування даними, що враховує всі варіанти застосування сховищ: традиційне, операційне, логічне і контекстно-незалежне. Високопродуктивний доступ до даних, обробку і віртуальну доставку до систем в гетерогенних аналітичних середовищах забезпечує екосистема Teradata QueryGrid™ – своєрідна матриця, яка використовує паралельне переміщення даних між об’єктами обміну.
Ідея екосистемного підходу для охоплення різного типу даних, зводиться до зв’язування вузлових інформаційних точок в різних середовищах. Прийнята уніфікована архітектура даних Teradata® UDA™ не суперечить єдиному поданню даних, без їх переміщення, – концепту логічних сховищ даних і підкреслюють статус LDW як остаточного рішення для БД і аналітики.

2. Аналітичні можливості досліджених систем не обмежуються тільки SQL-аналізом. Так, Greenplum розширює можливості SQL через призначені для користувача функції в таких мовах як Python, R, Java, Perl, C / C ++. Teradata надає готові до використання виразні функції SQL-MapReduce® і Graph для високопродуктивної аналітики, функції часових рядів, аналітики тексту і багато іншого для дослідження BigDate. Аналітичні механізми (SQL, SQL-MapReduce і SQL-Graph) забезпечують оптимальну обробку аналітичних задач у великих обсягах даних, наприклад, повна обробка мережевої аналітики (SNAP) в Teradata дозволяє викликати одним SQL-запитом розширену
аналітику декількох видів (граф, шлях/шаблон, текст, SQL і статистичний прогнозний аналіз).

3. Наявність в розробках бібліотек масштабованих алгоритмів машинного навчання Machine Learning надає аналітику, яка виконується в оперативній пам’яті і забезпечує можливість інтелектуального аналізу даних при більш з’ясовних моделях, що безумовно наближає нас при наявності розвинених механізмів виявлення «потрібних даних» та бібліотек графічного відображення інформації, до платформ наукових досліджень даних.

4. Щорічне зростання BigDate обумовлює підвищення швидкості обробки даних. Використання аналітичних обчислень в БД, що усуває накладні витрати при переміщенні великих наборів даних до аналітичних застосунків, стало вже звичним. Більш широке використання пам’яті (in-memory computing, IMC) – платформи, що працюють в комп’ютерній пам’яті, ще порівняно рідкісні. Так, в Kx Systems (kdb +), завдяки IMC була реалізована архітектура
гібридної транзакційно/аналітичної обробки – HTAP, що дозволяє застосункам аналізувати дані по мірі їх надходження і поновлення функціями обробки транзакцій. Розширена аналітика в режимі реального часу, така як прогнозування і моделювання, стала невід’ємною частиною спостережуваного процесу, а не позиціонується як окрема дія, виконана після. Teradata реалізувала інноваційну технологію баз даних Intelligent Memory Teradata – розширений простір пам’яті за межами кеша, що значно збільшило продуктивність запитів і забезпечило ефективну технологію зберігання різноманітних даних в пам’яті. Pivotal GemFire розробила технологію in-memory data grids (IMDG) розподілених високопродуктивних сховищ даних в пам’яті для роботи сучасних високошвидкісних за стосунків з інтенсивною обробкою даних.
Технології IMC, такі як система БД в оперативній пам’яті (IMDS) і високомасштабовані відмовостійкі сховища даних в оперативній пам’яті (in-memory data grids) низької латентності будуть затребувані, в тому числі і для розширеної аналітики – прогнозування і моделювання.

5. Hadoop і компоненти його екосистеми продуктів досить широко представлені і функціональні, щоб задовольнити майже всім вимогам Big Data. Технологія в цілому відпрацьована, її визнали відомі в світі ІТ-компанії і активно використовували для розробки і впровадження інфраструктурних рішень прогресивних засобів, в тому числі і розширеної аналітики для бізнес-аналізу і платформ наукових досліджень даних. Наступила фаза відносної стабільності (commodity phase), яка свідчить про те, що технологія стає звичайною і доступною для всіх.

Завантажити повний текст в PDF (російською).

Ключовi слова:  Greenplum Data Computing Appliance, MPP-архітектура без розподілу ресурсів на основі ядра
PostgreSQL, технологія MPP Scatter/Gather Streaming завантаження (вивантаження), поліморфне зберігання даних, аналітика Big Data, інтеграція платформ, механізм запитів SQL Hadoop HAWQ, самообслуговування даними.

Надійшла 03.04.2019