Консервативные СУБД класса BigData с регулярным планом обработки запросов на кластерной платформе

Роман Классен

Консервативные СУБД класса BigData с регулярным планом обработки запросов на кластерной платформе

Разрабатываемые в диссертации прототипы СУБД предназначены для изыскания возможностей реализации экономичных параллельных/распределенных консервативных СУБД повышенных объемов, которые смогут эффективно обрабатывать поток запросов к БД объемом в десятки и сотни GB на сравнительно недорогих кластерных платформах с применением средств MySQL и GPU-акселераторов на исполнительном уровне. Использование готовой СУБД обусловлено тем, что создание полнофункциональной новой СУБД может занять годы при работе большой команды высококвалифицированных разработчиков. Поэтому, чтобы не оказаться в догоняющей позиции, новые отечественные СУБД следует создавать на базе готовых СУБД с открытым кодом и свободной лицензией, поддерживаемых международным сообществом. PostgreSQL является более совершенной СУБД, чем MySQL, и активно позиционируется на территории России. Но MySQL позволяет использовать различные «движки» и имеет систему расширений. Эти особенности упрощают и ускоряют разработку. Цели исследований. Основной целью является повышение эффективности (по критерию «производительность/стоимость») экономичных систем консервативных баз данных повышенных объемов при обработке по регулярному плану (используемому в СУБД Clusterix) непрерывных потоков сложных запросов типа «селекция – проекция – соединение» до уровня, сравнимого с технологией Spark, полагаемой в настоящее время наиболее перспективной. Развитие технологии PerformSys, перспективной при умеренных объемах баз данных, служит дополнительной целью. Задача исследований. В соответствии с поставленной целью основной задачей исследований является анализ возможностей реализации экономичных консервативных СУБД повышенных объемов – СУБД Clusterix-N (N – от New), сравнимых по эффективности с системой Spark при обработке потока запросов к БД объемом в сотни GB и более на сравнительно недорогих кластерных платформах с использованием регулярного плана обработки запросов, применением средств MySQL и GPU-акселераторов на исполнительном уровне. Научная новизна: 1. Разработан способ претрансляции запросов к регулярному плану, основанный на таком дроблении исходного запроса на SQL-фрагменты, который, в отличие от использованного для Clusterix метода, позволяет его использовать с различными инструментальным СУБД. 2. Предложена интерпретация методологии конструктивного моделирования систем применительно к задаче моделирования процесса синтеза консервативных СУБД класса BigData, которая, в отличие от ранее использованной для Clusterix-подобных СУБД, позволяет добиться большей эффективности системы. 3. Предложен и реализован метод параллельной обработки селективных запросов в СУБД Clusterix-N на уровне IO, основанный на поблочной выборке из СУБД MySQL, что, в отличие от ранее реализованного метода в Clusterix-подобных системах, позволяет использовать все процессорные ядра всех узлов IO для обработки одного селективного запроса с полной загрузкой процессорных ядер. 4. Для СУБД Clusterix-N предложены и реализованы методы сосредоточенной и распределенной динамической сегментации промежуточных/временных отношений с применением GPU-ускорителей, основанные на хешировании c ускорением на GPU и распределении данных по всем процессорным ядрам всех узлов JOIN, что, в отличие от реализации этой процедуры в СУБД Clusterix и Clusterix-M, позволяет существенно ускорить операции хеширования, загрузить все процессорные ядра всех узлов уровня JOIN и более эффективно использовать сеть. 5. Предложен и реализован в СУБД PerformSys метод распределения потока запросов по процессорным ядрам кластерной платформы с их полной загрузкой, основанный на стратегии «запрос на ядро +1», что, в отличие от реализации в MySQL Router, позволяет передавать в узлы ровно столько запросов, сколько они могут эффективно обработать. 6. Выявлена возможность дальнейшего повышения эффективности Clusterix-подобных систем (переход от Clusterix-N к архитектуре Clusterix-G), основанного на работе со сжатыми БД, что, в отличие от применения GPU для выполнения SQL запросов в, позволяет увеличить объемы хранимых данных и ускорить их передачу по сети. 7. Предложены методы межрегиональной балансировки нагрузки для территориальной распределенных консервативных СУБД, основанные на подсчете веса очередей и времени активности каждого региона, что, в отличие от общепринятых методов балансировки нагрузки, позволяет более равномерно распределять нагрузку по регионам и увеличить эффективность эксплуатации территориально распределенных СУБД. Практическая значимость. Помещенные в открытый доступ исследовательские прототипы систем Clusterix-N и PerformSys могут быть использованы как действующая платформа для создания экономично-эффективных аналитических систем в организациях с ограниченными финансовыми возможностями и изучения вопросов параллельной/распределенной обработки данных в учебном процессе ВУЗов.

Информатика

Диссертации

Вуз: Казанский национальный исследовательский технический университет им. А.Н. Туполева-КАИ (КНИТУ КАИ)

ID: 5f3e6bcecd3d3e0001526aaf

UUID: 34b39c00-c50e-0138-1dbb-0242ac180006

Язык: Русский

Опубликовано: больше 3 лет назад

Просмотры: 25

10.5