Консервативные СУБД класса BigData с регулярным планом обработки запросов на кластерной платформе

Разрабатываемые в диссертации прототипы СУБД предназначены для изыскания возможностей реализации экономичных параллельных/распределенных консервативных СУБД повышенных объемов, которые смогут эффективно обрабатывать поток запросов к БД объемом в десятки и сотни GB на сравнительно недорогих кластерных платформах с применением средств MySQL и GPU-акселераторов на исполнительном уровне. Использование готовой СУБД обусловлено тем, что создание полнофункциональной новой СУБД может занять годы при работе большой команды высококвалифицированных разработчиков. Поэтому, чтобы не оказаться в догоняющей позиции, новые отечественные СУБД следует создавать на базе готовых СУБД с открытым кодом и свободной лицензией, поддерживаемых международным сообществом. PostgreSQL является более совершенной СУБД, чем MySQL, и активно позиционируется на территории России. Но MySQL позволяет использовать различные «движки» и имеет систему расширений. Эти особенности упрощают и ускоряют разработку. Цели исследований. Основной целью является повышение эффективности (по критерию «производительность/стоимость») экономичных систем консервативных баз данных повышенных объемов при обработке по регулярному плану (используемому в СУБД Clusterix) непрерывных потоков сложных запросов типа «селекция – проекция – соединение» до уровня, сравнимого с технологией Spark, полагаемой в настоящее время наиболее перспективной. Развитие технологии PerformSys, перспективной при умеренных объемах баз данных, служит дополнительной целью. Задача исследований. В соответствии с поставленной целью основной задачей исследований является анализ возможностей реализации экономичных консервативных СУБД повышенных объемов – СУБД Clusterix-N (N – от New), сравнимых по эффективности с системой Spark при обработке потока запросов к БД объемом в сотни GB и более на сравнительно недорогих кластерных платформах с использованием регулярного плана обработки запросов, применением средств MySQL и GPU-акселераторов на исполнительном уровне. Научная новизна: 1. Разработан способ претрансляции запросов к регулярному плану, основанный на таком дроблении исходного запроса на SQL-фрагменты, который, в отличие от использованного для Clusterix метода, позволяет его использовать с различными инструментальным СУБД. 2. Предложена интерпретация методологии конструктивного моделирования систем применительно к задаче моделирования процесса синтеза консервативных СУБД класса BigData, которая, в отличие от ранее использованной для Clusterix-подобных СУБД, позволяет добиться большей эффективности системы. 3. Предложен и реализован метод параллельной обработки селективных запросов в СУБД Clusterix-N на уровне IO, основанный на поблочной выборке из СУБД MySQL, что, в отличие от ранее реализованного метода в Clusterix-подобных системах, позволяет использовать все процессорные ядра всех узлов IO для обработки одного селективного запроса с полной загрузкой процессорных ядер. 4. Для СУБД Clusterix-N предложены и реализованы методы сосредоточенной и распределенной динамической сегментации промежуточных/временных отношений с применением GPU-ускорителей, основанные на хешировании c ускорением на GPU и распределении данных по всем процессорным ядрам всех узлов JOIN, что, в отличие от реализации этой процедуры в СУБД Clusterix и Clusterix-M, позволяет существенно ускорить операции хеширования, загрузить все процессорные ядра всех узлов уровня JOIN и более эффективно использовать сеть. 5. Предложен и реализован в СУБД PerformSys метод распределения потока запросов по процессорным ядрам кластерной платформы с их полной загрузкой, основанный на стратегии «запрос на ядро +1», что, в отличие от реализации в MySQL Router, позволяет передавать в узлы ровно столько запросов, сколько они могут эффективно обработать. 6. Выявлена возможность дальнейшего повышения эффективности Clusterix-подобных систем (переход от Clusterix-N к архитектуре Clusterix-G), основанного на работе со сжатыми БД, что, в отличие от применения GPU для выполнения SQL запросов в, позволяет увеличить объемы хранимых данных и ускорить их передачу по сети. 7. Предложены методы межрегиональной балансировки нагрузки для территориальной распределенных консервативных СУБД, основанные на подсчете веса очередей и времени активности каждого региона, что, в отличие от общепринятых методов балансировки нагрузки, позволяет более равномерно распределять нагрузку по регионам и увеличить эффективность эксплуатации территориально распределенных СУБД. Практическая значимость. Помещенные в открытый доступ исследовательские прототипы систем Clusterix-N и PerformSys могут быть использованы как действующая платформа для создания экономично-эффективных аналитических систем в организациях с ограниченными финансовыми возможностями и изучения вопросов параллельной/распределенной обработки данных в учебном процессе ВУЗов.

Информатика
Диссертации

Вуз: Казанский национальный исследовательский технический университет им. А.Н. Туполева-КАИ (КНИТУ КАИ)

ID: 5f3e6bcecd3d3e0001526aaf
UUID: 34b39c00-c50e-0138-1dbb-0242ac180006
Язык: Русский
Опубликовано: больше 3 лет назад
Просмотры: 25

10.5

Роман Классен

Казанский национальный исследовательский технический университет им. А.Н. Туполева-КАИ (КНИТУ КАИ)


0

Комментировать 11

Рецензировать 0

Скачать - 5,2 МБ


Поделиться работой
Current View

Рецензии:

  Авторизуйтесь, чтобы добавить рецензию

- у работы пока нет рецензий -


6315.12
Игорь Маслеников

и хорошего настроения


6315.12
Игорь Маслеников

удачи


6315.12
Игорь Маслеников

успехов в конкурсе


6315.12
Игорь Маслеников

Наверное было затрачено много времени и труда на работу


6315.12
Игорь Маслеников

Продолжай свое исследование


6315.12
Игорь Маслеников

Админам респект


6315.12
Игорь Маслеников

Как на счет взаимных комментариев под работами?)


6315.12
Игорь Маслеников

Красиво написанная работа


6315.12
Игорь Маслеников

Так держать


6315.12
Игорь Маслеников

Молодец


6315.12
Игорь Маслеников

Интересная работа!

Для лиц старше 18 лет