МИНОБРНАУКИ РОССИИ
Федеральное государственное бюджетное образовательное учреждение
высшего образования
«Ижевский государственный технический университет
имени М.Т. Калашникова»
Факультет: «Математика и естественные науки»
Кафедра: «Математическое обеспечение информационных систем
«ДИФФЕРЕНЦИАЦИЯ РЕГИОНОВ
С УЧЕТОМ ОТРАСЛЕВОЙ СТРУКТУРЫ
ВАЛОВОГО РЕГИОНАЛЬНОГО ПРОДУКТА»
(расчетно-пояснительная записка к выпускной квалификационной работе)
Утверждаю
зав. кафедрой МОИС,
д.т.н., профессор
И.Г. Русяк
Руководитель работы
к.ф.-м.н., доцент
Е.В. Касаткина
Выполнил
студент группы Б08-012-1
Ю.А. Логинова
ИЖЕВСК – 2017
Техническое задание
на выпускную квалификационную работу
студента группы Б08-012-1 Логиновой Ю.А.
1. Тема: “Дифференциация регионов с учетом отраслевой структуры валового
регионального продукта”.
2. Цель работы: оценка эффективности регионов РФ с позиции рационального
использования ресурсов.
3. Объект исследования: субъекты Российской Федерации.
4. Предмет исследования: анализ и кластеризация регионов РФ.
5. Состав задач:
5.1. Аналитический обзор математических методов дифференциации регионов
и оценки технической эффективности регионов РФ.
5.2. Исследовать способы оценки меры сходства и методы кластеризации,
учитывающие данных различных типов и априорные веса признака.
5.3. Реализация и анализ работы различных алгоритмов кластеризации регионов
РФ с учетом отраслевой структуры ВРП (иерархический алгоритм, метод kсредних, генетический алгоритм и т.д.).
5.4. Апробация алгоритма формирования однородной группы регионов на
реальных статистических данных за 2015 г. по регионам РФ. Выявления
однородных групп регионов РФ и построение для каждой группы
соответствующей модели производственного потенциала, определяющая
зависимость ВРП от стоимости основных фондов и численности занятых.
5.5. Проверка гипотезы о том, что параметры функций, описывающих
производственный потенциал регионов из разных групп, отличаются в силу
особенностей отраслевой структуры ВРП.
5.6. Анализ результатов кластеризации. Оценка уровня эффективности
регионов РФ с учетом отраслевой структуры.
6. Программное обеспечение:Windows, MSOffice, MSSQLServer.
7. Требование к результатам: Программный комплекс должен быть
задокументирован и обладать интуитивно понятным интерфейсом.
8. Критерий окончания работы: Разработанная система должна быть
представлена в виде установочного файла. Результаты работы должны быть
оформлены в виде отчета.
УТВЕРЖДАЮ
зав. кафедрой МОИС
д.т.н., профессор
И.Г. Русяк
РУКОВОДИТЕЛЬ РАБОТЫ
к.ф.-м.н., доцент
Е.В. Касаткина
ИСПОЛНИТЕЛЬ
студент гр. Б08-012-1
Ю.А. Логинова
2
УДК 519.237.8, 330.552
РЕФЕРАТ
Объем записки: 65 стр., 22 рис., 5 табл., 30 библ. наим.
Ключевые слова: дифференциация, кластер, кластерный анализ,
генетический алгоритм, дендрограмма, метод Варда, метод k-средних,
производственный потенциал, производственная функция, эффективность.
В работе изложена теоретическая основа кластерного анализа и
алгоритмов кластеризации, таких как иерархический кластерный анализ и
метод k-средних. Приведена подробная классификация.
На основе двухэтапного многомерного кластерного анализа проведена
дифференциация
регионов
Российской
Федерации.
Для
анализа
использовались реальные статистические данные за 2015 год по двум
группам показателей: экономические и социальные.
Разработана
информационно-аналитическая
система,
в
которой
программно реализован генетический алгоритм.
В работе проводится проверка гипотезы о том, что параметры функций,
описывающих производственный потенциал регионов из разных групп,
отличаются в силу особенностей отраслевой структуры ВРП.
3
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Объект исследования: субъекты Российской Федерации.
Предмет исследования: анализ и кластеризация регионов РФ.
Актуальность: Российская Федерация отличается высокой степенью
неравномерности экономического развития в территориальном разрезе.
Неравномерность во многом определяется обеспеченностью природными
ресурсами,
исторически
сложившейся
инфраструктурой,
природно-
климатическими условиями, менталитетом населения и другими факторами
объективного характера.
Оценка эффективности регионов РФ с позиции рационального
использования ресурсов представляет собой важную задачу, которая еще
более актуализируется в условиях, когда экономика РФ испытывает
проблемы, а у почти половины регионов дефицит бюджета превышает
средний дефицит по всем регионам. В качестве измерителя эффективности
регионов РФ естественно использовать соотношение между фактическим и
потенциальным размером экономики (в терминах ВРП), рассчитанным в
предположении
рационального
использования
имеющихся
факторов
производства, т. е. труда и капитала.
Цель работы: оценить эффективность регионов РФ с позиции
рационального использования ресурсов.
Для достижения поставленной цели требуется решить следующие
задачи:
1. Аналитический обзор
математических
методов
дифференциации
регионов и оценки технической эффективности регионов РФ.
2. Исследовать способы оценки меры сходства и методы кластеризации,
учитывающие данных различных типов и априорные веса признака.
3. Реализация и анализ работы различных алгоритмов кластеризации
регионов РФ с учетом отраслевой структуры ВРП (иерархический алгоритм,
метод k-средних, генетический алгоритм и т.д.).
4
4. Апробация алгоритма формирования однородной группы регионов на
реальных статистических данных за 2015г. по регионам РФ. Выявления
однородных групп регионов РФ и построение для каждой группы
соответствующей модели производственного потенциала, определяющая
зависимость ВРП от стоимости основных фондов и численности занятых.
5. Проверка гипотезы о том, что параметры функций, описывающих
производственный потенциал регионов из разных групп, отличаются в силу
особенностей отраслевой структуры ВРП.
6. Анализ результатов кластеризации. Оценка уровня эффективности
регионов РФ с учетом отраслевой структуры.
Методика работы основана на использовании методов статистической
обработки данных в частности: методы корреляционного, регрессионного и
кластерного анализа, сравнительный анализ.
Практическая ценность: результаты полученные в ходе исследования
могут быть использованы для разработки эффективной стратегии управления
региональными группами.
Структура и объем: работа содержит введение, 3 раздела, заключение,
которые изложены на 53 страницах. В работу включены 22 рисунка, 5
таблиц, список литературы из 30 наименований.
5
СОДЕРЖАНИЕ
ОСНОВНЫЕ ОПРЕДЕЛЕНИЯ, СОКРАЩЕНИЯ И ОБОЗНАЧЕНИЯ .................. 7
ВВЕДЕНИЕ ................................................................................................................. 10
ГЛАВА 1. АНАЛИТИЧЕСКИЙ ОБЗОР МЕТОДОВ ДИФФЕРЕНЦИАЦИИ
РЕГИОНОВ ................................................................................................................. 12
1.1. Методы дифференциации регионов............................................................... 12
1.2. Общие понятия кластерного анализа ............................................................. 14
1.3. Иерархические методы кластерного анализа ................................................ 17
1.4. Неиерархические методы кластерного анализа ............................................ 21
1.5. Оценка меры сходства, учитывающая данные различных типов и
априорные веса признака ....................................................................................... 23
1.6. Генетический алгоритм ................................................................................... 24
ГЛАВА 2. АППАРАТНЫЕ СРЕДСТВА ДИФФЕРЕНЦИАЦИИ РЕНИОНОВ .. 31
2.1. Обзор статистических программ для анализа данных ................................. 31
2.2. Среда программирования ................................................................................ 35
2.3. Геоинформационная система.......................................................................... 36
2.4. База данных....................................................................................................... 38
2.5. Алгоритмы кластерного анализа .................................................................... 39
ГЛАВА 3. КЛАСТЕРИЗАЦИИ РЕГИОНОВ РОССИИ С УЧЕТОМ
ОТРАСЛЕВОЙ СТРУКТУРЫ ВАЛОВОГО РЕГИОНЛЬНОГО ПРОДУКТА .... 44
3.1. Сбор и анализ данных по регионам Российской Федерации ...................... 44
3.2. Дифференциация регионов по удельным показателям................................ 45
3.3. Построение и анализ производственных функций каждой группы ........... 55
ЗАКЛЮЧЕНИЕ .......................................................................................................... 62
СПИСОК ЛИТЕРАТУРЫ.......................................................................................... 63
6
ОСНОВНЫЕ ОПРЕДЕЛЕНИЯ, СОКРАЩЕНИЯ И ОБОЗНАЧЕНИЯ
Определения
Экономическая эффективность – это соотношение между полученными
результатами производства – продукцией и услугами, с одной стороны, и
затратами труда и средств производства – с другой.
Кластерный анализ – задача разбиения заданной выборки объектов
(ситуаций) на подмножества, называемые кластерами, так, чтобы каждый
кластер состоял из схожих объектов, а объекты разных кластеров
существенно отличались.
Кластер – группа элементов, характеризуемых общим свойством.
Метрика – это расстояние между объектами.
Алгоритм кластеризации – это функция, которая любому объекту ставит
в соответствие номер кластера.
Иерархические
агломеративные
методы
–
эта
группа
методов
кластерного анализа, характеризующаяся последовательным объединением
исходных элементов и соответствующим уменьшением числа кластеров. В
начале работы алгоритма все объекты являются отдельными кластерами. На
первом шаге наиболее похожие объекты объединяются в кластер. На
последующих шагах объединение продолжается до тех пор, пока все объекты
не будут составлять один кластер.
Иерархические дивизимные (делимые) методы – эти методы являются
логической противоположностью агломеративным методам. В начале работы
алгоритма все объекты принадлежат одному кластеру, который на
последующих шагах делится на меньшие кластеры, в результате образуется
последовательность расщепляющих групп.
Дендрограмма – древовидная диаграмма, содержащая n уровней,
каждый
из
которых
соответствует
одному
из
шагов
процесса
последовательного укрупнения кластеров. Дендрограмму также называют
древовидной
схемой,
деревом
объединения
иерархической структуры.
7
кластеров,
деревом
Метод k-средних – метод кластеризации, в результате применения
которого множество элементов векторного пространства разбивается на
заранее известное число кластеров k.
Информационная система – это система, построенная на базе
компьютерной техники, предназначенная для хранения, поиска, обработки и
передачи значительных объемов информации, имеющая определенную
практическую сферу применения.
Информационно-аналитические системы – это класс информационных
систем, предназначенных для аналитической обработки данных.
Генетический алгоритм – это эвристический алгоритм поиска,
используемый для решения задач оптимизации и моделирования путём
случайного подбора, комбинирования и вариации искомых параметров с
использованием механизмов, напоминающих биологическую эволюцию.
Функция приспособленности – некоторая сложная функция, зависящая
от нескольких переменных, и требуется найти такие значения переменных,
при которых значение функции максимально (минимально), определяет то,
насколько эти значения удовлетворяют поставленным условиям задачи.
Оператор скрещивания – операция, при которой две хромосомы
обмениваются
своими
частями.
Может
быть
одноточечным
или
многоточечным (точка разрыва определяется случайным образом).
Оператор мутации –
стохастическое изменение части хромосом. В
строке, которая подвергается мутации, каждый бит с вероятностью p кр
(обычно очень маленькой) меняется на другой.
Оператор инверсии – перестановка в структуре некоторой ее части
наоборот.
Элитарный отбор – Создается промежуточная популяция, которая
включает в себя как родителей, так и их потомков. Члены этой популяции
оцениваются, а за тем из них выбираются N самых лучших (пригодных),
которые и войдут в следующее поколение.
8
Сокращения
РФ
–
Российская Федерация;
ИС
–
информационная система;
ИАС
–
информационно-аналитическая система;
ГИС
–
геоинформационная система;
СУБД
–
система управления базами данных;
SQL
–
Structured Query Language (англ. язык структурированных
запросов);
ВРП
валовый региональный продукт.
Обозначения
H
–
множество регионов РФ;
Tp
–
множество близкорасположенных друг к другу регионов
( p -ый кластер), p 1, K ;
K
–
количество кластеров;
np
–
количество регионов входящих в p -ый кластер.
h jp
–
hp
–
центр p -го кластера;
x
–
среднеквадратическое отклонение показателя;
–
мера сходства между регионами с учетом весовых
ℎ ;ℎ
j -ый регион, входящий в p -ый кластер, j 1, n p ;
коэффициентов.
9
ВВЕДЕНИЕ
В последние годы значительно усиливается роль регионального
управления в общей системе государственного управления, поскольку
именно через регионы осуществляется управление государством в целом.
Интенсивное
развитие
экономики
России
оказывает
влияние
на
территориальную дифференциацию регионов по различным показателям.
Оценка эффективности регионов РФ с позиции рационального
использования ресурсов представляет собой важную задачу, которая еще
более актуализируется в условиях, когда экономика РФ испытывает
проблемы, а у почти половины регионов дефицит бюджета превышает
средний дефицит по всем регионам.
В качестве измерителя эффективности регионов РФ естественно
использовать соотношение между потенциальными фактическим размером
экономики
(в
терминах
ВРП),
рассчитанным
в
предположении
рационального использования имеющихся факторов производства, т. е. труда
и капитала.
Принято различать две составляющие экономической эффективности:
техническую эффективность (technical efficiency), которая позволяет
определять отклонения фактического выпуска от максимально возможного
при заданном профиле ресурсов, где максимально возможный выпуск при
каждом возможном профиле ресурсов отвечает производственной границе;
эффективность распределения ресурсов (allocative efficiency), которая
позволяет измерить степень оптимальности распределения ресурсов.
В данной работе рассматривается оценка технической эффективности
использования регионами РФ таких факторов производства, как трудовые
ресурсы и физический капитал.
Для проведения успешной бюджетной и социально-экономической
политики необходимо учитывать региональные особенности, и на основании
этого оценивать потенциальные возможности развития регионов.
10
В данной работе проверяется гипотеза о зависимости параметров
модели
граничного
характеристик
производственного
структуры
экономики.
потенциала
Естественно
регионов
РФ
предполагать,
от
что
производственные функции для некоторых регионов отличаются в силу
особенностей устройства региональных экономик и разных конкурентных
преимуществ, но при этом имеются однородные группы похожих регионов,
которым соответствует единая производственная функция.
Цель работы – оценить эффективность регионов РФ с позиции
рационального использования ресурсов.
В первой главе работы приведен
аналитический обзор методов
дифференциации регионов на основе кластерного анализа. Введены
основные понятия и определения, приведена классификация методов
кластерного анализа.
Во
второй
главе
представлен
обзор
программ
для
анализа
статистических данных; аппаратные средства, с помощью которых была
решена задача дифференциации регионов с учетом отраслевой структуры
ВРП. Приведены алгоритмы кластерного анализа.
В третьей главе проведен статистический анализ данных социальноэкономических показателей по регионам РФ методами кластерного анализа.
Определено оптимальное количество кластеров и выполнено разбиение
объектов по группам. Для каждого кластера построена производственная
функция типа Кобба-Дугласа, учитывающая структурные особенности
экономики регионов, что выражается в различной чувствительности ВРП к
изменению трудовых ресурсов и величины капитала.
В заключении сделан вывод по выпускной квалификационной работе в
целом.
11
ГЛАВА 1. АНАЛИТИЧЕСКИЙ ОБЗОР МЕТОДОВ
ДИФФЕРЕНЦИАЦИИ РЕГИОНОВ
1.1. Методы дифференциации регионов
Рейтинг социально – экономического положения регионов Российской
Федерации, построенный экспертами Рейтингового агентства «РИА Рейтинг»
медиагруппы
МИА
«Россия
сегодня»,
основанный
на
социально-
экономических показателях регионов, отвечает на вопрос о позиции региона
на карте Российской Федерации, определяет диспропорции в уровне
регионального развития.
На основе анализа социально-экономического положения регионов
Российской Федерации, был построен данный рейтинг. Рейтинг построен на
основе важнейших показателей, которые характеризуют экономическое
положение регионов России. Для того, чтобы избежать искажения и сделать
результаты
максимально
объективными,
необходимо
использовать
численные показатели официальной статистики. Источником информации
для анализа являются данные Росстата, Минфина РФ, Федерального
казначейства. В рейтинг включены все субъекты РФ. Для определения
положения региона Российской Федерации среди других регионов и их
сравнения, необходимо исследовать регионы по большому количеству
социально-экономических показателей.
Необходимо сформировать класс основных социально – экономических
показателей, для определения положения региона РФ и провести их анализ.
Основные показатели можно разделить на 4 группы:
Показатели масштаба экономки;
Показатели эффективности экономики;
Показатели бюджетной сферы;
Показатели социальной сферы.
12
Для построения рейтинга регионы Российской Федерации были
расположены в порядке убывания по значению интегрального рейтингового
балла.
Интегральный рейтинговый балл рассчитывается в три этапа. На
первом этапе определяется рейтинговый балл субъекта РФ по каждому
показателю, на втором этапе определяется рейтинговый балл субъекта РФ по
группе показателей, и на третьем этапе определяется интегральный
рейтинговый балл субъекта РФ. Рейтинговый балл субъекта РФ по каждому
показателю рассчитывается в интервале значений от 1 до 100. Значение
рейтингового балла определяется путем обработки множества значений
данного показателя всех субъектов РФ таким образом, чтобы субъект РФ с
наилучшим значением показателя получает рейтинговый балл, равный 100, а
субъект РФ с наихудшим значением – 1. При этом при определении
рейтингового учитывается не только место каждого субъекта РФ в списке
всех субъектов РФ по данному показателю, но и степень отставания от
лучшего результата.
Для
нахождения
рейтингового
балла
по
каждому
множеству
социально-экономических показателей, необходимо рассчитать среднее
арифметическое рейтинговых баллов всех входящих в группу показателей.
Для нахождения балла каждого региона РФ необходимо рассчитать среднее
геометрическое
баллов
всех
множеств
социально-экономических
показателей. Учитывая, что максимально возможное значение рейтингового
балла по каждому показателю равняется 100, а минимальное – 1,
максимально возможным значением интегрального рейтинга субъекта РФ
является 100, а минимально возможным – 1. Максимально возможное
значение интегрального рейтинга субъект РФ может получить только в том
случае, если он занимает первые (лучшие) места по всем анализируемым
показателям. Соответственно минимально возможное значение рейтингового
балла (1) будет у субъекта РФ, который занимает последние места по всем
анализируемым показателям.
13
1.2. Общие понятия кластерного анализа
Кластерный анализ (англ. Dataclustering)– задача разбиения заданной
выборки объектов (ситуаций) на подмножества, называемые кластерами, так,
чтобы каждый кластер состоял из похожих объектов, а объекты разных
кластеров существенно отличались. Задача кластеризации относится к
статистической
обработке.
Кластерный
анализ –
это
многомерная
статистическая процедура, которая выполняет сбор данных, содержащих
информацию о выборке объектов, и затем упорядочивает объекты в
сравнительно однородные группы (кластеры).
Термин «кластер» переводится как гроздь, пучок. Все наблюдения,
входящие в данный кластер, более схожи между собой, чем с элементами
других кластеров. Таким образом, кластеризация помогает провести
классификацию объектов (наблюдений). Этот метод анализа не использует
априорных предположений о характере распределения и опирается только на
сами данные.
Постановка задачи кластеризации неоднозначна и сложна, поскольку:
в общем случае неизвестно оптимальное количество кластеров;
выбор критерия качества кластеризации, как и меры «похожести» или
близости свойств объектов между собой, часто носит субъективный
характер.
Цели кластеризации зависят от конкретной решаемой задачи и могут
быть следующими:
Изучение данных. Разбиение множества наблюдений на группы
помогает выявить внутренние закономерности, увеличить наглядность
представления данных, выдвинуть новые гипотезы, понять, насколько
информативны свойства объектов.
Облегчение анализа. При помощи кластеризации можно упростить
дальнейшую обработку данных и построение моделей: каждый кластер
обрабатывается индивидуально, для каждого кластера создается
14
отдельная
модель.
В
этом
смысле
кластеризация
может
рассматриваться в качестве подготовительного этапа перед решением
задач классификации и регрессии.
Сжатие данных. В случае, когда данные имеют большой объем,
кластеризация позволяет сократить объем хранимых данных, оставив
по одному наиболее типичному представителю от каждого кластера.
Прогнозирование. Кластеры используются не только для компактного
представления объектов, но и для распознавания новых. Каждое новое
наблюдение относится к тому кластеру, присоединение к которому
наилучшим образом удовлетворяет критерию качества кластеризации.
Обнаружение аномалий. Кластеризация применяется для выделения
нетипичных наблюдений. Эту задачу также называют обнаружением
аномалий. Интерес здесь представляют кластеры, в которые попадает
крайне мало, например 1–3 наблюдений [1 – 4,9].
Этапы кластеризации не зависят от предмета изучения и являются
следующими:
1.
необходимо выбрать элементы для дальнейшей кластеризации;
2.
необходимо выделить переменные, по которым будет проводится
дальнейший анализ;
3.
следует вычислить меры близости между наблюдениями;
4.
для создания кластеров необходимо выбрать метод кластерного
анализа;
5.
в
завершении
кластеризации,
следует проверить
достоверность
полученных результатов.
Для проведения кластерного анализа следует учесть соответствующие
условия выбора данных:
исследуемые данные не должны коррелировать между собой;
данные должны быть безразмерными;
распределение показателей должно быть близко к нормальному;
15
случайные факторы не должны влиять на исследуемые показатели;
исследуемые данные должны исключать все возможные выбросы и
быть однородными.
Результаты
кластеризации
также
должны
быть
проверены
формальными и неформальными методами. Формальные методы зависят от
того метода, который использовался для кластеризации. Неформальные
включают следующие процедуры проверки качества кластеризации:
анализ результатов кластеризации, полученных на определенных
выборках набора данных;
кросс-проверка;
проведение кластеризации при изменении порядка наблюдений в
наборе данных;
проведение кластеризации при удалении некоторых наблюдений;
проведение кластеризации на небольших выборках.
Один из вариантов проверки качества кластеризации – использование
нескольких методов и сравнение полученных результатов. Отсутствие
подобия не будет означать некорректность результатов, но присутствие
похожих групп считается признаком качественной кластеризации. Если
сравниваемые классификации групп респондентов имеют долю совпадений
более 70 % (более 2/3 совпадений), то кластерное решение принимается.
Рассмотрим классификацию методов кластерного анализа. По способу
обработки
данных
все
методы
можно
разделить
иерархические и неиерархические (рисунок 1.1) [7].
16
на
две
группы:
Методы кластерного анализа
Иерархические
Агломеративные:
- CURE;
- CHAMELEON;
- ROCK и т.д.
Неиерархические
Дивизимные:
- BIRCH;
- MST и т.д.
Итеративные:
- К-средних (k-means)
- PAM (k-means + k-medoids)
- CLOPE и т.д.
Рисунок 1.1 – Классификация методов по способу обработки данных
1.3. Иерархические методы кластерного анализа
При иерархической кластеризации выполняется последовательное
объединение меньших кластеров в большие или разделение больших
кластеров на меньшие. Недостатками иерархического кластерного анализа
является ограниченный набор исследуемых данных, негибкость полученных
результатов.
Иерархические методы кластерного анализа дают возможность
наглядно увидеть полученные данные и представить структуру исследуемых
параметров. Довольно простыми и понятными являются такие методы
кластерного анализа, как иерархические методы. На первом этапе данного
метода исследуемые объекты находятся в отельных кластерах.
На
следующих этапах метода происходит объединение кластеров, которые
находятся на наименьшем расстоянии друг от друга. Иерархические методы
можно применять только для небольшого количества исследуемых данных.
Главным
достоинством
иерархического
представление результатов кластеризации.
17
метода
является
наглядное
В результате использования иерархического алгоритма строится
дендрограмма (от греческого dendron – “дерево). Дендрограмма является
графическим представлением объединения кластеров.
Объединение кластеров состоит из нескольких шагов, каждый из
которых считается уровнем, из которых и строится дендограмма. Она может
изменяться на всех уровнях иерархии.
Дендограмма имеет несколько видов расположения, такие как
вертикальное и горизонтальное расположение.
Из всех методов кластерного анализа, самыми распространенными
являются иерархические агломеративные методы. Сущность этих методов
заключается в том, что на первом шаге каждый объект рассматривается как
отдельный
кластер.
Процесс
объединения
кластеров
происходит
последовательно: на основании матрицы расстояний или матрицы сходства
объединяются
наиболее
близкие
объекты.
Если
матрица
сходства
первоначально имеет размерность n n ,то полностью процесс кластеризации
завершается за n 1 шагов, в итоге все объекты будут объединены в один
кластер.
Представителем агломеративного иерархического метода является
Алгоритм CURE (Clustering Using REpresentatives). Чтобы определить
исследуемый объект в определенный кластер, данный алгоритм использует
набор
определяющих
точек.
Данный
алгоритм
предназначен
для
кластеризации объектов, которые имеет очень большой набор данных.
Алгоритм работает только с числовыми данными, что является его
ограничением, по сравнению с другими алгоритмами. Среди достоинств
данного алгоритма можно выделить то, что алгоритм выделяет кластеры
разных размеров, может использовать данные с выбросами. Так же при
работе с алгоритмом необходимо сразу задавать необходимое количество
кластеров и пороговые значения данных, что является недостатками данного
алгоритма.
18
Противоположность агломеративным методам это иерархические
дивизимные (делимые) методы. На первом этапе работы алгоритма все
исследуемые объекты принадлежат одному кластеру, на следующих этапах
алгоритма, который разделяется на более меньшие кластеры. В начале
работы алгоритма все объекты принадлежат одному кластеру, который на
последующих шагах делится на меньшие кластеры.
Представителем
дивизимного
иерархического
метода
является
алгоритм BIRCH (Balanced Iterative Reducingand Clustering using Hierarchies).
В этом алгоритме предусмотрен двухэтапный процесс кластеризации.
Назначение: может быть произведена кластеризация большого количества
набора числовых данных. Ограничения: алгоритм может работать только с
числовыми данными. Среди достоинств данного алгоритма можно выделить
такие, что может быть произведена кластеризации довольно больших
наборов
исследуемых
данных,
при
работе
алгоритма
используется
ограниченный объем памяти. Недостатками данного алгоритма можно
считать то, что алгоритм может работать только с числовыми данными,
следует задавать пороговые значения исследуемых данных и в результате
кластеризации, хорошие кластеры могут быть получены только сферической
формы.
Иерархические методы кластеризации отличаются друг от друга только
правилами
построения
самих
кластеров.
Различают
такие
правила
построения кластеров, как правила, которые используются при решении
вопроса
о
“схожести”
объектов
при
их
объединении
в
группу
(агломеративные методы) либо разделения на группы (дивизимные методы).
Правила объединения
Па первом шаге, когда каждый объект представляет отдельный кластер,
расстояния между объектами определяются выбранной мерой. Однако когда
по мере образования кластеров связываются вместе несколько объектов,
следует определить расстояния между кластерами, то есть необходимо
19
выбрать правило объединения или связи для двух кластеров. Здесь имеются
следующие возможности:
Метод «ближних соседей» или одиночной связи (Single Linkage). С его
помощью можно связать два кластера вместе, когда любые два объекта
в двух кластерах ближе друг к другу, чем соответствующее расстояние
связи. Это правило строит «волокнистые» кластеры, «сцепленные
вместе» только отдельными элементами, случайно оказавшимися
ближе остальных друг к другу. Это правило нанизывает объекты
вместе для формирования кластеров, и результирующие кластеры
представляются длинными «цепочками».
Метод «дальних соседей» или метод полной связи (Complete Linkage).
Как альтернативу первому способу можно использовать «соседей» в
кластерах, которые находятся дальше всех остальных пар объектов
друг от друга. Этот метод называется методом полной связи. Он
обычно работает очень хорошо, когда объекты происходят на самом
деле из реально различных «рощ». Если же кластеры имеют
удлиненную форму или их естественный тип «цепочечный», то этот
метод непригоден.
Метод Варда (Ward's method). Этот метод отличается от всех других
методов, поскольку он использует методы дисперсионного анализа для
оценки расстояний между кластерами. Метод минимизирует сумму
квадратов для любых двух (гипотетических) кластеров, которые могут
быть сформированы на каждом шаге. Метод очень эффективен, однако
он стремится создавать кластеры малого размера.
По результатам проведения иерархического кластерного анализа
строится древовидная диаграмма (дендрограмма), содержащая n уровней,
каждый
из
которых
соответствует
одному
из
шагов
процесса
последовательного укрупнения кластеров. Дендрограмма описывает близость
отдельных регионов РФ и кластеров друг к другу [9].
20
1.4. Неиерархические методы кластерного анализа
При
кластерного
большом
количестве
анализа
не
наблюдений
пригодны.
В
иерархические
таких
случаях
методы
используют
неиерархические методы, основанные на разделении, которые представляют
собой итеративные методы дробления исходной совокупности. В процессе
деления новые кластеры формируются до тех пор, пока не будет выполнено
правило остановки.
Рассмотрим два подхода деления набора исследуемых объектов на
заданное количество кластеров. В первом случае для проведения кластерного
анализа необходимо задать границы кластеров, кластер необходимо
определить в том месте, где находится сгущение исследуемых объектов. Во
втором подходе для решения кластеризации необходимо минимизировать
меры близости объектов.
Достоинствами неиерархических методов считается то, что данные
методы не реагируют на выбросы исследуемых объектов, наличию
переменных в исследуемой выборке, которые не используются при анализе
объектов.
Для проведения кластеризации специалист на первом этапе должен
определить необходимые параметры кластеризации такие, количество
итераций алгоритма или правило остановки, специалист должен выбрать
оптимальное количество кластеров. Если невозможно определить количество
кластеров, следует использовать иерархические методы или проводить
эксперименты с использованием гипотез об оптимальном количестве
кластеров.
Самым распространенным методом неиерархического анализа является
алгоритм k-средних, также он является быстрым кластерным анализом. Для
использования данного алгоритма следует иметь предположение о наиболее
оптимальном количестве кластеров, это и является основным отличием от
методов иерархического кластерного анализа данных.
21
Метод k-средних – наиболее популярный метод кластеризации. Он
разбивает множество элементов векторного пространства на заранее
известное число кластеров k. Действие алгоритма таково, что он стремится
минимизировать
среднеквадратичное
отклонение
на
точках
каждого
кластера:
ni
2
xij ~
xi ,
2
k
(1.1)
i 1 j 1
где
k число кластеров;
ni число элементов в i -м кластере, i 1, k ;
xij элементы выборки, входящие в i -й кластер;
~
xi элемент, являющийся центром i -го кластера.
Метод k-средних состоит из нескольких этапов. На первом этапе
рассчитываются центры данных кластеров, вновь пересчитываются центры
кластеров и исследуемые объекты распределяются по новым кластерам.
Исходя из минимума расстояний объектов до центров кластера. После того,
как кластеры остаются неизменными, метод заканчивает свою работу.
Первоначальное число кластеров можно получить на основании
предыдущих исследований или теоретическим путем. Наличие гипотез об
оптимальном количестве кластеров – это основной тип задач, решаемый
методом k-средних. Данный метод строит заданное количество кластеров на
максимально возможном расстоянии друг от друга.
После получения результатов кластерного анализа методом k-средних
следует проверить правильность кластеризации (т.е. оценить, насколько
кластеры отличаются друг от друга). Для этого рассчитываются средние
значения для каждого кластера. При хорошей кластеризации должны быть
получены сильно отличающиеся средние для всех измерений или хотя бы
большей их части.
22
1.5. Оценка меры сходства, учитывающая данные различных типов
и априорные веса признака
На данный момент существует много различных алгоритмов и методов
кластерного анализа данных. Большинство методов работают только с
численными объектами исследуемых данных. Существует мало методов,
которые могут выполнять кластеризацию с исследуемыми объектами
качественными
Разработано множество методов и алгоритмов кластерного анализа
данных. Однако, применение большей части методов требует, чтобы
описывающие
объект
кластеризация)
были
признаки
(на
количественного
основе
которых
типа.
выполняется
Значительно
меньше
разработано методов, которые позволяют работать с качественными
признаками в процессе кластеризации.
Так же исследуемые объекты могут описываться совокупностью
разнотипных признаков, что является особенно сложным при делении
исследуемых объектов.
В таком случае следует учитывать модифицированную меру сходства
разнотипных данных. На основе разнотипных признаков исследуемых
объектов данная мера вычисляет сходства между исследуемыми объектами.
Модифицированная мера, которая согласует разнотипные шкал,
является мерой расстояния. По сравнению с классическим вариантом, в меру
введен учет априорного веса признака. Вес признака вводится пользователем
системы, если у него есть соответствующая информация, при отсутствии
таковой, все признаки учитываются с равным весом [12].
Вводятся следующие обозначения:
xi xi1 , xi 2 ,, xim вектор, характеризующий i -ое наблюдение;
x ik реализация i -ой переменной для
k 1, n, i 1, m ;
n количество наблюдений;
23
k
– ого наблюдения
m количество переменных;
d ij d ( xi , x j ) расстояние между i -ым и j -ым наблюдениями:
Наиболее
доступно
для
восприятия
и
понимания
в
случае
количественных признаков является так называемое "евклидово расстояние"
или "евклидова метрика". Формула для вычисления такого расстояния:
n
1
2
d ij ( ( xik x jk ) ) .
2
(1.2)
k 1
Нередко вместо обычного евклидового расстояния используют его
квадрат d ij2 . Кроме того, в ряде случаев используется "взвешенное"
евклидово расстояние, при вычислении которого для отдельных слагаемых
используются весовые коэффициенты wi :
1
m
2 2
d ij k xik xlk .
k 1
(1.3)
1.6. Генетический алгоритм
Генетический алгоритм (ГА)– это эвристический алгоритм поиска,
который используется для решения задач оптимизации и моделирования
путем случайного подбора, комбинирования и вариации искомых параметров
с использованием механизмов, напоминающих биологическую эволюцию.
При использовании ГА параметры оптимизации представляются в виде
кодированных значений (генов). Совокупность генов образует хромосому. Из
хромосом составляется популяция. Пример хромосомы представлен на
рисунке 1.2.
1
2
b1
b2
…
1
bi
…
3
bm
Рисунок 1.2 – Пример хромосомы при k =3
24
Каждой
хромосоме
приспособленности,
ставится
которая
в
выступает
соответствие
мерой
качества
функция
решения,
описываемого данной особью. В качестве функции приспособленности
выступает целевая функция Z , определяемая по формуле:
K np
Z s hmp , h jp min .
p 1 j 1
(1.4)
Информация, которая содержится в хромосоме изменяется путем
применения операторов генетического алгоритма, что называется эволюцией
исходной популяции. Блок – схема генетического алгоритма представлена на
рисунке 1.3.
Генерация начальной популяции
Оценивание особей
Нет
Критерий
остановки
Оператор
скрещивания
Да
Оператор мутации
Выбор
“наилучшей”
особи
Оператор инверсии
Результат
Формирование
нового
поколения
Рисунок 1.3 – Блок-схема генетического алгоритма
После того, как каждой особи поставлено в соответствие значение
функции приспособленности (1.4), осуществляется отбор особей с целью
выбора тех представителей, которые будут участвовать в создании новой
популяции [18].
25
После создания родительской
популяции, к ней применяются
генетические операторы: скрещивания, мутации и инверсии.
Результатом
реализация
оператора
скрещивания
является
формирование потомков на основе родительских особей. Суть действия
оператора скрещивания состоит в выборе точки разрыва (данная тока
выбирается
случайно)
информации,
внутри
располагающейся
хромосомы
за
точкой
с последующим
разрыва,
обменом
между
двумя
родительскими особями. Пример механизма действия одноточечного
оператора скрещивания приведен на рисунке 1.4.
Родительские особи:
Потомки:
1
b11 b12 … bi1 bi11 … b1n
1
b11 b12 … bi1 bi21 … bn2
2
b12 b22 … bi2 bi21 … bn2
2
b12 b22 … bi2 bi11 … b1n
Точка разрыва
Рисунок 1.4– Механизм действия одноточечного оператора скрещивания
Блок – схема одноточечного оператора скрещивания представлена на
рисунке 1.5.
26
Генерация начальной популяции
X xij
i 1: m j 1: n , p 1
max
Выбор“наилучшей”особи x ij
Формирование
новой популяции
j 1: n
X new ( x ijnew )
p random(m)
Нет
Да
p p1
r random
x ijnew xij i 1 : m
xijnew arg min Z ( x ijlnew )
i 1: m
Нет
ir
l 1, 2
Да
max
xijnew
1 x ij
xijnew
1 x ij
x ijnew
2 x ij
max
x ijnew
2 x ij
Рисунок 1.5– Блок-схема одноточечного оператора скрещивания
Для внесения изменений в информацию, которая содержится в
хромосоме, применяется оператор мутации (вероятность мутации является
очень маленькой). Оператор мутации имеет большое количество вариантов
реализации. Если с высокой долью вероятности происходят небольшие
изменения в хромосоме, а с низкой вероятностью большие изменения, то
можно говорить о качестве действия оператора мутации. Пример механизма
действия одноточечного оператора скрещивания приведен на рисунке 1.6.
до мутации
после мутации
b1new b2new … binew … bnnew
b1 b2 … bi … bn
Рисунок 1.6 – Механизм действия оператора мутации
27
Блок – схема оператора мутации представлена на рисунке 1.7.
X xij
i 1: m j 1: n , p2
Формирование
новой популяции
j 1: n
X new ( x ijnew )
p random
Нет
p p2
xijnew x ij i 1 : m
Да
x ijnew (bi ) i 1 : m
bi random (k )
Рисунок 1.7 – Блок-схема оператора мутации
Для разбиения случайным образом хромосомы на две части и
перестановкой этих частей применяется оператор инверсии (рисунок 1.8).
до инверсии
после инверсии
b1 b2 … bi bi 1 … bn
bi 1 … bn b1 b2 … bi
Точка разбиения
Рисунок 1.8 – Действие оператора инверсии
Блок-схема оператора инверсии представлена на рисунке 1.9.
28
X xij
i 1: m j 1: n , p3
Формирование
новой популяции
j 1: n
X new ( x ijnew )
p random
Нет
Да
p p3
r random(m)
xijnew x ij i 1 : m
x ijnew xijmax
i 1: r
x ijnew x ij
i r:m
Рисунок 1.9 – Блок-схема оператора инверсии
Реализация вышеперечисленных операторов скрещивания, мутации и
инверсии носит вероятностный характер. При практической реализации
генетических операторов задают некоторое фиксированное число pi , затем
производится генерация случайного числа p из отрезка 0;1 . Если p pi , то
оператор выполняется. Для оператора скрещивания p i 0,5;1 , в то время
как для операторов мутации и инверсии p i 0; 0,1 .
При
применении
различных
стратегий
по
разному
могут
формироваться особи следующего поколения. В нашем случае была
использована элитарная стратегия. При выборе данной стратегии одна или
несколько лучших особей переходят в следующую популяцию в случае, если
в результате применения генетических операторов были получены особи,
среди которых лучшее значение функции приспособленности хуже, чем у
лучшей особи (одной или нескольких) предыдущего поколения. Это сделано
для того, чтобы предотвратить потерю лучшего решения при переходе от
старого поколения к новому поколению[19,20].
29
Для решения задачи дифференциации регионов с учетом отраслевой
структуры был использован генетический алгоритм с вещественным
кодированием с применением следующих генетических операторов и
стратегий:
Стратегия отбора – элитарная стратегия.
Основанный на вероятностном принципе скрещивания хромосом –
оператор скрещивания.
Оператор мутации, при котором каждый ген подвергается мутации с
заданной пользователем вероятностью. При этом новое значение гена
определяется случайным образом.
Оператор инверсии; состоит в перестановке частей хромосом,
разделенной случайным образом.
Стратегия формирования следующего поколения – элитарная стратегия
(одна элитная особь).
30
ГЛАВА 2. АППАРАТНЫЕ СРЕДСТВА
ДИФФЕРЕНЦИАЦИИ РЕНИОНОВ
2.1. Обзор статистических программ для анализа данных
Все программы статистической обработки данных можно разделить на
специализированные,
полупрофессиональные
(популярные)
и
профессиональные. Профессиональные пакеты включают в себя большое
количество методов анализа, популярные пакеты включают в себя
достаточное
количество
функций
для
универсального
применения.
Специализированные пакеты ориентированы на какую – либо узкую область
анализа данных.
В данной работе рассмотрены некоторые полупрофессиональные
программные пакеты для статистического анализа данных.
R – язык программирования и среда статистических вычислений.
Достоинства:
В системе R имеются широкие возможности для статистической
обработки данных, в том числе и для работы с графикой.
Синтаксис языка достаточно прост и легок в изучении.
Установить среду R можно на компьютере под управлением
Windows, MacOS или Linux.
Недостатки:
Все промежуточные данные при работе с языком R, хранятся не во
временных файлах, а непосредственно в оперативной памяти. При
обработке
очень
больших
объемов
информации
R
будет
использовать значительную часть оперативной памяти компьютера.
На сегодняшний день написано более сотни книг по самым разным
направлениям использования среды статистических вычислений R,
но все они на английском языке.
31
SAS – популярное статистическое приложение, которое зародилось в
60-х годах XX века в Университете Северной Каролины как приложение для
анализа
результатов
сельскохозяйственных
исследований.
Область
применения SAS – самые разнообразные научные исследования, бизнес
аналитика и т. д.
Достоинства:
Работая с использованием SAS можно проводить статистическую
обработку данных разного уровня сложности, в соответствии с
поставленными задачами.
Взаимодействие с программой возможно как в консольном режиме,
так и через графический интерфейс, который представляет собой
графическую оболочку для упрощенного ввода команд языка
программирования SAS.
Каждый, кто имеет достаточно знаний и опыта работы с этим языком
может
создавать
собственные
функции
и
библиотеки,
соответствующие специфике работы конкретного пользователя.
Приложение может работать на операционных системах семейства
Windows, MasOS и Linux.
Недостатки:
Высокая стоимость и малая распространенность в России.
STATISTICA – статистическое приложение, которое разрабатывается
компанией StatSoft. На сегодняшний день последней версией является
Statistica 9.
Достоинства:
Удобная организация рабочего пространства: сохраненные таблицы,
а также результаты расчетов, графики и отчеты в Statistica можно
удобно расположить в одном файле, который называется «Рабочей
книгой».
32
Программа
имеет
встроенный
язык
программирования
и
возможность интеграции с языком статистических вычислений R.
В программе есть все наиболее востребованные статистические
методы.
Все типы анализа разбиты по группам, что помогает быстро
ориентироваться в интерфейсе приложений.
Система
Statistica
возможностями.
обладает
Включает
в
широкими
себя
большое
графическими
количество
разнообразных категорий и типов графиков.
Выпущено достаточно литературы по работе в пакете.
Недостатки:
Операционная система, в которой можно запускать Statistica только
Windows, что несколько уменьшает число ее пользователей.
SPSS – аббревиатура от Statistical Package for the Social Sciences,
программа относительно недавно стала принадлежать компании IBM и
сменила название на PASW (Predictive Analytics SoftWare) Statistics.
Достоинства:
Отличается гибкостью и мощностью применения для всех видов
статистических расчетов.
Имеется
учебник
на
русском
языке,
позволяющий
освоить
возможности SPSS.
Программа
имеет
встроенный
язык
программирования
и
возможность интеграции с языком статистических вычислений R.
В программе есть все наиболее востребованные статистические
методы.
Операционные системы, в которых можно запускать SPSS: Windows,
MacOS и Linux.
33
Недостатки:
Организация рабочего пространства в SPSS менее удобна, чем в
Statistica, но все же вполне приемлема для использования после
короткого периода адаптации.
Для работы SPSS необходимо не менее 1 Гб оперативной памяти, т.к.
безграничные возможности в статобработке требуют от компьютера
больших ресурсов.
STADIA – пакет разработан ведущими специалистами Московского
государственного университета им. М.В. Ломоносова совместно с НПО
«Информатика и компьютеры».
Достоинства:
Является единственным российским статистическим пакетом.
В пакете Stadia представлены все самые распространенные методы
статистического анализа данных.
Пакет Stadia простой в освоении.
Недорогой и мощный инструмент статистического анализа данных
ограниченных объемов.
Недостатки:
Пакет Stadia не поддерживает обработку большого количества
наблюдений.
MINITAB – пакет развивается более 20 лет и является одним из
основных учебных пакетов в США.
Достоинства:
Пакет Minitab имеет простой интерфейс.
Может легко и быстро решать практически все типовые задачи.
Minitab позволяет получать множество хороших и сложных
полноцветных графиков.
По сравнению с конкурентами пакет имеет низкую цену.
34
В данной работе рассмотрена лишь малая часть приложений для
статистического анализа. Существует множество других, больших и
маленьких, дорогих и бесплатных программ. Однако такое изобилие софта не
должно
пугать
исследователя,
достаточно
будет
один
раз
сделать
продуманный выбор в пользу одной – двух программ, тщательно изучить
тонкости их применения, и они будут не один год служить верными
помощниками в статистическом анализе результатов экспериментов.
2.2. Среда программирования
Выбор среды и языка программирования играет важнейшую роль в
разработке информационно – аналитической системы (ИАС). Среда
программирования играет роль первичной структурной единицы ИАС, на
основе которой строится взаимодействие базы данных, геоинформационной
системой и других блоков ИАС.
В качестве среды программирования была выбрана среда Microsoft
Visual Studio 2015 и язык программирования Microsoft Visual C#.Выбранная
среда программирования позволяет легко интегрировать различные части
ИАС, обрабатывать и предоставлять информацию из всех известных баз
данных,
взаимодействовать
с
огромным
количеством
свободно
распространяемых пользовательских инструментов, а также обладает
высоким быстродействием и надежностью.
Microsoft Visual Studio – линейка продуктов компании Microsoft
Corporation, которая включает в себя интегрированную среду разработки
программного обеспечения и ряд других инструментальных средств.
Для разработки программы был выбран язык C#, так как его средства
позволяют быстро создать форму приложения Windows с необходимыми
элементами управления, соответствующими заданному набору функций.
C# – объектно-ориентированный язык программирования, который был
разработан1998–2001 годах в компании Microsoft группой инженеров под
35
руководством Андерса Хейлсберга как язык разработки приложений для
платформы Microsoft .NET Framework.
Для быстрой разработки приложений, поддерживающих разработку
пользовательского интерфейса и подключения к данным, среда Visual Studio
имеет полный набор визуальных инструментов.
Visual Studio включает в себя стандартные объекты построения
пользовательского интерфейса, объекты управления данными, графические
объекты, объекты мультимедиа, диалоги и объекты управления файлами.
Объекты БД в Visual Studio основаны на SQL поэтому доступ к СУБД
происходит с высокой эффективностью. Кроме того, можно разработать
расширяемые на любые внешние SQL-сервера приложения в офлайновом
режиме [21].
2.3. Геоинформационная система
Для отображения электронной карты выбрана геоинформационная
система ГИС “MapInfo” 10.0.1.
MapInfo Professional – полнофункциональная геоинформационная
система(ГИС). С ее помощью можно создавать и редактировать карты,
хранить и обрабатывать информацию, связанную с картографическими
объектами. С точки зрения общепринятой терминологии ГИС MapInfo
является
системой
управления
базой
пространственных
данных.
В
дополнение к традиционным для СУБД функциям MapInfo позволяет
обрабатывать также картографические данные, хранящиеся в базе, с учетом
пространственных отношений объектов [22].
Это наиболее развитая, мощная и простая в использовании система
настольной картографии, которая позволяет решать широкий круг задач в
различных сферах деятельности.
Без использования дополнительных программ, в MapInfo существует
возможность
отображать
данные,
36
полученные
с
помощью
GPS
(навигационных
приборов
глобального
позиционирования)
и
других
электронных приборов.
К функциям редактирования карт относятся такие функции, как:
изменение формы объектов, объединение при редактировании, перемещение,
выбор нескольких узлов для удаления, копирование объектов, создание
полилинии из области, создание области из полилинии, сглаживание, возврат
таблицы в исходное состояние, удаление только объектов карты.
Картография является наглядным представлением исследуемых данных
в ГИС MapInfo.
Для работы с географическими объектами, их выбора и отображения
используют настольную картографию. Что представляет собой базу данных с
картографическим интерфейсом отображения. Встроенный язык запросов
SQL позволяет управлять данными на профессиональном уровне. В MapInfo
используется SQL с географическим расширением, реализующим работу с
географическими
объектами.
Сгенерированные
запросы
могут
быть
сохранены во внешних файлах и, при необходимости, подгружены во время
работы.
Электронная Карта состоит из слоев. Слои можно представить, как
прозрачные пленки, лежащие друг на друге. Каждый слой содержит
различные типы информации: тексты, линии, области, точки; а все вместе
они составляют Карту. MapInfo позволяет показывать либо один слой, либо
два, либо все слои сразу. Создавая Карту из слоев, можно настраивать
каждый слой в отдельности, добавлять новые слои, перемещать или удалять
существующие.
Отображение графической информации об исследуемых объектах и
визуальный анализ имеющихся данных, как в разрезе регионов Российской
Федерации, так и по всей России, все это является целью создания
электронной карты. Электронная карта является топологической основой, на
которую с нанесены границы регионов РФ и деление их на соответствующие
кластеры.
37
2.4. База данных
Для реализации базы данных была выбрана СУБД от компании
Microsoft – MS SQL Server2014. Основной используемый язык запросов –
Transact – SQL, реализующий стандарт ANSI/ISO по структурированному
языку запросов SQL с расширениями. M SQL Server2014 является
реляционной централизованной клиент – серверной СУБД. Это значит, что
она обладает следующими преимуществами: низкой нагрузкой на локальную
сеть, удобством централизованного управления и, как следствие, высокими
надёжностью, доступностью и безопасностью.
СУБД на основе Microsoft SQL Server позволяет быстро обращаться к
данным и достаточно просто интегрируется практически со всеми средами
программирования (в частности она позволяет интегрировать электронный
слои ГИС MapInfo в базу данных).
База данных включает четыре таблицы, необходимые для решения
задачи дифференциации регионов РФ (таблица 2.1):
Таблица 2.1 – Структура таблиц, хранящихся в базе данных ИАС
№
п/п
1
2
1
2
3
1
2
3
4
5
Тип
данных
Таблица “Федеральные округа Российской Федерации”
Номер
Числовой
Название
Текстовый
Таблица “Регионы Российской Федерации”
Номер региона
Числовой
Федеральный округ
Текстовый
Название
Текстовый
Таблица “Отрасли ”
Номер отрасли
Числовой
Название отрасли
Текстовый
Единицы измерения
Текстовый
Номер региона
Числовой
Номер отрасли
Числовой
Наименование поля
38
№
п/п
Тип
данных
Наименование поля
Таблица “Значения”
1
2
3
4
5
Значение
Год
Номер отрасли
Номер региона
Номер округа
Числовой
Числовой
Числовой
Числовой
Числовой
База данных регионов РФ и разработана на СУБД Microsoft SQL Server
2014. Целью создания базы данных является сбор и хранение информации о
регионах РФ (социально – экономические показатели, отраслевая структура
регионов).
2.5. Алгоритмы кластерного анализа
При иерархической кластеризации выполняется последовательное
объединение меньших кластеров в большие или разделение больших
кластеров на меньшие. Недостатками иерархического кластерного анализа
являются:
ограниченный
набор
исследуемых
данных,
негибкость
полученных результатов.
Алгоритм иерархического кластерного анализа:
1.
Задается множество регионов РФ H hi , i 1, n .
2.
Рассчитывается матрица, элементами которой является мера сходства
между регионами с учетом весовых коэффициентов:
ℎ ;ℎ
=
∑
(
(
−
) ) , , = 1,
(2.1)
2.
Где
– весовой коэффициентk– го показателя.
3.
Задается количество кластеров K , каждый из которых содержит один
регион РФ: K n . Получаем множество кластеров T 1 , T 2 ,...,T K .
39
4.
Полученные кластеры объединяются попарно, образуя временные
кластеры T p , p 1, C K2 , где C K2 K K 1 / 2 .
5.
Находятся центры hmp временных кластеров T p . Центром кластера
является регион РФ h jp , мера сходства, с учетом весовых коэффициентов
которого до всех других регионов в кластере минимальны:
np
hmp h jp , где j arg min s h jp , hip .
j 1, n p
6.
i 1
(2.2)
Определяются радиусы r p временных кластеров как меры близости от
центров кластеров до наиболее удаленных объектов в каждом из них. В
качестве меры близости между объектами используется мера сходства с
учетом весовых коэффициентов:
r p max s hmp , h jp , p 1, K K 1 / 2 .
j 1,n p
7.
(2.3)
Из всех временных кластеров выбирается кластер с наименьшим
радиусом:
T : arg min (r p ) .
(2.4)
p 1, K K 1 / 2
8.
Полученный временный кластер T добавляется во множество
исходных
кластеров
T
1
, T 2 , ..., T K
этапа
3,
причем
кластеры,
его
образующие, исключаются. Тогда K : K 1 .
9.
Этапы 4 – 8 реализуются до тех пор, пока дальнейшее объединение не
приведет к превышению задаваемого оптимального радиуса Rопт , который
был определен, как максимальная используется мера сходства с учетом
весовых коэффициентов:
r Rопт .
10.
(2.5)
В случае если остаются кластеры, состоящие из одного населенного
пункта, то происходит объединение их с ближайшим кластером. В результате
смещается центр нового кластера, поэтому осуществляется переход к этапу 4.
40
Полученное количество кластеров K является оптимальным.
Блок – схема иерархического кластерного анализа представлена на
рисунке 2.2.
H hi i 1; D (d ij ) M M ; L (l ij ) M M
M
T
p
h jp ; p 1, M ; j 1
k 1, t 1
a 1, K ; b 1, K ; a b
T k T a T b;
k
h
h kj
np
: j arg min s h jp , hip Qip ,
j 1,n p i 1
Tt : t arg min(r k ), K K 1
k 1, C k2
r i Rmax , i 1, K
T p h jp
да
np
,
j 1
p 1,..., M m,
K M m
да
T p h jp , j 1, p 1, K
нет
K
Рисунок 2.2 – Блок-схема иерархического кластерного анализа
41
нет
При
большом
кластерного
количестве
анализа
не
наблюдений
пригодны.
В
иерархические
таких
случаях
методы
используют
неиерархические методы, основанные на разделении, которые представляют
собой итеративные методы дробления исходной совокупности. В процессе
деления новые кластеры формируются до тех пор, пока не будет выполнено
правило остановки.
Алгоритм метода k-средних
1.
Задается
количество
кластеров
K
,
которое
должно
быть
сформировано из исходной выборки.
2.
Инициализируются центры кластеров:
hmp h j , j random (1, n ), n p : 0 , p 1, K .
3.
(2.6)
Каждый регион РФ закрепляется за определенным кластером исходя из
минимума расстояния до центров кластеров:
hi h jp , p arg min s(hmp , hi ) , n p : n p 1 , i 1, n .
p 1, K
4.
Происходит переопределение центров кластеров:
hmp
5.
(2.7)
h jp ,
np
j arg min s (h jp , hip )Qip , p 1, K .
j 1, n p i 1
(2.8)
Если произошло изменение центров кластеров или перераспределение
объектов, то происходит возврат к пункту 3.
Иначе полученные центры кластеров hmp , p 1, K и распределение
объектов по кластерам T p h jp , j 1, n p считаются оптимальными.
Блок – схема метода k–средних представлена на рисунке 2.3.
42
K
p 1, K
h p h j , j random(1, M ), p 1, K
i 1, M
hi h jp' ' , p' arg min s(h p , hi ) , n p ' n p ' 1
p 1, K
h h , j arg min d ij q i , p 1, K
j 1, n
i 1
p
np
p
j
p
да
Изменение кластеров
нет
T p h jp , j 1, n p ; h p , p 1, K
Рисунок 2.3 – Блок-схема метода k – средних
Остановка алгоритма производится, когда границы кластеров и
расположение центроидов перестают изменяться, то есть на каждой итерации
в каждом кластере остается один и тот же набор наблюдений. Алгоритм kсредних обычно находит набор стабильных кластеров за несколько десятков
итераций [9-10].
43
ГЛАВА 3. КЛАСТЕРИЗАЦИИ РЕГИОНОВ РОССИИ
С УЧЕТОМ ОТРАСЛЕВОЙ СТРУКТУРЫ
ВАЛОВОГО РЕГИОНЛЬНОГО ПРОДУКТА
3.1. Сбор и анализ данных по регионам Российской Федерации
За объекты исследования были выбраны регионы Российской
Федерации, а за характеристики – социально – экономические показатели:
валовой региональный продукт, млн.рублей;
доля активного населения, тыс.человек;
удельные основные фонды в экономике, млн.рублей;
А также отраслевая структура ВРП в процентах от ВРП регионов:
сельское и лесное хозяйство;
рыболовство, рыбоводство;
добыча полезных ископаемых;
обрабатывающие производства;
производство и распределение электроэнергии, газа и воды;
строительство;
оптовая и розничная торговля;
гостиницы и рестораны;
транспорт и связь;
финансовая деятельность;
операции с недвижимым имуществом, аренда;
государственное управление и обеспечение военной безопасности;
здравоохранение и предоставление социальных услуг;
предоставление прочих коммунальных, социальных и персональных
услуг.
Для проведения исследования исходные данные по показателям,
характеризующим социально–экономическое состояние регионов РФ, были
44
взяты
из
статистического
экономические
показатели»
сборника
за
«Регионы
2015
год
России.
Социально-
Федеральной
службы
государственной статистики.
3.2. Дифференциация регионов по удельным показателям
Так как все показатели количественные и имеют различные единицы
измерения, то при процедуре непосредственного разбиения объектов по
кластерам показатели должны быть приведены к сопоставимому виду
(нормированы). Если исходные данные не нормировать, то по итогам анализа
будут представлены недостоверные результаты, которые нельзя использовать
для дальнейшего исследования.
Проведение нормализации данных необходима для того, чтобы
привести исходные значения к одному порядку, что осуществляется по
следующей формуле [12]:
z
где
x
,
(3.1)
х – наблюдаемое значение переменной,
μ – среднее значение;
σ – выборочное стандартное отклонение.
В ходе исследования для кластеризации регионов использовались все
социально – экономические показатели с заданием их априорного веса.
Наибольший вес имели такие показатели, как сельское и лесное хозяйство,
добыча полезных ископаемых и обрабатывающая промышленность (по
0.204), остальные признаки учитывались с равным весом (0,026).
В работе был применен двухэтапный алгоритм кластерного анализа: на
первом этапе применяется иерархический кластерный анализ, на втором –
метод k-средних.
Иерархический
кластерный
анализ
выполнен
методами
Варда,
«дальних соседей» и методом «ближайших соседей» с применением
45
Евклидовой метрики. Дендрограммы представлены на рисунках 3.1, 3.2. и
3.3. Красной линией отмечен оптимальный радиус кластера.
Рисунок 3.1 – Дендограмма классификации регионов методом Варда
Рисунок 3.2 – Дендограмма классификации
Рисунок 3.3 – Дендограмма классификации
регионов методом «дальних соседей»
регионов методом «ближайших соседей»
В
результате
реализации
иерархического
кластерного
анализа
определили оптимальное число кластеров – 5 кластеров. Разбиение на
большее число кластеров затруднит интерпретацию результатов.
Для проверки качества кластеризации иерархическим методом,
используем итерационный метод k-средних (для получения адекватной
46
кластеризации, необходимо что бы результаты двух методов совпадали более
чем на 70%).
Выведем таблицу анализа дисперсии (таблица 3.2), в которой
представлены величины межгрупповой (Between SS) и внутригрупповой
(Within SS) дисперсий. Чем меньше значение внутригрупповой дисперсии по
сравнению с межгрупповой, тем «качественнее» прошла кластеризация.
Результаты дисперсионного анализа свидетельствуют, что разделение
произошло успешно, поскольку уровень значимости р у критерия Фишера
меньше 0,05 для всех переменных.
Таблица 3.2 – Дисперсионный анализ
Показатель
Y
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
X12
X13
X14
X15
X16
X17
а) для 3-х кластеров
б) для 4-х кластеров
Between Within
F
p
SS
SS
0,01
0,02 16,58 0,00
0,01
0,02 16,90 0,00
0,01
0,02 16,91 0,00
1,97
1,45 53,56 0,00
0,00
0,03
1,56 0,22
2,48
0,94 104,2 0,00
1,55
1,87 32,71 0,00
0,00
0,03
1,00 0,37
0,01
0,03
8,62 0,00
0,01
0,03 13,74 0,00
0,00
0,03
4,56 0,01
0,00
0,03
1,73 0,18
0,00
0,03
5,77 0,00
0,01
0,03
9,21 0,00
0,15
0,71
8,16 0,00
0,01
0,03 10,39 0,00
0,00
0,03
6,42 0,00
0,00
0,03
4,04 0,02
Between Within
Between
F
p
SS
SS
SS
0,01
0,02 12,23 0,00
0,01
0,01
0,03
5,26 0,00
0,01
0,01
0,02 10,44 0,00
0,01
2,46
0,95 67,38 0,00
2,51
0,00
0,03
2,64 0,06
0,00
2,64
0,77 89,25 0,00
2,64
2,28
1,13 52,32 0,00
2,49
0,00
0,03
1,42 0,24
0,00
0,00
0,03
2,82 0,04
0,01
0,01
0,02 10,82 0,00
0,01
0,00
0,03
2,92 0,04
0,00
0,01
0,03
4,52 0,01
0,00
0,00
0,03
2,23 0,09
0,01
0,00
0,03
2,64 0,06
0,01
0,22
0,63
9,05 0,00
0,41
0,01
0,03
6,51 0,00
0,01
0,01
0,02 10,38 0,00
0,01
0,01
0,03
6,04 0,00
0,01
Результаты кластеризации
начальным
данным.
Более
в) для 5-и кластеров
Within
SS
0,02
0,03
0,02
0,91
0,03
0,78
0,92
0,03
0,03
0,02
0,03
0,03
0,03
0,03
0,44
0,02
0,02
0,03
F
p
10,44
7,04
8,85
52,98
1,89
65,17
52,01
1,43
3,56
10,99
2,91
2,92
5,25
6,59
17,90
13,15
12,48
5,40
0,00
0,00
0,00
0,00
0,01
0,00
0,00
0,02
0,01
0,00
0,03
0,03
0,00
0,00
0,00
0,00
0,00
0,00
методом k-средних чувствительны к
устойчивый
использование генетических алгоритмов.
47
результат
получается
при
Функция приспособленности – функция оценки, которая определяет
меру приспособленности полученного решения.
Функция
приспособления
оказывает
сильное
влияние
на
работу генетических алгоритмов и должна иметь точное и корректное
определение.
При
каждой
итерации
генетического
алгоритма
приспособленность каждой особи данной популяции оценивается при
помощи функции приспособленности, и на основе этой оценки создается
следующая популяция, составляющих множество потенциальных решений.
Для определения построения точности генетического алгоритма,
построен график сходимости функции приспособленности (рис. 3.4).
Рисунок3.4 – Зависимость функции приспособленности от количества итераций
По итогам проведенного кластерного анализа объекты исследования
были поделены на пять групп. Полученные результаты дифференциации
регионов РФ представлены в таблице 3.3.
48
В результате решения задачи кластеризации регионы РФ объединяются
в кластеры. Можно построить цветограмму распределения кластеров по
территории Российской Федерации (см. рисунок 3.5.).
По каждому кластеру построены столбиковые гистограммы, которые
иллюстрируют наблюдения по каждому объекту (см. рисунки 3.6-3.10).
В гистограмме каждый столбец представляет собой регион РФ, который
входит в данный кластер. Каждый отдельный столбец разделен на части,
которые несут информацию о распределении социально – экономических
показателей в каждом регионе РФ.
49
Кластер 1 – Регионы со
специализацией в
сельском хозяйстве
• Белгородская область
• Брянская область
• Воронежская область
• Курская область
• Орловская область
• Тамбовская область
• Республика Адыгея
• Республика Калмыкия
• Республика Крым
• Краснодарский край
• Волгоградская область
• Ростовская область
• Республика Дагестан
• Ставропольский край
• Кабардино-Балкарская
• Карачаево-Черкесская
• Алтайский край
• Республика Марий Эл
• Республика Мордовия
• Пензенская область
• Саратовская область
• Курганская область
• Республика Алтай
• Северная ОсетияАлания
Таблица 3.3 – Результаты кластеризации регионов РФ
Кластер 2 – Регионы со
Кластер 3 – Регионы со
Кластер 4 – Регионы со
специализацией в
специализацией в
специализацией
обрабатывающей
добывающей
смешанного типа
промышленности
промышленности
• Владимирская область
• Республика Коми
• Ивановская область
• Калужская область
• Архангельская область
• Московская область
• Костромская область
• Астраханская область
• Смоленская область
• Липецкая область
• Удмуртская Республика
• Тверская область
• Рязанская область
• Оренбургская область
• г. Москва
• Тульская область
• Тюменская область
• Республика Карелия
• Ярославская область
• Иркутская область
• Мурманская область
• Вологодская область
• Кемеровская область
• Псковская область
• Калининградская область • Томская область
• г. Санкт-Петербург
• Ленинградская область
• Республика Саха
• Республика Татарстан
• Новгородская область
• Магаданская область
• Самарская область
• Красноярский край
• Сахалинская область
• Республика Бурятия
• Чувашская Республика
• Чукотский автономный
• Республика Тыва
• Пермский край
• Республика Хакасия
• Кировская область
• Новосибирская область
• Нижегородская область
• Приморский край
• Ульяновская область
• Хабаровский край
• Свердловская область
• Челябинская область
• Красноярский край
• Омская область
50
Кластер 5 – Регионы с
формирующейся
экономикой
• г.Севастополь
• Республика Ингушетия
• Чеченская Республика
• Забайкальский край
• Камчатский край
• Амурская область
• Еврейская автономная
Рисунок 3.5 – Цветограмма регионов РФ
51
Рисунок 3.6 – Регионы со специализацией в сельском хозяйстве
На рисунке 3.6 видно, что в регионах, входящих в первый кластер,
преобладает
отрасль
сельского
хозяйства
(синий
цвет
столбиковой
гистограммы). Также можно отметить, что наибольшее значение данной
отрасли в Тамбовской области, Республике Калмыкия и КарачаевоЧеркесской
Республике.
Наименьшее
значение
сельскохозяйственной
отрасли в данном кластере можно наблюдать у Республики Алтай.
Рисунок 3.7 – Регионы со специализацией в обрабатывающей промышленности
52
По рисунку 3.7 можно сделать вывод о том, что специализацией
второго кластера является обрабатывающая промышленность (желтый цвет
на столбиковой гистограмме), т.к. данная отрасль распределяется равномерно
по всем регионам этого кластера. Наибольшее процентное соотношение
отрасли обрабатывающей промышленности по сравнению с другими
отраслями имеет Омская область (36,1%), а наименьшее – Костромская
область (23,4%).
Рисунок 3.8 – Регионы со специализацией в добывающей промышленности
На рисунке 3.8 видно, что в регионах, относящихся к третьему
кластеру, преобладает отрасль добывающей промышленности (серый цвет
столбиковой гистограммы). Максимальное значение данной отрасли по
отношению к другим социально – экономическим показателям регионов в
Сахалинской области – 59,1%, тогда как наименьшее значение – 24,3% в
Иркутской области.
53
Рисунок 3.9 – Регионы со специализацией смешанного типа
По рисунку 3.9 видно, что все социально – экономические показатели
распределяются
практически
равномерно
в
каждом
регионе,
что
свидетельствует о специализации смешанного типа в данном кластере.
Рисунок 3.10 –Регионы с формирующейся экономикой
На рисунке 3.10 представлены регионы, у которых более низкий
уровень ВРП на душу населения по сравнению с другими регионами.
Регионы этого кластера характеризуются слабо развитой индустрией и
высокой степенью экономической зависимости от других регионов.
54
Рисунок 3.11 – Легенда столбиковых гистограмм
3.3. Построение и анализ производственных функций
каждой группы
Анализ экономических процессов можно производить с помощью
производственных функций.
Производственная
функция
описывает
зависимость
выходных
показателей экономической системы от входных факторов. В региональной
экономике входными данными для построения производственной функции
являются производственные фонды и человеческий капитал.
Производственные фонды представляют собой совокупность средств
материального
производства,
которые
постепенно
изнашиваются
и
пополняются за счет капитальных вложений.
В качестве входных факторов наряду с производственными фондами
является человеческий капитал. Человеческий капитал — это знания, опыт и
навыки, которые используются человеком для получения дохода. Выделяют
следующие составляющие инвестиций в человеческий капитал: инвестиции в
образование, здравоохранение и культуру.
При построении производственной функции региональной экономики
выходным показателем является объем произведенного продукта, который в
количественной форме выражает валовой региональный продукт. Он
55
представляет
собой
ключевую
характеристику
функционирования
экономической системы региона.
Рассмотрим производственную функцию, как зависимость объема
произведенного продукта от величины производственного капитала и
человеческого капитала.
Производственную функцию региона примем в виде функции КоббаДугласа:
Y AK L
Производственная
функция
(3.2)
(3.2)
является
мультипликативно-
степенного вида, которую будем строить в предположении, что отдача от
масштаба производства постоянна: 1 . Поэтому функция (3.2) примет
вид:
1
Y AK L
(3.3)
откуда
Y
K
A
L
L
(3.4)
или
y f k Ak .
(3.5)
После логарифмирования выражения (3.5) получим:
ln y ln A ln k .
(3.6)
~
~
y ln y ; A ln A ; k ln k , в результате уравнение
Введем обозначения: ~
(3.6) преобразуется к виду:
y A k .
(3.7)
Выражение (3.7) представляет собой линейное уравнение регрессии.
~
Коэффициенты A и регрессионного уравнения (3.7) определим с помощью
метода наименьших квадратов.
Производственная функция для первого кластера имеет вид:
.
= 4,2
56
.
,
(3.8)
при этом коэффициент детерминации уравнения (3.8) составляет
Для
определения
статистической
значимости
= 0,551.
коэффициента
детерминации используется критерий Фишера, где F – статистика
рассчитывается по формуле:
F
R2
1 R2
n m 1
.
m
(3.9)
Проверка гипотезы осуществляется путем сравнения значения F–
статистики распределения Фишера по модели с
где
кр
=
кр (
; −
− 1; ),
– уровень значимости. Критерий Фишера уравнения (3.8) составляет
= 24,37 >
кр (2; 22; 0,05)
= 3,4 , что свидетельствует об адекватности
производственной функции.
Для экономической системы первого кластера коэффициентА=4,2
говорит о невысоком уровне технического прогресса. При анализе
коэффициентов эластичности по производственному капиталу ( = 0,25) и
человеческому капиталу ( = 0,75) можно сделать вывод, что увеличение
затрат на производственные фонды на 1 % приводит к увеличению выпуска
продукции на 0,25 %; а увеличение расходов на человеческий капитал на 1%
–
к
увеличению
выпуска
на
0,75%.
Отношение
коэффициентов
= 0,33 , следовательно, экономическая система второго
эластичности
кластера работает в условиях дефицита второго входного фактора
(человеческий капитал).
Производственная функция для второго кластера имеет вид:
.
= 5,9
при
этом
коэффициент
детерминации
.
(3.10)
уравнения
(3.10)
составляет
= 0,598.
Критерий
кр (2; 21; 0,05)
Фишера
уравнения
(3.10)
составляет
= 28,22 >
= 3,5 что свидетельствует об адекватности производственной
функции.
57
Для экономической системы второго кластера коэффициент А=5,9
свидетельствует о невысоком уровне технического прогресса. Значения
коэффициентов эластичности по производственному капиталу ( = 0,59) и
человеческому капиталу ( = 0,41) показывают, что увеличение затрат на
производственные фонды на 1 % соответствуют увеличению выпуска
продукции на 0,59 %; а увеличение расходов на человеческий капитал на 1 %
–
к
увеличению
выпуска
на
0,51 %.
Отношение
коэффициентов
= 1,43 , следовательно, экономическая система второго
эластичности
кластера работает в условиях дефицита первого входного фактора (основные
фонды).
Производственная функция для третьего кластера имеет вид:
= 1,5
при
этом
коэффициент
.
.
детерминации
(3.11)
уравнения
(3.11)
составляет
= 0,866.
Критерий
кр (2; 19; 0,05)
Фишера
уравнения
(3.11)
составляет
= 70,82 >
= 3,7 что свидетельствует об адекватности производственной
функции.
Для экономической системы третьего кластера коэффициентА=1,5
свидетельствует о невысоком уровне технического прогресса. Значения
коэффициентов эластичности по производственному капиталу ( = 0,79) и
человеческому капиталу ( = 0,21) показывают, что увеличение затрат на
производственные фонды на 1% соответствуют увеличению выпуска
продукции на 0,79 %; а увеличение расходов на человеческий капитал на 1%
–
к
увеличению
эластичности
выпуска
на
0,21%.
Отношение
коэффициентов
= 3,76 , следовательно, экономическая система второго
кластера работает в условиях дефицита первого входного фактора (основные
фонды).
Производственная функция для четвертого кластера имеет вид:
= 1,75
58
.
.
(3.12)
при
этом
коэффициент
детерминации
уравнения
(3.12)
составляет
= 0,718.
Критерий
кр (2; 19; 0,05)
Фишера
уравнения
(3.12)
составляет
= 38,15 >
= 4,0 что свидетельствует об адекватности производственной
функции.
Для
экономической
системы
четвертого
кластера
коэффициентА=1,75говорит о низком уровне технического прогресса. При
анализе коэффициентов эластичности по производственному капиталу ( =
0,76) и человеческому капиталу ( = 0,24) можно сделать вывод о том, что
при увеличении затрат на производственные фонды на 1 % приведет к
увеличению выпуска продукции на 0,76%; а увеличение расходов на
человеческий капитал на 1% –к увеличению выпуска на 0,24%. Отношение
коэффициентов эластичности = 3,17, следовательно, экономическаясистема
второго кластера работает в условиях дефицита первого входного фактора
(основные фонды).
Производственная функция для пятого кластера имеет вид:
.
= 1,51
при
этом
коэффициент
.
детерминации
(3.13)
уравнения
(3.13)
составляет
= 0,902.
Критерий
кр (2; 19; 0,05)
Фишера
уравнения
(3.13)
составляет
= 46,28 >
= 5,8 что свидетельствует об адекватности производственной
функции.
Для
экономической
системы
пятого
кластера
коэффициентА=1,51говорит о низком уровне технического прогресса. При
анализе коэффициентов эластичности по производственному капиталу ( =
0,77 ) и человеческому капиталу (
= 0,23 ) можно сделать вывод, что
увеличение затрат на производственные фонды на 1% приведет к
увеличению выпуска продукции на 0,76%; а увеличение расходов на
человеческий капитал на 1 % – к увеличению выпуска на 0,24%. Отношение
59
коэффициентов
эластичности
= 3,35 ,
следовательно, экономическая
система второго кластера работает в условиях дефицита первого входного
фактора (основные фонды).
Проведенные расчеты подтвердили наличие большей чувствительности
ВРП к изменению стоимости основных фондов для групп регионов со
специализацией в добывающей промышленности, в обрабатывающей
промышленности,
специализацией
смешанного
типа,
регионов
с
формирующейся экономикой, чем для группы регионов со специализацией в
сельском
хозяйстве.
Последняя
группа
регионов
имеет
большую
чувствительность к изменению численности занятых.
Таблица 3.4 – Производственные функции регионов
№ кластера
Производственн
ая функция
F
Значимость
уравнения
Кластер 1 – Регионы
со специализацией в
сельском хозяйстве
= 4,2
.
.
0,551
24,37
Значимо
Кластер 2 – Регионы
со специализацией в
обрабатывающей
промышленности
= 5,9
.
.
0,598
28,22
Значимо
Кластер 3 – Регионы
со специализацией в
добывающей
промышленности
= 1,5
,
,
0,866
70,82
Значимо
Кластер 4 – Регионы
со специализацией
смешанного типа
= 1,75
.
.
0,718
38,15
Значимо
Кластер 5 – Регионы
с формирующейся
экономикой
= 1,51
.
.
0,902
46,28
Значимо
В результате анализа производственных функций регионов можно
сделать вывод, что для 2, 3, 4,5 кластера выгодно вкладывать средства в
60
увеличение объемов капитала, в то время как для 1 кластера – в образование,
здравоохранение и культуру населения.
61
ЗАКЛЮЧЕНИЕ
1.
В работе был разработан алгоритм кластеризации, который включает в
себя иерархический кластерный анализ, метод k-средних и генетический
алгоритм.
2.
Разработан программный комплекс, позволяющий решать задачу
кластеризации регионов РФ. В качестве результата программный комплекс
отражает распределение регионов РФ по кластерам с учетом отраслевой
структуры.
Также
программный
комплекс
отображает
на
карте
распределение кластеров по территории РФ.
3.
По итогам кластерного анализа были выделены 5 групп регионов.
Кластер 1 – регионы со специализацией в сельском хозяйстве, кластер 2 –
регионы со специализацией в обрабатывающей промышленности, кластер 3 –
регионы со специализацией добывающей промышленности, кластер 4 –
регионы со специализацией смешанного типа и кластер 5 – регионы с
формирующейся экономикой.
4.
Для каждого кластера построены производственные функции, которые
показывают
наличие
большей
чувствительности
ВРП
к
изменению
стоимости основных фондов для групп регионов со специализацией в
добывающей
промышленности,
в
обрабатывающей
промышленности,
специализацией смешанного типа, регионов с формирующейся экономикой,
чем для группы регионов со специализацией в сельском хозяйстве.
Последняя группа регионов имеет большую чувствительность к изменению
численности занятых.
62
СПИСОК ЛИТЕРАТУРЫ
1.
Райзберг Б. А., Лозовский Л. Ш., Стародубцева Е. Б. Современный
экономический словарь. 5-е изд., перераб. и доп. — М.: ИНФРА-М,
2007. — 495 с.
2.
Эконометрика: учебник для вузов/ под ред. И.И. Елисеевой. - М.:
Проспект, 2009. - 288 с.
3.
Кремер Н.Ш., Путко Б.А. Эконометрика: учебник для вузов. - М.:
ЮНИТИ - ДАНА, 2007. - 311 с.
4.
Магнус
Я.Р.,
Катышев
П.К.,
Пересецкий
А.А.
Эконометрика.
Начальный курс. - М.: Дело, 2003.
5.
Анисимова И.Н., Баринов Н.П., Грибовский С.В. Учет разнотипных
ценообразующих факторов в многомерных регрессионных моделях
оценки недвижимости // Вопросы оценки, 2004. №2.
6.
Елисеева И.И., Юзбашев М.М. Общая теория статистики: Учебник /
Под ред. И.И. Елисеевой. — 4-е издание, переработанное и
дополненное. — Москва: Финансы и Статистика, 2002.
7.
Дюран Б., Оделл П. Кластерный анализ. – М.: Статистика, 1977.
8.
Мандель И.Д. Кластерный анализ. - М.: Финансы и статистика. 1988. 176с.
9.
Хайдуков Д. С. Применение кластерного анализа в государственном
управлении // Философия математики: актуальные проблемы. – М.:
МАКС Пресс, 2009.
10. Журавлев Ю.И. Об алгебраических методах в задачах распознавания и
классификации, Распознавание, классификация, прогноз. — М.: Наука,
1988.
11. Журавлев Ю.И. Об алгебраическом подходе к решению задач
распознавания или классификации, Проблемы кибернетики. — М.:
Наука, 1978.
63
12. Загоруйко Н.Г. Прикладные методы анализа данных и знаний.—
Новосибирск: Издательство Института математики, 1999 — 270 с.
13. Альсова О.К. Алгоритмы кластеризации разнотипных данных на
примере решения медицинской задачи. – Тр. СПИИРАН, 2014. С 156159.
14. Кетова К.В., Трушкова Е.В., Кривенков Р.Ю. Применение кластерного
анализа для решения задачи оптимального распределения топливноэнергетических
ресурсов
//
Научно-практический
журнал
«Интеллектуальные системы в производстве», Ижевск: Изд-во ИжГТУ,
2010. – № 2 (16). – С. 207-213.
15. Касаткина Е.В., Вавилова Д.Д. Информационно-аналитическая система
прогнозирования обобщающих показателей социально-экономического
развития региона. Проблемы управления. 2015. № 4. С. 25-34.
16. Макаров В.Л., Айвазян С.А., Афанасьев М.Ю., Бахтизин А.Р., Нанавян
А.М. Оценка эффективности регионов РФ с учетом интеллектуального
капитала,
характеристик
готовности
к
инновациям,
уровня
благосостояния и качества жизни населения. - Институт экономики
Уральского отделения РАН.2014. С 9-30.
17. Айвазян С.А., Бухштабер В.М. Анализ данных, прикладная статистика
и построение общей теории автоматической классификации// Методы
анализа данных/ Пер. с фр. - М.: Финансы и статистика, 1985.
18. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика.
Исследование зависимостей. — М.: Наука, 1985.
19. Вороновский Г.К., Махотило К.В., Петрашев С.Н., Сергеев С.А.,
Генетические алгоритмы, искусственные нейронные сети и проблемы
виртуальной реальности. Харьков: ОСНОВА, 1997. – 112с.
20. Батищев
Д.И.,
Неймарк
Е.А.,
Старостин
Н.В.
Применение
генетических алгоритмов к решению задач дискретной оптимизации. –
Нижний
Новгород:
Образование,
2007.
Математическое
и
компьютерное моделирование социально-экономических процессов /
64
Сборник научных трудов под ред. Ю.Н. Гаврилец. Вып. 6. – М.: ЦЭМИ
РАН, 2015. – 80 с.
21. Медведев
В.И.
Особенности
объектно-ориентированного
программирования на C++/CLI, C# и Java./Медведев В.И. –М.:РИЦ
«Школа», 2010.
22. Майкл де Мерс. Географические информационные системы / Майкл де
Мерс. – М.: Дата+, 2000.
23. Миркиным Б.Г. Опыт применения многомерного статистического
анализа
к
данным
о
социально-экономическом
развитии
территориальных объектов. — М.: Экономика и мат. методы, 1991.
24. Математическое
и
компьютерное
моделирование
социально-
экономических процессов / Сборник научных трудов под ред. Ю.Н.
Гаврилец. Вып. 6. – М.: ЦЭМИ РАН, 2015. – 80 с.
25. ЧубуковаИ.А.
DataMining. Учебное пособие. – М.: Интернет-
Университет Информационных технологий; БИНОМ. Лаборатория
знаний, 2006. – 382 с.: ил., табл. – (Серия «Основы информационных
технологий»).
26. Дорофеюк
А.А.,
Гучук
“Методология
В.В.,
Десова
А.А.,
Дорофеюк
экспертно-классификационного
Ю.А.
анализа
квазипериодических сигналов в задачах диагностики” – М.: Пробл.
управл., 2010, № 5, 39–47.
27. Ристринг Л.А. Статистические методы поиска. – М.: Наука, 1968, 376с.
28. Ристринг Л.А. Адаптация сложных систем. – Рига: Зинатне, 1981, 386с.
29. Елкина В.Н., Загоруйко Н.Г. Количественные критерии качества
таксонометрии и их
использование в принятии решений.
—
Новосибирск, 1987.
30. Лбов Г.С., Старцева Н.Г. Логически решающие функции и вопросы
статистической устойчивости решений. — Новосибирск: Издательство
Института математики, 1999 – 212 с.
65
Отзывы:
Авторизуйтесь, чтобы оставить отзыв