Разработка информационной системы с функцией кластеризации и классификации данных на основе гиперкубов для ИП Ермаков г. Ессентуки

Николай Липиев

Разработка информационной системы с функцией кластеризации и классификации данных на основе гиперкубов для ИП Ермаков г. Ессентуки

Исследование выполнялось на предприятии ИП Ермаков И.А. Данная организация занимается продажей, настройкой и поддержкой продуктов фирмы 1С, а также торгового оборудования различных фирм: Штрих-М, АТОЛ и другие. Данное исследование актуально за счёт использования в аналитической части гиперкубов, что в свою очередь позволит увеличить результативность и уменьшить процесс ошибок за счёт представления данных в трёхмерном виде. Гиперкуб строится на основании гипотез произвольного вида, а данные для обработки должны иметь возможность быть измеренными в разных шкалах и не содержать пропусков, а точнее, заполнять их наиболее достоверной информацией. Задачей исследования является изучение предметной области и существующих методов и решений, выявление их положительных и отрицательных сторон. Формулировка собственных методов решения проблемы и апробация данных решений на практике. Существующие аналоги либо не решают поставленные задачи, либо же не решают их в полной мере, опираясь в этой части больше на стандартные методы, чаще всего k-means и c-means. Так как, например, существующие аналоги заполняют пропуски опираясь на средние величины, а в ВКР предложено использовать для этого критерий Фишера и критерий Стьюдента. Даже частично недостоверно заполненные данных для дальнейшего анализа могут сыграть весомую роль в достоверности результата. Решение задач кластеризации происходит на основе гиперкуба. Формируется трёхмерное пространство с россыпью кластеров. Движение этого пространства во времени позволит получить наиболее достоверные сведения. Средой разработки служить MS Visual Studio, язык – СИ Шарп. Для решения части задач используется фреймворк машинного обучения – Аккорд. Исходные данные и загружаемые базы хранятся в 1С Предприятии. Формализованность типовых конфигурации позволит получать исходные данные без особых затруднений. Разработанный прототип программного средства может решить поставленные задачи, предполагает дальнейшее развитие для максимально результативного и продуктивного получения результатов анализа данных.

Информатика

Дипломы

Вуз: Северо-Кавказский федеральный университет (ФГАОУ ВПО СКФУ)

ID: 5f35546ecd3d3e0001b8a5e9

UUID: fbcac6d0-bfa2-0138-18ea-0242ac180006

Язык: Русский

Опубликовано: около 4 лет назад

Просмотры: 12

10.24

Николай Липиев

Комментировать 11

Рецензировать 0

Скачать - 2,5 МБ

Поделиться работой

СОДЕРЖАНИЕ ПЕРЕЧЕНЬ СОКРАЩЕНИЙ И УСЛОВНЫХ ОБОЗНАЧЕНИЙ ...................... 7 ВВЕДЕНИЕ .............................................................................................................. 9 1. ТЕОРЕТИЧЕСКАЯ ЧАСТЬ ............................................................................. 12 1.1 Программная и техническая архитектура ИС предметной области ...... 12 1.2 Методы кластеризации ............................................................................... 22 1.3 Анализ существующих разработок и обоснование выбора технологии проектирования ................................................................................................. 33 2. АНАЛИТИЧЕСКАЯ ЧАСТЬ ........................................................................... 38 2.1 Проблема предметной области .................................................................. 38 2.2 Выбор системы разработки ........................................................................ 40 2.3 Моделирование информационных процессов ......................................... 43 2.4 Используемые классификаторы и системы кодирования ....................... 50 3. ПРАКТИЧЕСКАЯ ЧАСТЬ ........................................................................... 58 3.1 Общая концепция разрабатываемой системы .......................................... 58 3.2 Схема взаимосвязи программных модулей и информационных файлов ............................................................................................................................. 62 3.3 Характеристика нормативно-справочной и входной оперативной информации ....................................................................................................... 63 3.4 Описание программных модулей .............................................................. 69 ЗАКЛЮЧЕНИЕ ..................................................................................................... 80 СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ ................................................. 81 6

ПЕРЕЧЕНЬ СОКРАЩЕНИЙ И УСЛОВНЫХ ОБОЗНАЧЕНИЙ АСПТ - автоматическая система пожаротушения АУП – административно-управленческий персонал БД – база данных ВНИИПО - всероссийский научно-исследовательский институт противопожарной обороны ГГц – гигагерц ИМ – информационная модель ИС – информационная система КСБ – комплексная система безопасности ЛВС – локальная вычислительная сеть МЧС – министерство чрезвычайных ситуаций ОКУД - общероссийский классификатор управленческой документации ОПС - охранно-пожарная сигнализация ОС – операционная система ПК – персональный компьютер ПКО – проектно-конструкторский отдел ПО – программное обеспечение СКУД - система контроля и управления доступом СКФУ - Северо-Кавказский Федеральный Университет СМНУ - специализированное монтажно-наладочное управление СПИ - система передачи извещений СУБД - система управления базами данных ТК – технический комитет ТСОН - телевизионная система охранного наблюдения УСД – унифицированная система документации ЧД – чистый доход ЧДД - чистый дисконтированный доход ЭВМ – электронно-вычислительная машина 7

ADSL - asymmetric Digital Subscriber Line BSS - basic Service Set CASE - computer-Aided Software Engineering DFD - data flow diagramming DSL - dictionary Specification Language ESS - extended Service Set GB – gigabyte HDD - hard disk drive IDEF - integrated definition ISO - International Organization for Standardization KDD - knowledge discovery in databases LAN - local area network RAM - random access memory SDD - solid-state disk USB - universal serial bus WAN - wide area network WDDM - Windows Display Driver Model xDSL - digital subscriber line 8

ВВЕДЕНИЕ За последние двадцать лет значительно возрос объём и оборот информации во всех сферах жизнедеятельности человека: экономической, финансовой, политической, духовной. Как показали современные исследования, объем сгенерированных данных в 2012 году составил 2,8 зеттабайт, а прогноз на 2020 г. указывает на увеличение их объема до 40 зеттабайт (ZB). И процесс накопления, обработки и использования знаний постоянно ускоряется. Учёные утверждают, что каждые десять лет количество информации увеличивается вдвое. В связи с этим возникает необходимость использования автоматических средств, позволяющих эффективно хранить, обрабатывать и распределять накопленные данные. Информатизация общества — это глобальный социальный процесс, особенность которого состоит деятельности в сфере накопление, продуцирование, в том, общественного что доминирующим производства обработка, является хранение, видом сбор, передача и использование информации, осуществляемые на основе современных средств микропроцессорной разнообразных и вычислительной средств техники, информационного а обмена. также на базе Информатизация общества обеспечивает: − активное использование постоянно расширяющегося интеллектуального потенциала общества, сконцентрированного в печатном фонде, и научной, производственной и других видах деятельности его членов; − интеграцию информационных технологий с научными, производственными, инициирующую развитие всех сфер общественного производства, интеллектуализацию трудовой деятельности; − высокий уровень информационного обслуживания, доступность любого члена общества к источникам достоверной информации, визуализацию представляемой информации, существенность используемых 9

данных. Применение открытых информационных систем, рассчитанных на использование всего массива информации, доступной в данный момент обществу механизмы в определенной управления его сфере, общественным позволяет усовершенствовать устройством, способствует гуманизации и демократизации общества, повышает уровень благосостояния его членов. Процессы, происходящие в связи с информатизацией общества, способствуют не только ускорению научно—технического прогресса, интеллектуализации всех видов человеческой деятельности, но и созданию качественно новой информационной среды социума, обеспечивающей развитие творческого потенциала индивида. Исходя из современных требований, предъявляемых к качеству работы финансового звена крупного предприятия, нельзя не отметить, что эффективная работа его всецело зависит от уровня оснащения компании информационными средствами на базе компьютерных систем. Информационные средства позволяют не только решать примитивные задачи хранения данных при помощи компьютера, но и позволяют эти данные анализировать и на основе этих результатов принимать решения различного характера. Информатизация общества давно перенесла задачу анализа данных на плечи вычислительной техники, это намного быстрее и удобнее, чем решать эту задачу человеческими ресурсами. Существует множество аналитических систем, специального программного обеспечения и прочего, которые позволяют анализировать полученные данные. Вопрос лишь в их эффективности и наличие недостатков, в частности касательно подхода к импорту и обработке данных. У любого аналитического программного обеспечения есть ряд своих проблем или недостатков, будь то невозможность работы с пропусками данных, необходимость в эмпирических или эвристических предположениях, неизвестность модели и так далее. 10

В настоящее время существует ряд проблем в области анализа данных. Некоторыми из них являются: 1) Проблема работы с пропусками данных; 2) Проблема обработки данных измеренных в разных шкалах; 3) Проблема параллельных вычислений при решении задач кластеризации; Cуществующие на данный момент методы и средства не решают данные проблемы. О существовании методов, которые решают данные проблемы, автору на данный момент неизвестно. Решить данные проблемы было предложено созданием модели, а позже программного продукта, который сможет формировать кластеры в виде гиперкубов, где каждая плоскость будет измерена в соответствующей шкале. В данном дипломном проекте описывается процесс моделирования данного программного продукта и его процессов. Существует алгоритм разработки проекта: 1. проблема (почему?); 2. цель (зачем?); 3. задачи (что делать?); 4. методы и способы (как?); 5. результат (что получится?). Задачей дипломной работы является разработка прототипа программного продукта, который позволит решать задачи кластеризации. Объект исследования – анализ данных. Предмет исследования – методы кластеризации. 11

1. ТЕОРЕТИЧЕСКАЯ ЧАСТЬ 1.1 Программная и техническая архитектура ИС предметной области Современное предприятие обязательно имеет в своем распоряжении информационное обеспечение систем управления, включающее в себя базы данных и аппаратно-програмные комплексы для управления ими. Важное значение имеет информация о возникновении в ходе производства отклонений от плановых показателей, требующих принятия оперативных решений. Большую роль играет, в принятии решений, научно-техническая информация, содержащая актуальные научные знания, сведения об изобретениях, тенденций развития инновационной деятельности, а также конкурирующих фирм. Это непрерывно пополняемый общий фонд и потенциал знаний и технических решений, практическое и использование которого обеспечивает фирме высокий уровень конкурентоспособности на своем рынке[2]. Информация служит фундаментом для формирования различного рода аналитических отчетов, для разработки и принятия необходимых управленческих решений. Содержание каждой конкретной информации определяется потребностями аналитического отдела и вырабатываемых управленческих решений. В производственно-хозяйственных подразделениях фирмы обеспечивается обобщение информации снизу-вверх, а также конкретизация информации сверху вниз. Информационный процесс, цель которого получение научно- технической, плановой, контрольной, учетной и аналитической информации при организации информационной технологии, должен быть унифицирован, что позволяет использовать современные средства вычислительной техники. 12

В современных условиях в фирмах необходима организация применения высокоэффективной внутрифирменной системы информации. Управленческая представляет собой внутрифирменная совокупность информационная информационных система процессов для удовлетворения потребности в информации разных уровней принятия решений. Для организации этого процесса в фирме формируются базы данных, наполненные данными по различным аспектам функционирования предприятия. Базы данных являются составной частью программного комплекса и формируются в процессе настройки программного обеспечения информационной технологии управления фирмой[1]. В целях защиты информации от несанкционированного доступа каждый пользователь фирмы, подключенный к локальной вычислительной сети и информационной базе, имеет свободный доступ только к информации, необходимой для выполнения им его служебных функций, и получить при необходимости информацию, не связанную непосредственно с его функциями, может только с разрешения вышестоящего руководства фирмы. Современная информационная технология управления фирмой является процессом, состоящим из четко регламентированных правил выполнения операций над информацией в информационной системе экономического объекта для принятия оптимального управленческого решения, которое связано с основной функцией любого предприятия – выпуском готовой продукции с целью получения экономических результатов от реализации этой продукции. Движение информационных потоков на предприятии между отделами осуществляется непосредственно через локальную вычислительную сеть и соединения с Интернетом. Сеть строится на основе топологии звезда на основе разных видов кабелей: волоконно-оптический и витая пара, а также при помощи 13

телефонного провода на особо длинных участках. Звезда - базовая топология компьютерной сети, в которой все компьютеры сети присоединены к центральному узлу, образуя физический сегмент сети. Локальная сеть предприятия отображена на рисунке 1.2. Рисунок 1.1 - Структура локальной сети предприятия К достоинствам данной топологии можно отнести: - масштабируемость сети; выход из строя одной рабочей станции не отражается на работе всей сети в целом; - лёгкий поиск неисправностей и обрывов в сети; высокая производительность сети (при условии правильного проектирования); - безопасность. ПКО имеет доступ к централизованной базе данных Dropbox. Данные, полученные с сервера БД, используются для имитации и построения трёхмерных моделей реальных объектов с планированием, проектировкой и расстановкой систем безопасности в программе для создания трёхмерных моделей Google SketchUp 8. 14

Данное предприятие имеет выход в Интернет, пользуясь услугой высокоскоростного интернета по ADSL- каналу с помощью ADSL модема Zyxelс портом USB. Высокоскоростной интернет – это услуга высокоскоростного доступа к сети Интернет, предоставляемая провайдером ОАО «Ростелеком» через ADSL-подключение. А также имеется беспроводная сеть WiFi. В компании имеется беспроводная ЛВС Локальная вычислительна сеть – это компьютерная сеть, которые покрывает весьма небольшую территорию или несколько зданий, находящихся не так удалённо друг от друга. Задача создания точки доступа – это обеспечение обмена данными между пользователями, использующими беспроводную сеть, а также обеспечить тот уровень доступа, при котором все клиенты будут равноправны относительно доступа к среде передачи данных. Несколько компьютеров могут быть соединены между собой в локальную сеть. При этом эти компьютеры могут работать на совершено разных операционных системах. Один на Window, второй на Linux, а третий на MacOS. Все они должны иметь одинаковый уровень доступа к сети. Маршрутизаторы выполняют роль пограничных сетевых устройств. Они являются устройствами, которые устанавливаются и находятся на границе между двумя или более сетями, или же находятся между локальной сетью и сетью Интернет, выполняя роль сетевого шлюза. Маршрутизаторы с точки зрения конструкции должны иметь минимум два порта: одному будет подключаться сама локальная сеть, этот порт называется LAN-портом, а к другому будет подключенная внешняя сеть или же Интернет, такой порт называется WAN-портом. Те маршрутизаторы, которые используются в домашним условиях или в масштабах небольшого офиса (их называю SOHOмаршрутизаторами), имеют в наличие обычно несколько LAN-портов (от одного до четырёх) объединённых в коммутатор и один WAN-порт. Чаще всего WAN-порты имеют стандартный для себя интерфейс 10/100Base-TX. К 15

такому интерфейсу может без каких-либо проблем подключиться xDSLмодем с соответствующим интерфейсом, либо же можно подключить Ethernet-кабель. Та точка беспроводного доступа, которая интегрирована в маршрутизатор может организовывать сегмент сети с беспроводным доступом. Для маршрутизатора устройства, подключенные беспроводным способом и через LAN-порты ничем не отличаются друг от друга. Подобное использование маршрутизатора, организовавшего беспроводную точку доступа имеет выгоду, ибо можно сэкономить на дополнительном оборудовании, вроде дополнительных Ethernet- контроллеров, мини-коммутаторов и прочего. При этом сам маршрутизатор предоставляет различные дополнительные средства для защиты сети и предотвращения несанкционированного взлома. Так, практически все современные маршрутизаторы класса SOHO имеют встроенные аппаратные брандмауэры, которые также называются сетевыми экранами или firewall Режим функционирования беспроводной сети на базе точки доступа называется режимом Infrastructure Mode. Рассматривают два режима Infrastructure - основной режим BSS (Basic Service Set) и расширенный режим ESS (Extended Service Set). В режиме BSS все узлы сети связываются между собой только через одну точку доступа, которая может выполнять также роль моста к внешней сети. В расширенном режиме ESS существует инфраструктура нескольких сетей BSS, причём сами точки доступа взаимодействуют друг с другом, что позволяет передавать трафик от одной BSS к другой. Между собой точки доступа соединяются при помощи либо сегментов кабельной сети, либо радиомостов. Антивирусная программа или же антивирус — это программа в функции которой входит обнаружение компьютерных вирусов разных типов, различные подозрительных восстановление «заражённых» и вредоносных файлов, 16 программ, постоянный работа мониторинг и всех

поступающих извне данных и файлов, а также полноценное обеспечение безопасности операционной системы и компьютера. «Лаборатория Касперского» является одной из самых популярных систем защиты в России. Так же она одна из крупнейших в Европе. Лаборатория производит защиту от спама, вирусов, хакерских атак, вредоносного программного обеспечения и прочих нежелательных воздействий. Компания же в свою очередь производит такие программные решения в сфере информационной безопасности, которые позволяют ей входить в число ведущих мировых производителей в этой отрасли. «Лаборатория Касперского» является компанией международного уровня, офис которой находится в Москве. Компания имеет пять региональных дивизионов, при помощи которых управляют деятельностью различных свои партнёров, представительств и различных регионах. Например, в Западной и Восточной Европе, в Африке, в Северной и Южной Америке, на Ближнем Востоке, а также в Японии. В сеть партнёров входят около семисот партнёров первого уровня, которые располагаются примерно в ста странах мира. Под защитой технологий компании находятся 300 миллионов пользователей по всему миру. Годы упорной работы позволили компании стать лидером в разработке средств защиты от вирусов. Антивирус Касперского, регулярно занимает высшие места в тестах международных исследовательских центров и компьютерных изданий. Существуют антивирусные программные модули, которые обеспечивают надёжную защиту тех объектов, которые могут подвергнуться потенциальной атаке. Это сервера различных типов, различные шлюзы, межсетевые экраны, рабочие станции, все они – потенциальные объекты для атаки и все они защищаются «Лабораторией Касперского». Подобные средства позволяют обеспечить качественную, функциональную автоматизированную защиту как компьютеров, так и сетей. 17 и

Kaspersky Internet Security 2014 является надёжной защитой для персонального компьютера и предотвращает проникновение различных вирусов, шпионских программ и вредоносного программного обеспечения. Данная программа имеет ряд возможностей, вроде проверки интернеттрафика, проактивную защиту, постоянные обновления баз данных вирусных программ и прочее, что позволяют обеспечивать наиболее эффективную защиту. «Лаборатория Касперского» является разработчиков многих современных технологий антивирусной защиты, без которых трудно представить современный антивирус. Программное ядро используется в различных странах: в США, Тайване, Израиле, Мальте, Великобритании и других. Многие разработчики и именитые компании используют технологии «Лаборатории Касперского в своих продуктах: Microsoft, ZyXEL, LANDesk, Safenet, Alt-N, Aladdin, Juniper, Cisco и другие. Все основные отделы предприятия используют следующее программное обеспечение: - операционные системы: Windows Server 2003; и Windows 10 на базе Amazon AWS; - офисный пакет приложений Microsoft Office 2007, включающий в себя набор стандартных программ: Word, Excel, Access, PowerPoint, MS Outlook; - графические редакторы: CorelDraw, Gimp; - антивирусное ПО: Kaspersky Internet Security 2014; На предприятии используется 1С Предприятие 8.3 для решения производственных задач. Также организация занимается обслуживаем, установкой и поддержкой данного решения. Собственно, предприятие является официальным партнером фирмы 1С. Фирма «1С» — российская компания, специализирующаяся на дистрибуции, поддержке и разработке компьютерных программ и баз данных 18

делового и домашнего назначения. Организационно-правовая форма: общество с ограниченной ответственностью. Основатель и директор компании — Борис Нуралиев. Название компании возникло из названия собственной поисковой программы: не более 1 секунды требовалось для получения информации[1]. Также фирма владеет компаниями СофтКлаб и Бука. Фирма основана в 1991 году в России, имеет штат 1000 человек. Основатель и директор — Нуралиев Борис Георгиевич Рисунок 1.2 – Логотип фирмы 1С Помимо фирмы 1С, предприятия является партнером фирмы 1С ГЭНДАЛЬФ. Компания «1С-ГЭНДАЛЬФ» была создана в 1993 году как партнер фирмы «1С». В этот период один из учредителей читал книгу Дж. Толкиена «Властелин колец». Было принято решение назвать фирму в честь одного из центральных персонажей саги – это оригинально и символично. Гэндальф волшебник с непростым характером. Он помогает людям, но при этом не 19

дарит им что они хотят, а учит их достигать этого самостоятельно. Он заставляет их что-то делать, чтобы получить то, что они хотят. Также и у нас: мы предоставляем партнерам технологии и идеи, а потом помогаем партнеру работать по их внедрению. В 1999 году в Ростове-на-Дону было открыто направление дистрибьюции, которое помогло расширить возможности компании для развития на рынке «1С». Сейчас «1С-ГЭНДАЛЬФ» насчитывает 14 представительств на территории ЮФО, ЦФО и ПФО, численность коллектива превышает 100 человек, а количество партнеров насчитывает 2 500. Рисунок 1.3 – Логотип 1С Гэндальф Также фирма является партнером фирмы ЗАО «Калуга Астал». Группа компаний «Астрал» ведет свою деятельность с 1993 года, поставляя на рынок информационных технологий современное, высокотехнологичное программное обеспечение, получившее широкое распространение среди организаций всех сфер деятельности. Основное направление работы наших специалистов — это разработка и внедрение систем для сдачи электронной 20

отчетности. Число пользователей программных продуктов, созданных ЗАО "Калуга Астрал", неуклонно растет день за днем. Удостоверяющий Центр ЗАО «Калуга Астрал» является вторым в России по количеству обслуживаемых сертификатов электронной подписи, а спецоператор связи Астрал.ОФД - в тройке ведущих в РФ. Рисунок 1.4 – Логотип ЗАО «Калуга Астрал» 21

1.2 Методы кластеризации Кластеризация (или кластерный анализ) — это распределение данных, обладающих похожими свойствами, в группы опираясь на метод близости или метод похожести. Кластеризацию можно разделить на два метода: кластеризация, основанная на мере близости и кластеризация, основанная на мере похожести. Кластеризация применяются для анализа данных и выделения в них зависимостей. Это одни из разделов DataMining. Существует различные алгоритмы кластеризации, у всех есть свои особенности, преимущества и недостатки, а также они все имеют различную вычислительную сложность и разное представление. У любого из существующих методов есть свои определённые ограничения, обусловленные либо методом разработки, либо сферой деятельности. Например, алгоритм CURE обладает высокой вычислительной точности, но имеет ограничение на количество кластеров, алгоритм MST формирует кластеры произвольной формы, но чувствителен к пропускам. Было предложено разработать метод кластеризации, который может параллельно обрабатывать данные, измеренные в разных шкалах, а также работать с пропусками данных. При этом кластер будет формироваться в виде гиперкуба. Целью дипломной работы является исследование и моделирование информационных процессов в задачах кластеризации. Объектами исследования является разношкальнные данные. Задача – разработать метод, а позже программное средство, для возможности формирования кластеров на основе гиперкубов при использовании разношкальных данных. Для моделирования процессов была выбрана графическая нотация IDEF с последующей декомпозицией на IDEF0, IDEF3, DFD. 22

Одной из фундаментальных задач Data Mining, а также всей области анализа данных, является кластеризация, которая представляет собой объединение схожих объектов в группы. Применяется она во множестве областей, как прикладных, так и нет. Например, прогнозирование, анализ текстов, работа с изображением, маркетинг и реклама, борьба с мошенничеством и так далее. Чаще всего, именно кластеризация выступаем первым шагом при анализе данных. Уже после неё, непосредственно когда схожие группы уже сформированы, применяются уже отдельные методы и модели для каждой из групп. Класс, таксон, сгущение, всё это синонимы понятия кластер, которые создают всё многообразие. В различных научных направления, будь то распознавание образом, или машинное обучение, или же, например, оптимизация, во всех низ в определённой мере фигурировала кластеризацию и формулировалось её определение. На данный момент существуют уже огромное множество методов и алгоритмом для того, чтобы разбивать объект на группы и модифицировать их в процессе. Но при этом стоит учитывать, что не все они могут применяться в Data Mining. Только когда кластеризация выступает одним из этапов анализа данных, только тогда она представляет ценность для Data Mining. Всегда проще выделить несколько групп схожих объект, изучив их отдельно, построив для каждой отдельную модель, чем строить одну модель для всех данных. Данный приём, например, используется в маркетинге, когда нужно выделить отдельные группы покупателей, для которых уже в свою очередь разрабатывается своя стратегия. Очень часто данные, с которыми сталкивается технология Data Mining, имеют следующие важные особенности: 23

высокая размерность (тысячи полей) и большой объем (сотни • тысяч и миллионы записей) таблиц баз данных и хранилищ данных (сверхбольшие базы данных); наборы • данных содержат большое количество числовых и категорийных атрибутов. Существуют числовые и категорийные атрибуты или же признаки объектов. Числовые, это те атрибуты, который можно упорядочить в пространстве, категорийные соответственно нельзя. Для примера можно привести несколько атрибутов, например, возраст – это числовой атрибут, а цвет – категорийный. Значения атрибутов приписывается в тот момент, когда этот атрибут измеряется выбранным типом шкалы, что в свою очередь уже является отдельной задачей. Мера близости, она же мера сходства является основой для большинства алгоритмов кластеризации. Сама мера представляет из себя величину, которая в свою очередь имеет предел, и которая может возрастать, когда близость объектов увеличивается. Задаётся мера сходства специальными правилами и обуславливается задачей и шкалой измерений. Довольно часто для числовых атрибутов используется евклидово расстояние. Для категорийных атрибутов распространена мера сходства Чекановского-Серенсена и Жаккара (∣t1∩t2∣/∣t1∪t2∣)(∣t1∩t2∣/∣t1∪t2∣). Из-за того, что в Data Mining обрабатываются большие массивы данных, возникла необходимость в требованиях, которые должен удовлетворять алгоритм кластеризации. Эти требования: 1. Минимально возможное количество проходов по базе данных; 2. Работа в ограниченном объеме оперативной памяти компьютера; 3. Работу алгоритма можно прервать с сохранением промежуточных результатов, чтобы продолжить вычисления позже; 4. Алгоритм должен работать, когда объекты из базы данных могут извлекаться только в режиме однонаправленного курсора (т.е. в режиме навигации по записям). 24

Если алгоритм может удовлетворить предъявляемые требования, в частности второе, то он будет называться масштабируемым. Собственно, именно это свойство масштабируемости и является одним из важнейших в алгоритме. Также существует другое определение ёмкости алгоритма, если ёмкость оперативной памяти не изменяется, а число записей в БД во время работы алгоритма увеличивается линейно, то такой алгоритм можно называть масштабируемым. На рынке масштабируемых алгоритмов кластеризации борьба идет за снижение каждого "дополнительного" прохода по набору данных во время работы алгоритма. Разработаны масштабируемые аналоги k-means и EM (scalable k-means и scalable EM), масштабируемые агломеративные методы (CURE, CACTUS). Эти современные алгоритмы требуют всего несколько (от двух до десяти) сканирований базы данных до получения финальной кластеризации. Таким образом, не существует единого универсального алгоритма кластеризации. При использовании любого алгоритма важно понимать его достоинства и недостатки, учитывать природу данных, с которыми он лучше работает и способность к масштабируемости. Кластеризация и классификация применяются для анализа данных и выделения в них зависимостей. Это одни из разделов Data Mining. Кластеризация (или кластерный анализ) — это задача разбиения множества объектов, обладающих определённым свойствами и зависимостями, на группы, называемые кластерами. Кластеризацию можно разделить на два вида: кластеризация, основанная на мере близости и кластеризация, основанная на мере похожести. Решение задачи кластеризации принципиально неоднозначно, и тому есть несколько причин. Во-первых, не существует однозначно наилучшего критерия качества кластеризации. Известен целый ряд достаточно разумных критериев, а также ряд алгоритмов, не имеющих чётко выраженного критерия, но осуществляющих достаточно разумную кластеризацию «по 25

построению». Все они могут давать разные результаты. Во-вторых, число кластеров, как правило, неизвестно заранее и устанавливается в соответствии с некоторым субъективным критерием. В-третьих, результат кластеризации существенно зависит от метрики ρ, выбор которой, как правило, также субъективен и определяется экспертом. [1] Этапы кластерного анализа: 1. Производится выборка объектов, предназначенных для кластеризации. 2. Определяются и нормализуются переменные, при помощи которых будут оцениваться объекты в выборке. 3. Между объектами вычисляется значение меры сходства. 4. Необходимо сформировать группы схожих объектов (кластеров), для этого применяются методы кластерного анализа. 5. Представление результатов анализа. Возможно, оптимальный результат по нужным параметрам будет получен не сразу, а поэтому после получения результатов и их анализа можно корректировать методы и метрики для улучшения результата. [2] Алгоритмы кластеризации можно разделить по методу близости и методу похожести. Первый работает лучше с численными характеристиками, а второй с качественными признаками, что может использоваться в определённой ситуации для получения более точного результата, как например метод близости лучше подходит для параллельных вычислений. Встаёт вопрос «а как же определить похожесть объектов?». Каждый объект обладает характеристика и нужно составить их вектор, например, это могут быть числовые значения, как рост или вес человека. В свою очередь, некоторые алгоритмы работают с качественными характеристиками, такие алгоритмы будут опираться на метод похожести, а не на метод близости. [3] Методы кластеризации: 26

1) Методы по способу обработки данных. Существуют иерархические методы (агломеративные методы AGNES (Agglomerative Nesting): CURE, ROCK, CHAMELEON и т.д.), дивизимные методы DIANA (BIRCH, MST и т.д.), итеративные (К-средних (k-means), PAM (k-means + kmedoids), CLOPE - LargeItem и т.д. ) 2) Методы по способу анализа данных: четкие и нечеткие. 3) Методы по количеству применений алгоритмов кластеризации: с одноэтапной кластеризацией и с многоэтапной кластеризацией. 4) Методы по возможности расширения объема обрабатываемых данных: масштабируемые, немасштабируемые. 5) Методы по времени выполнения кластеризации: потоковые (on-line), не потоковые (off-line). [4] У каждого метода есть свои достоинства и недостатки, определённые методы разрабатывались для решения какой-то определённой задачи. Достоинства и недостатки методов продемонстрированы на рисунке 1.5 и 1.6. 27

Рисунок 1.5 – Методы кластеризации Рисунок 1.6 – Методы кластеризации 28

Как можно увидеть алгоритмов кластеризации огромное множество, у всех есть свои особенности, преимущества и недостатки, а также они все имеют различную вычислительную сложность и разное представление, например, на рисунке 3 можно увидеть пример гистограммы двух разбиений. Рисунок 1.7 - Гистограммы двух разбиений У любого из существующих методов есть свои определённые ограничения, обусловленные либо методом разработки, либо сферой деятельности. Рисунок 1.8 - Эффект расщепления большого кластера. 29

Именно поэтому было предложено решение использовать кластеризацию при помощи гиперкубов, который позволит измерять плоскости в разных шкалах, при этом измерять эти самые шкалы корректно, а также позволит распараллеливать результаты кластеризации. [5] Рисунок 1.9 – Алгоритмы кластеризации Классификация, в свою очередь, относит объект или группу объектов к уже существующей и определённой группе. 30

Классифицировать объект — значит, указать номер (или наименование класса), к которому относится данный объект. Классификация объекта — номер или наименование класса, выдаваемый алгоритмом классификации в результате его применения к данному конкретному объекту. 31

3. Расстояние городских кварталов (манхэттенское расстояние) Это расстояние является средним разностей по координатам. В большинстве случаев эта мера расстояния приводит к таким же результатам, как и для обычного расстояния Евклида. Однако для этой меры влияние отдельных больших разностей (выбросов) уменьшается (т.к. они не возводятся в квадрат). Формула для расчета манхэттенского расстояния: Выбор метрики полностью лежит на исследователе, поскольку результаты кластеризации могут существенно отличаться при использовании разных мер. 32

Для себя я выделил две основные классификации алгоритмов кластеризации. 1. Иерархические Иерархические алгоритмы (также называемые алгоритмами таксономии) строят не одно разбиение выборки на непересекающиеся кластеры, а систему вложенных разбиений. Т.о. на выходе мы получаем дерево кластеров, корнем которого является вся выборка, а листьями — наиболее мелкие кластера. Плоские алгоритмы строят одно разбиение объектов на кластеры. 2. Четкие Четкие (или непересекающиеся) алгоритмы каждому объекту выборки ставят в соответствие номер кластера, т.е. каждый объект принадлежит только одному кластеру. Нечеткие (или пересекающиеся) алгоритмы каждому объекту ставят в соответствие набор вещественных значений, показывающих степень отношения объекта к кластерам. Т.е. каждый объект относится к каждому кластеру с некоторой вероятностью. 1.3 Анализ существующих разработок и обоснование выбора технологии проектирования Аналоги существуют у большего числа создаваемых продуктов, как они и существуют у разрабатываемого для дипломного проекта программного обеспечения. Несмотря на то, что аналогами являются аналитические платформы, они имеют свои недостатки, либо же в них отсутствует определённые функции. Разрабатываемое программное обеспечение должно избавиться от этих недостатков и реализовать недостающие функции. К ним относятся: − импорт данных из различных источников; − информативная подсистем призраков; 33

− работа с пропусками данных. Так же нужно и определиться с перечнем аналогов. Существует множество различных аналитических систем, с различными функциями. Для сравнения нужно выбрать те, которые обладают похожими функциями с разрабатываемой системой, дабы не сравнивать две разнородные аналитические системы, ибо каждая система решает лишь определённые задачи. Для сравнения были выбраны: − «Deductor Studio»; − «Alteropower»; − «Statistica Data Miner». Таблица 1.1 – Существующие аналоги разрабатываемого программного продукта Импорт из Информативна Работа с Визуализа я подсистема пропусками ция признаков данных данных имеется отсутствует отсутствует имеется 29 000 руб Alteropower имеется отсутствует отсутствует имеется 60000 руб Statistica Data Частично Miner имеется имеется отсутствует ПО различных источнико в Deductor Studio 34 Частично имеется Лицензия 70000 руб

Познание имеется Частично имеется имеется имеется 10000 руб Каждый из аналогов имеет одну или несколько возможностей в своём функциональном арсенале, но не имеют их все, что является их недостатками. Например, главными недостатками Deductor Studio является то, что данная система не работает с пропусками данных, а также гипотезы в ней ограниченны. На рисунке 1.9 можно увидеть главное окно программы Deductor Studio. Рисунок 1.10 – Главное окно программы Deductor Studio Alteropower предоставляют лишь технические и программное обеспечения для решения аналитических задач, но не предоставляют саму платформу. Процесс работы этой программы можно увидеть на рисунке 1.9. 35

Рисунок 1.10 –Процесс работы программы Alteropower Statistica Data Miner может работать с данными из различных источников. Процессы, протекающие в данной программе можно увидеть на рисунке 1.11. Рисунок 1.11 – Процессы, протекающие в Statistica Data Miner 36

С коммерческой версии программы присутствуют функции поиска наиболее информативных признаков, но отсутствует работа с пропусками данных. Выводы по разделу: Были предприятия. изучены Изучено организационная используемое и техническая программное структура обеспечение и технические средства, используемые для решения конкретных задач. Анализ данных на предприятие занимает весьма продолжительное время, а поэтому было предложено решение этой проблемы. Можно сделать вывод, что существующие решения не позволяют решать задачи эффективно, именно поэтому было принято решение разработки системы анализа данных на основе кластеризации. Таким образом, проблема автоматизации заключается в отсутствие аналитической системы на предприятии. Внедрение аналитической системы позволит, как и упростить задачи анализа данных на предприятии, так и принимать с её помощью различные управленческие решения. 37

2. АНАЛИТИЧЕСКАЯ ЧАСТЬ 2.1 Проблема предметной области Исходя из современных требований, предъявляемых к качеству работы финансового звена крупного предприятия, нельзя не отметить, что эффективная работа его всецело зависит от уровня оснащения компании информационными средствами на базе компьютерных систем. Информационные средства позволяют не только решать примитивные задачи хранения данных при помощи компьютера, но и позволяют эти данные анализировать и на основе этих результатов принимать решения различного характера. Информатизация общества давно перенесла задачу анализа данных на плечи вычислительной техники, это намного быстрее и удобнее, чем решать эту задачу человеческими ресурсами. Существует множество аналитических систем, специального программного обеспечения и прочего, которые позволяют анализировать полученные данные. Вопрос лишь в их эффективности и наличие недостатков, в частности касательно подхода к импорту и обработке данных. У любого аналитического программного обеспечения есть ряд своих проблем или недостатков, будь то невозможность работы с пропусками данных, необходимость в эмпирических или эвристических предположениях, неизвестность модели и так далее. В настоящее время существует ряд проблем в области анализа данных. Некоторыми из них являются: 1) Проблема работы с пропусками данных; 2) Проблема обработки данных измеренных в разных шкалах; 3) Проблема параллельных вычислений при решении задач кластеризации; Cуществующие на данный момент методы и средства не решают данные проблемы. О существовании методов, которые решают данные 38

проблемы, автору на данный момент неизвестно. Решить данные проблемы было предложено созданием модели, а позже программного продукта, который сможет формировать кластеры в виде гиперкубов, где каждая плоскость будет измерена в соответствующей шкале. В данном проекте описывается процесс моделирования данного программного продукта и его процессов. Существует алгоритм разработки проекта: 1. проблема (почему?); 2. цель (зачем?); 3. задачи (что делать?); 4. методы и способы (как?); 5. результат (что получится?). Кластеризация (или кластерный анализ) — это распределение данных, обладающих похожими свойствами, в группы опираясь на метод близости или метод похожести. Кластеризацию можно разделить на два метода: кластеризация, основанная на мере близости и кластеризация, основанная на мере похожести. Кластеризация применяются для анализа данных и выделения в них зависимостей. Это одни из разделов DataMining. Существует различные алгоритмы кластеризации, у всех есть свои особенности, преимущества и недостатки, а также они все имеют различную вычислительную сложность и разное представление. У любого из существующих методов есть свои определённые ограничения, обусловленные либо методом разработки, либо сферой деятельности. Например, алгоритм CURE обладает высокой вычислительной точности, но имеет ограничение на количество кластеров, алгоритм MST формирует кластеры произвольной формы, но чувствителен к пропускам. Было предложено разработать метод кластеризации, который может параллельно обрабатывать данные, измеренные в разных шкалах, а также 39

работать с пропусками данных. При этом кластер будет формироваться в виде гиперкуба. Целью работы информационных является процессов в исследование задачах и моделирование кластеризации. Объектами исследования является разношкальнные данные. Задача – разработать метод, а позже программное средство, для возможности формирования кластеров на основе гиперкубов при использовании разношкальных данных. Для моделирования процессов была выбрана графическая нотация IDEF с последующей декомпозицией на IDEF0, IDEF3, DFD. 2.2 Выбор системы разработки С точки зрения алгоритмов и моделей необходим универсальный язык разработки. В свою очередь язык программирования C#: − полностью универсальный; − промышленный; − имеется в наличие среда разработки, позволяющая работать на этом языке. Рисунок 2.1 – Структура 1С Предприятия 40

С точки зрения алгоритмов и моделей необходим универсальный язык разработки. В свою очередь язык программирования C#: − полностью универсальный; − промышленный; − имеется в наличие среда разработки, позволяющая работать на этом языке. Таким образом проектным решением принято использовать язык С# для разработки приложения. Средой разработки будет являться Microsoft Visual Studio 2012. При написании использоваться фреймворк .NET Framework 4.0. Достоинствами выбранного языка является: 1. Полностью объектно-ориентированный. 2. Мощный язык с возможностью наследования и универсализации. 3. Огромное количество полезных и удобных библиотек. 4. Удобство отладки. 5. Удобное взаимодействие со всеми продуктами, выпускаемыми компанией Microsoft. 6. Активное развитие платформы. 7. Удобство сборки. 8. Защищенность и контроль версий подключаемых алгоритмов. 9. Увеличение надёжности по сравнению с С++ . 41

Рисунок 2.2 – Рабочее окно Visual Studio На одной особенности, а именно, огромном количестве библиотек, можно остановиться поподробнее. Встроенные библиотеки содержат все функции для решения задачи, что позволяет повысить эффективность разработки и взаимодействия обеспечить с её файлами продуктивность. продуктов Так Microsoft как библиотеки Office позволяют осуществлять эффективный импорт данных из внешних источников, а работа с предикатами и статистическими критериями – ускорять разработку и делать её более удобной с точки зрения программиста. 42

Рисунок 2.3 – Логотип фреймворка Accord Также для разработки использовался фреймворк машинного обучения Accord. 2.3 Моделирование информационных процессов Диаграммы процессов были смоделированы в BPWin. Главная диаграмма выполнена в нотации IDEF0. Верхним уровнем абстракции графической модели выбирается кластеризация и классификация данных (Рис. 2.4). 43

Рисунок 2.4 – Главная диаграмма процесса Входными данными являются априорные сведения, которые будут использоваться в процессе формирования кластера, и исходные данные, на основе которых кластер и будет формироваться. Процесс контролируется методами кластеризации и классификации, а также теорией измерений и формальной постановкой задачи. Используют процесс пользователь и программа. Результирующей информацией является представление кластера для решения задачи пользователя. То есть, кластер будет не только сформировал под какую-то конкретную, поставленную пользователем задачу, но ещё и будет представлен в виде многомерного гиперкуба, который позволит отражать каждую шкалу в своей плоскости. Главная диаграмма имеет декомпозицию, включающую в себя пять подпроцессов. Это «Формулировка гипотезы», «Обработка априорных 44

сведений», «Распределение по шкалам», «Выделение кластера» и «Представление и визуализация кластера»(Рис. 2.5): Рисунок 2.5 – Декомпозиция главной диаграммы процесса Входными данными являются априорные сведения, которые будут использоваться в процессе формирования кластера, и исходные данные, на основе которых кластер и будет формироваться. Процесс контролируется методами кластеризации и классификации, а также теорией измерений и формальной постановкой задачи. Используют процесс пользователь и программа. В процессе «Формулировка гипотезы» происходит постановка задачи и, собственно, сама формулировка гипотезы, которая и будет проверяться в процессе работы программы. «Обработка априорных сведений» применяет и учитывает априорные сведения, которые поступили вместе с исходными данными. «Распределение по шкалам» производит привязку к направляющей 45

шкале при учёте априорных сведений. «Выделение кластера» строит гиперкуб и формирует сгустки на каждой оси. И, собственно, последний процесс формирует результат, который будет представлен пользователю. В процессе «Формулировка гипотезы» происходит постановка задачи и, собственно, сама формулировка гипотезы, которая и будет проверяться в процессе работы программы. «Обработка априорных сведений» применяет и учитывает априорные сведения, которые поступили вместе с исходными данными. «Распределение по шкалам» производит привязку к направляющей шкале при учёте априорных сведений. «Выделение кластера» строит гиперкуб и формирует сгустки на каждой оси. И, собственно, последний процесс формирует результат, который будет представлен пользователю. Процессы «Распределение по шкалам» и «Выделение кластера» имеют декомпозицию, сформированную по методологии DFD. Декомпозицию в формате DFD процесса «Распределение по шкалам» можно увидеть на рисунке 2.6. Рисунок 2.6 – Декомпозиция блока «Распределение по шкалам» 46

Декомпозиция показывает процесс, когда исходные данные привязываются к направляющей шкале, после чего, учитывая априорные сведения они становятся обработанными данными, которые будут использоваться в дальнейшем для формирования кластера. Декомпозиция блока «Выделение кластера» можно увидеть на рисунке 2.7. Рисунок 2.7 – Декомпозиция блока «Выделение кластера». В процессе описывается как из обработанных данных происходит построение гиперкуба, после чего на каждой его оси формируется сгусток кластеров. Из всех данных формируется сам гиперкуб, после чего формируются сгустки на его осях, то есть на плоскостях, определённых шкалами измерения. 47

В процессе описывается как из обработанных данных происходит построение гиперкуба, после чего на каждой его оси формируется сгусток кластеров. Из всех данных формируется сам гиперкуб, после чего формируются сгустки на его осях, то есть на плоскостях, определённых шкалами измерения. Перед началом декомпозиции блока «Формирование сгустка кластеров» нужно сформировать схему данных в базе данных. Схему можно увидеть на рисунке 2.8. Рисунок 2.8 – Схема базы данных В процессе описывается как из обработанных данных происходит построение гиперкуба, после чего на каждой его оси формируется сгусток кластеров. Из всех данных формируется сам гиперкуб, после чего формируются сгустки на его осях, то есть на плоскостях, определённых шкалами измерения. Процесс «Формирование сгустка кластеров» имеет декомпозицию, представленную в формате IDEF3. (Рис. 2.9) 48

Рисунок 2.9 – Декомпозиция блока «Формирование сгустков кластеров по каждой оси». Здесь из обработанных данных строится сам гиперкуб, при этом построение плоскостей происходит одновременно по всем шкалам и считается завершённым, когда все плоскости сформированы. Все процессы будут контролироваться методами кластерного анализа. Этапы кластерного анализа: 6. Производится выборка объектов, предназначенных для кластеризации. 7. Определяются и нормализуются переменные, при помощи которых будут оцениваться объекты в выборке. 8. Между объектами вычисляется значение меры сходства. 9. Необходимо сформировать группы схожих объектов (кластеров), для этого применяются методы кластерного анализа. 10. Представление результатов анализа. Возможно, оптимальный результат по нужным параметрам будет получен не сразу, а поэтому после получения результатов и их анализа можно корректировать методы и метрики для улучшения результата. 49

В свою очередь, некоторые алгоритмы работают с качественными характеристиками, такие алгоритмы будут опираться на метод похожести, а не на метод близости. В финале будет получен гиперкуб, построенный по гипотезе, которую сформулировал пользователь. Этот гиперкуб и будет являться результирующей информацией. На каждой из плоскостей будет сформирован свой сгусток кластеров для получения наиболее достоверной информации. 2.4 Используемые классификаторы и системы кодирования Классификаторы представляют собой систематический свод, перечень каких-либо объектов, позволяющий находить каждому их них свое место, и имеют определенное (обычно числовое) обозначение. Назначение классификатора состоит в следующем: − систематизация наименований кодируемых объектов; − однозначная интерпретации одних и тех же объектов в различных задачах; − возможность обобщения информации по заданной совокупности признаков; − возможность сопоставления одних и тех же показателей, содержащихся в формах статистической отчетности; − возможность поиска и обмена информацией между различными внутрифирменными подразделениями и внешними информационными системами; − экономия памяти компьютера при размещении кодируемой информации. В составе информационного обеспечения рассматриваемого комплекса задач важное место отводится классификаторам экономической информации. Обеспечить сжатие признаковой части показателей, а, следовательно, и 50

сократить объем хранимой информации в ЭВМ и время на поиск информации, необходимой для решения задач, облегчить обработку информации позволяют Кодированием обозначений. классификация называется Основная процесс цель и кодирование присвоения кодирования информации. объектам состоит в кодовых однозначном обозначении объектов, а также в обеспечении необходимой достоверности кодируемой информации. При проектировании кодов предъявляется ряд требований: 1. Охват всех объектов, подлежащих кодированию, и их однозначное обозначение. 2. Возможность расширения объектов кодирования без изменения правил их обозначения. 3. Максимальная информативность кода при минимальном его значении. Выбор системы кодирования в основном зависит от количества классификационных признаков и разработанной системы классификации. Система классификации – это совокупность правил распределения объектов множества на распределения подмножества. объектов Классифицирование данного множества – на это процесс подмножества. Классификация – это результат упорядоченного распределения объектов заданного множества Различают иерархическую и многоаспектную системы классификации. Иерархическая система классификации предполагает разбиение исходного множества на подмножества, между которыми установлены отношения соподчиненности (иерархии). В зависимости от количества классификационных признаков возможно наличие нескольких уровней классификации. Уровень классификации – это совокупность классификационных группировок, расположенных на одних и тех же ступенях классификации. В многоаспектных системах классификации применяется параллельно несколько независимых признаков в качестве 51

классификационных, то есть исходное множество рассматривается одновременно в разных аспектах. Документы объединяются в системы документов по функциональному признаку, образуя унифицированную систему документации (УСД) – комплекс взаимоувязанных форм документов, для которых существует фиксированный набор реквизитов определенного наименования и формата значений, регламентированы правила построения форм и характер их использования. Цели создания УСД: 1. Обеспечение экономической эффективности и гарантированного уровня качества информации на всех этапах обработки документов. 2. Совершенствование и уменьшение разнообразия содержания и форм документов. Общероссийский классификатор управленческой Общероссийский классификатор документации приведен в таблице 2.1. Таблица 2.1 - управленческой документации Класс УСД Код ОКУД Организационно-распорядительная 020000 документация 0 Первичная учетная документация 030000 0 Расчетно-денежная документация 040000 0 Финансовая, бухгалтерская первичная, документация отчетная 050000 бюджетных 0 учреждений и организаций Отчетно-статистическая документация 52 060000

0 Документация по ценообразованию 070000 0 Документация по материально-техническому снабжению 080000 0 Документация по торговле 090000 0 Документация по внешней торговле 100000 0 Проектная документация по капитальному строительству 0 Единая система конструкторской документации (ЕСКД) Единая система система 120000 0 технологической документации (ЕСТД) Единая 110000 130000 0 технической подготовки производства (ЕСТПП) 140000 0 Документация по социальному обеспечению 150000 0 Документация по изобретениям и открытиям 160000 0 Общероссийский классификатор управленческой документации (ОКУД) регламентирует: - классы УСД; - альбомы форм документов; - формуляры-образцы (шаблоны) документов для разработки новых форм документов; - нормативные и методические материалы по работе с документами. 53

Создание УСД основано на унификации и стандартизации форм документов и схем их документооборота. Стандартизацию документов проводят национальные организации по стандартизации (Госстандарт), а также международные организации по стандартизации ISO, технические комитеты (ТК): - ТК 46 «Документация»; - ТК 68 «Банковские процедуры»; - ТК 95 «Канцелярские машины»; - ТК 97 «Вычислительные машины и обработка информации»; - ТК 154 «Документы и элементы информации в управлении, торговле и промышленности». Кодирование предназначено для присвоения отдельным объектам или классификационным группировкам условных обозначений – кодов. Характеристики кода: - метод кодирования; - алфавит (цифры, буквы, штрихи, цвета, звуки); - длина и структура обозначения кода; - помехозащищенность. Помехозащищенность кода обеспечивается за счет включения в код контрольных разрядов, значение которых вычисляется по определенному алгоритму. Идентификационные выполняется, для коды. однозначного Если классификация определения объектов объектов не применяются идентификационные методы кодирования. Для идентификации объектов используется порядковая или серийно-порядковая нумерация объектов. Смешанные коды. Для некоторых номенклатур объектов применяются коды, содержащие как классификационную, так и идентификационную части, которые не зависят друг от друга. В других случаях применяют коды, обеспечивающие идентификацию объектов внутри классификационных группировок. 54

Следует также отметить, что кодирование, как правило, ведет к значительному уменьшению объемов используемых данных. При этом особая роль отводится методам классификации экономической информации. Это объясняется тем, что многообразие форм и значений, которые могут приобретать различные экономические показатели, используемые в системах управления народнохозяйственными обусловливает необходимость объектами применения различных определенных уровней, принципов систематизации этой информации в целях обеспечения удобства ее хранения, поиска и использования в процессе подготовки управленческих решений. В соответствии с этими требованиями этапы разработки систем кодирования принято выделять в следующем порядке: 1. Определение полного перечня всех классификаторов информации, необходимых для выполнения функций информационной системы. 2. Определение четких границ применения каждого классификатора и полного перечня подлежащих классификации объектов. (При этом допускается пресечение множеств объектов, сгруппированных различными классификаторами.) 3. Определения признака классификации для разбиения объектов на классификационные группировки. 4. Систематизация объектов внутри каждого классифицируемого множества на основе принятых правил. 5. Выбор оснований кодов с учётом требований и специфики к проектируемой ИС. 6. Проведение кодирования объектов, оформление материалов кодирования. 7. Проверка рациональности разработанной системы кодирования с точки зрения удобств поиска информации, её полноты отражения, возможностей перекодирования объектов и т.д. 8. Разработка системы внесения изменений и дополнений, санкционирование доступа к информации, определение ответственных за 55

внесение изменений в систему классификации и кодирования и доведения этих требований до пользователя ИС. 9. Разработка инструктивных и методических материалов для пользователей ИС по внедренным системам классификации и кодирования информации. Таблица 2.1 – Виды шкал измерений Тип шкалы (т.е. класс C 1 ) и название допустимого преобразования из C 1 {φ| φ: f(A)→B, φ (x) = x}, тождественное преобразование Название типа шкалы Абсолютный Примеры величин, измеряемых в шакалах данного типа Результат счета Масса, температура по Кельвину, время {φ| φ: f(A)→B, φ (x) = αx, α>0}, преобразование подобия Отношений (интервалы), длина, коэффициент интеллектуальности и т. д. {φ| φ: f(A)→B, φ (x) = αx+β, α>0}, позитивное Температура по Интервалов Фаренгейту, Цельсию и преобразование т. д. время (календарь) {φ| φ: f(A)→B, φ (x) > φ(y) Предпочтение, ↔x>y}, (строго) монотонное Порядковый возрастающее преобразование {φ| φ: f(A)→B, x ≠ y ↔ f(x) ≠ f(y)}, взаимно однозначное твердость по Моосу, степень умения и т. д. Номинальны Коды, названия й профессий и т. д. преобразование 56

Рисунок 2.10 – Схема наращивания информативности признаков 57

3. ПРАКТИЧЕСКАЯ ЧАСТЬ 3.1 Общая концепция разрабатываемой системы Пользовательский интерфейс программы — это связующее звено между пользователем и компьютером, выполняющим эту программу. В разрабатываемой системе используется задачная модель интерфейса. Рисунок 3.1 – Формирование XDTO в 1С Интерфейс пользователя — разновидность интерфейсов, в котором одна сторона представлена человеком (пользователем), другая — машиной/устройством. Представляет собой совокупность средств и методов, при помощи которых пользователь взаимодействует с различными, чаще всего сложными, с множеством элементов, машинами и устройствами. 58

Рисунок 3.2 – Главное окно Пользовательский интерфейс часто понимают только как внешний вид программы. Однако на деле пользователь воспринимает через него всю программу в целом, а значит, такое понимание является слишком узким Рисунок 3.3 – Окно работы с исходными данными Одним из важных показателей качества программного обеспечения является удобство его использования. Оно описывается с помощью таких характеристик, как понятность пользовательского интерфейса, легкость 59

обучения работе с ним, трудоемкость решения определенных задач с его помощью, производительность работы пользователя с ПО, частота появления ошибок и жалоб на неудобства. Для построения действительно удобных программ нужен учет контекста их использования, психологии пользователей, необходимости помогать начинающим пользователям и предоставлять все нужное для работы опытных. Однако самым значимым фактором является то, помогает ли данная программа решать действительно значимые для пользователей задачи. Рисунок 3.4 – Настройка компонент VS для работы с 1С 60

Рисунок 3.5 – Настройка свойств в VS для взаимодействия с 1С Размещение информационных единиц на пространстве формы должно соответствовать логике ее будущего использования: это зависит от необходимой последовательности доступа к информационным единицам, частотой их использования, а также от относительной важности элементов. Важно использовать незаполненное пространство, чтобы создать равновесие и симметрию среди информационных элементов формы, для фиксации внимания пользователя в нужном направлении. Логические группы элементов необходимо отделять пробелами, строками, цветовыми или другими визуальными средствами. Взаимозависимые или связанные элементы должны отображаться в одной форме. Интерфейс определяет внешний вид экрана, распределение функций по кнопкам и клавишам, способ, которым пользователь разъясняет программе, что он задумал выполнить. При работе с инструментом кластерного анализа пользователю предлагается панель настроек и таблица с исходными данными. На панели 61

настроек можно выбрать количество кластеров (для проверки его гипотезы). При расчете в таблицу может выводиться информация в текстовом виде, для точного сопоставления каждого элемента к определенному кластеру. Отдельно стоит отметить интерфейс окон тестирования интеллектуального ресурса для выбора оптимального вида визуализации. Внешний вид диалоговых окон отличается лаконичностью и содержанием самой необходимой пользователю информации. После прохождения тестирования интеллектуального ресурса, пользователю предлагается выбор самого оптимального для него вида отображения информации (учитывается так же контекст ранее поставленной пользователем задачи). При этом пользователь имеет возможность ознакомиться с другими вариантами визуализации результатов анализа. Таким образом пользовательский интерфейс не становится сам задачей, не вводя пользователя в заблуждение и мешая его изысканиям. 3.2 Схема взаимосвязи программных модулей и информационных файлов Технология последовательностью внутримашинной реализуемых организации процедур - схем задается взаимосвязи программных модулей и информационных массивов. Её можно увидеть на рисунке 3.6. Подсистема признаков Импорт данным из различных источников Основное Меню Задание шкал и предикатов Выход Рисунок 3.6 - Блок-схема основных модулей программы 62

Такая схема представляет собой декомпозицию общего процесса решения задачи на отдельные процедуры преобразования массивов, именуемыми модулями 3.3 Характеристика нормативно-справочной и входной оперативной информации Под входной информацией понимается вся информация, необходимая для решения задачи и расположенная на различных носителях: первичных документах, машинных носителях, в памяти персонального компьютера. От рациональной организации входной информации предприятия, способов сбора, регистрации, передачи, хранения и обработки информации, ее состава и своевременного получения зависят оперативность и эффективность управления [9].Зависимость функций, которая наблюдает в программе при импорте данных, можно увидеть на рисунке 3.7. 63

Рисунок 3.7 – Последовательность выполнения программы во время процесса импорта данных Входной информацией для разрабатываемой в дипломном проекте является форма импорта данных, представленная на рисунке 3.8. Рисунок 3.8 – Главное окно системы Данные импортируются из различных доступных источников, что позволяет расширить количество типов файлов, с которыми может работать программа. Таким образом, используя форму импорта данных пользователь может получить необходимые для дальнейшего анализа данных, выбрав файл нужного ему формата. То есть, программа может работать с файлами типов: .doc, .xls, .accdb и .txt. Именно файлы этих форматов и будут импортировать в программу. Пример импортированного файла можно увидеть на рисунке 3.10. 64

Рисунок 3.10 – Пример импортированного файла формата .accdb. Помимо импорта из различных источников присутствует система шкал, которая позволяет назначить определённым столбцам определённую шкалу, что будет в дальнейшем использоваться при вычислениях и анализе данных. Шкалы и их свойства отображены в таблице 3.1. 65

Таблица 3.1 – Шкалы величин измерения, применяемых в работе программы, их свойства и типы. Тип шкалы (т.е. класс C 1 ) и название допустимого преобразования из C 1 {φ| φ: f(A)→B, φ (x) = x}, тождественное преобразование Название типа шкалы Абсолютный Примеры величин, измеряемых в шакалах данного типа Результат счета Масса, температура по Кельвину, время {φ| φ: f(A)→B, φ (x) = αx, α>0}, преобразование подобия Отношений (интервалы), длина, коэффициент интеллектуальности и т. д. {φ| φ: f(A)→B, φ (x) = αx+β, α>0}, позитивное Температура по Интервалов Фаренгейту, Цельсию и преобразование т. д. время (календарь) {φ| φ: f(A)→B, φ (x) > φ(y) Предпочтение, ↔x>y}, (строго) монотонное Порядковый возрастающее преобразование {φ| φ: f(A)→B, x ≠ y ↔ f(x) ≠ f(y)}, взаимно однозначное твердость по Моосу, степень умения и т. д. Номинальны Коды, названия й профессий и т. д. преобразование Таким образом, пользователь имеет возможность получить начальные данные из различных источников и присвоить им те шкалы, которые он считает нужным. Тем самым импорт данных становится весьма гибким. 66

Рисунок 3.11 – Формула улучшения признаков. То есть, пользователь получит информацию о том, насколько признаки в данных, которые он импортировал, являются важными и информативными, что позволит принимать на основе этого управленческие решения и устанавливать зависимость одних признаков от других [10]. Окно «Подсистема признаков» можно увидеть на рисунке 3.12. 67

Рисунок 3.12 – Окно «Подсистема признаков». Информативность признаков оценивается по критерию Фишера. Если он меньше значения 0.05 или же меньше значения, заданного пользователем, то признак является информативным, о чём система уведомляет пользователя. Результат работы программы можно увидеть на рисунке 3.13. Рисунок 3.13 – Результат работы программы, уменьшение пространства признаков, выбор наиболее информативных. 68

Именно получение зависимости между признаками и их значимости и является основной целью дипломной работы. Пользователь может увидеть, насколько признаки связаны друг с другом и насколько зависят друг от друга, что позволит уменьшить пространство признаков в больших базах данных и принимать различные решения на основе зависимостей, где количество признаков относительно невелико [11]. 3.4 Описание программных модулей Разрабатываемая система, как и любая другая состоит из различных программных модулей, каждый из которых обладает своими функциональными возможностями. Общая структура пакета модульная, имеющая единую центральный платформу. модуль, внутри В качестве которого платформы используется происходит отображение информации, имеется центральный интерфейс пользователя (при помощи которого можно получить доступ к любому модулю системы). Ядро системы имеет децентрализацию, относительно каждой из решаемых задач. За счет центрального модуля каждое ядро имеет связь и может передавать данные и обмениваться процессами через это ядро. Удобство системы заключается к возможности дополнения модулями плагинами (от plug in «подключать»), независимо компилируемые модули системы. Это дает возможность программировать и проводить процесс отладки, рефакторинга кода не затрагивая центральный модуль и все прочие ядра системы. Каждый плагин системы имеет общий протокол обмены данными с другими модулями системы, при этом в пассивном состоянии не занимают процессорную и оперативную память (вплоть до момента вызова). 69

Рисунок 3.14 – Структура программных модулей системы Данная архитектура системы (см. рисунок 3.6) позволяет не только разрабатывать независимо дополняемые модули системы, но так же и предоставляет сторонним разработчикам создавать свои плагины (благодаря открытым протоколам обмена данными внутри системы). Разрабатываемая система, как и любая другая состоит из различных программных модулей, каждый из которых обладает своими функциональными возможностями. Общая структура пакета модульная, имеющая единую центральный платформу. модуль, внутри В качестве которого платформы используется происходит отображение информации, имеется центральный интерфейс пользователя (при помощи которого можно получить доступ к любому модулю системы). Ядро системы имеет децентрализацию, относительно каждой из решаемых задач. За счет центрального модуля каждое ядро имеет связь и может передавать данные и обмениваться процессами через это ядро. Удобство системы заключается к возможности дополнения модулями плагинами (от plug in «подключать»), независимо компилируемые модули 70

системы. Это дает возможность программировать и проводить процесс отладки, рефакторинга кода не затрагивая центральный модуль и все прочие ядра системы. Каждый плагин системы имеет общий протокол обмены данными с другими модулями системы, при этом в пассивном состоянии не занимают процессорную и оперативную память (вплоть до момента вызова). 3.5 Описание результирующей информации Результатом работы программы будет представление визуализированного кластера данных. Но перед этим нужно эти самые данные подготовить. На рисунке 3.15 можно заметить подготовку данных и поиск зависимостей в них при помощи критерия Фишера. Рисунок 3.15 – Подготовка данных опираясь на критерий Фишера. 71

Главное окно программы, которое пользователь увидит при запуске можно увидеть на рисунке 3.16 Рисунок 3.16 – Главное окно программы На рисунок 3.17 можно увидеть меню раздела «Файл» и возможные варианты выбора действий пользователя. 72

Рисунок 3.17 – Подменю раздела «Файл» На рисунке 3.18 можно увидеть меню раздела «Задачи» и возможные действия пользователя. Рисунок 3.18 – Подменю раздела «Задачи» 73

На рисунке 3.19 можно увидеть процесс получения кластера и обработки данных. Рисунок 3.19 – Получения результате кластеризации На рисунок 3.20 можно увидеть окно выбора возможных форм вывода кластера. Рисунок 3.20 – Окно выбора вывода результата 74

На рисунок 3.21 можно увидеть вывод кластера в виде карт Кохонена. Рисунок 3.21 – результат в виде карт Кохонена На рисунке 3.22 можно увидеть результирующего дерева зависимостей. 75 вывод результата в виде

Рисунок 3.22 – Результирующие дерево На рисунке 3.23 можно увидеть вывод значений кластера в консоли. Рисунок 3.23 – Вывод результата в консоли На рисунке 3.24 можно увидеть вывод кластера в виде диаграммы. 76

Рисунок 3.24 – Вывод кластера в виде диаграммы На рисунке 3.25 можно увидеть стандартное представление кластера. Предполагается, что в данном виде кластер будет отражать одну плоскость гиперкуба 77

Рисунок 3.25 – Сформированный кластер Выводы к главе: Во время разработки прототипа системы «Познание» была решена главная задача – представление исходных данных в удобном для пользователя виде. Всё это делалось для однозначного восприятия полученных данных и информации. Для этого были реализованы следующие функции: − формирование гипотез произвольного вида при помощи предикатов первого порядка; − решение задачи уменьшения пространства признаков уменьшение и пространства признаков при помощи логико-статистических методов вычислений; − учёт интеллектуального ресурса пользователя; − работа с пропусками данных и работа с данными измеренными в разных шкалах; 78

− импорт файлов из различных источников. В результате реализации проекта, система удовлетворяет требованиям аналитика, а именно: − позволяет работать с данными различного формата; − позволяет формировать кластеры для анализа данных; 79

ЗАКЛЮЧЕНИЕ В ходе выпускной квалификационной работы были выявлены проблемы в аналитической деятельности предприятия. Возникла необходимость в методах, которые могут решать задачи разного рода и опираться на оценку интеллектуального ресурса пользователя. Разработаны методы и средства на основе изученных дисциплин, обеспечивающие решение этих проблем. Таким образом упор разработки сделан на оценку и сопоставление интеллектуального ресурса пользователя с его интеллектуальными запросами. В ходе разработки были разработаны методы и средства обработки данных измеренных в разных шкалах и допускающие пропуски. Были решены задачи импорта данных из различных источников и выбора информативной подсистемы признаков. Для решения этих задач использовались предикаты первого порядка и логико-статистические методы. Была решена задача кластеризации и представления данных полученных в разных форматах и пропусках данных. Что позволяет программному продукту решать задачи кластеризации. 80

СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ 1. Гручко А.А., Тимонина Н.Н. Теоретические основы защиты информации. – М.: издательство Агентство «Яхтсмен». 2011 г. – 333с. 2. Базы данных. Интеллектуальный анализ данных. Автор Нестеров А.С. год выпуска 2011, издательство СПб.: Изд-во Политехн. ун-та. – 442с. 3. Дюк В., Самойленко А. «Data Мining: учебный курс», 2010; – 237с. 4. Паклин Н. Б., Орешков В. И. Бизнес-аналитика: от данных к знаниям— СПб.: Изд. Питер. – 200с. 5. Журавлёв Ю.И., Рязанов В.В., Сенько О.В. РАСПОЗНАВАНИЕ. Математические методы. Программная система. Практические применения. — М.: Изд. «Фазис», 2011 – 367с. 6. Зиновьев Красноярск: А. Изд. Ю. Визуализация Красноярского многомерных государственного данных. — технического университета, 2010. – 422с. 7. Чубукова И. А. Data Mining: учебное пособие. — М.: Интернетуниверситет информационных технологий: БИНОМ: Лаборатория знаний, 2012. – 286с. 8. Ian H. Witten, Eibe Frank and Mark A. Hall. Data Mining: Practical Machine Learning Tools and Techniques. — 3rd Edition. — Morgan Kaufmann, 2011. – 321с. 9. Гуц А.К. Математическая логика и теория алгоритмов. — Наследие, Диалог-Сибирь, 2013. – 400с. 10. Ершов Ю.Л., Палютин Е.А. Математическая логика. — М.: Наука, Физматлит, 2007. – 420с. 11. Игошин В.И. Математическая логика и теория алгоритмов. — Academia, 2008. – 353с. 12. Клини С.К. Математическая логика. — М.:Мир, 2013. – 239с. 81

13. Мендельсон Э. Введение в математическую логику. — М. Наука, 2012. – 420с. 14. Новиков П.С. Элементы математической логики. — М.:Наука, 2013. – 323с. 15. Анфилатов В. С., Емельянов А. А., Кукушкин А. А. Системный анализ в управлении. — М. Финансы и статистика, 2012. – 290с. 16. Перегудов Ф. И., Тарасевич Ф. П. Введение в системный анализ. — М.: Высшая школа, 2009. – 374с. 17. Warne, R. Lazo, M., Ramos, T. and Ritter, N. (2012). Statistical Methods Used in Gifted Education Journals, 2006—2010. Gifted Child Quarterly, 56(3) 134—149. doi: 10.1177/0016986212444122 – 320с. 82