Федеральное государственное бюджетное образовательное учреждение
высшего профессионального образования
"Санкт-Петербургский государственный университет"
Экономический факультет
Кафедра информационных систем в экономике
Автоматизация обработки неконсолидированных разнородных массивов
данных в целях маркетинговых исследований товарных рынков
Бакалаврская работа
по направлению 080500 «Бизнес информатика»
Выполнил студент 4 курса
по направлению «Бизнес-Информатика:
Москвин Дмитрий Александрович
Подпись: _____________________
Руководитель:
Профессор, к.т.н.,
Ботвин Геннадий Алексеевич
Подпись: _____________________
Рецензент:
рук. напр. "Строительство и индустриальные рынки"
ИА "INFOLine-Аналитика"
Васильев Михаил Витальевич
Подпись: _____________________
Санкт-Петербург
2016
Содержание
Введение ........................................................................................................................................3
Глава 1 Анализ предметной области. Первичная обработка данных ...............................5
1.1.
Анализ предметной области ..............................................................................................5
1.2.
Описание алгоритма обработки данных ..........................................................................7
1.3.
Проработка ключевых сущностей ....................................................................................8
Глава 2 Реализация алгоритма автоматизации в Tableau. Создание бизнесприложения .................................................................................................................................17
2.1.
Обоснование выбора Tableau как платформы реализации ...........................................17
2.2.
Консолидация данных в Tableau .....................................................................................18
2.3.
Разработка задач и гипотез ..............................................................................................24
2.4. Решение поставленных для анализа задач и проверка гипотез в BI-системе
«Tableau» ......................................................................................................................................27
2.5.
Создание dashboard'ов для визуального представления данных .................................47
Заключение .................................................................................................................................53
Список использованных источников ....................................................................................54
Приложения ................................................................................................................................56
Приложение 1. Макрос, определяющий необходимую численную информацию из
текстовых полей. Основа: «регулярное выражение» ...............................................................56
2
Введение
В настоящее время, чтобы принимать управленческие решения будучи игроком
товарного рынка, необходимо знать его общую конъюнктуру, данные по отрасли, региону
и т.д. В случае индустриального рынка производители зачастую прибегают к помощи
информационных агентств, так как затраты на поиск и обработку таких данных могут
существенно превысить стоимость соответствующих исследований.
В рамках обозначенной сферы можно выделить деятельность ИА «ИНФОЛайнАналитика», которая состоит в подготовке ежегодных отраслевых обзоров по рынку
металлоконструкций и сэндвич-панелей, помогающих производителям и потребителям
металлопродукции ориентироваться в соответствии с реалиями рынка. Проблемой
составления таких обзоров является разрозненность данных, которая существенно
затрудняет процесс исследования. На решение этой проблемы уходят недели работы с
данными,
что
очевидным
образом
свидетельствует
об
актуальности
процесса
автоматизации по их обработке. Данная проблема стала определяющим фактором при
выборе темы исследовательской работы.
Объект исследования
Индустриальный рынок металлоконструкций и сэндвич-панелей РФ.
Предмет исследования
Массивы разнородных текстовых данных таможенных транзакций внешнеторгового
оборота металлопродукции, а также информация по «Топ 400 производителей
металлоконструкции» на территории РФ и республики Беларусь.
Цель
Разработать алгоритм автоматизации обработки, хранения и предоставления
изначально слабоструктурированных массивов данных индустриального рынка в целях
маркетинговых исследований с использованием таких программных продуктов как MS
Excel и Tableau.
Задачи
1)
Ознакомиться
исследований,
со
проведенных
спецификой
ИА
новой
предметной
«ИНФОЛайн-Аналитика»,
области
выделить
на
базе
ключевые
информационные ресурсы, являющиеся основанием маркетинговых исследований по
индустриальному рынку;
3
2)
Подготовить данные к анализу, в том числе разработать макрос в MS Excel,
который на основании объекта «регулярное выражение» способен вычленять из текстовых
данных искомые числовые значения по площадям сэндвич-панелей и тоннажу
металлоконструкций;
3)
включающий
Разработать
в
себя
аналитический
перечень
план
возможных
работы
гипотез,
с
полученными
строящихся
на
данными,
основании
задействованных переменных, и их разрешения для маркетинговых исследований рынка
металлопродукции;
4)
Создать приложение в BI-системе Tableau, являющееся демонстрацией
результатов маркетингового исследования с автоматически обновляющейся базой для
публикации в сети Интернет
Логика работы строится на вполне очевидных этапах маркетинговых исследований,
то есть формирование пула данных, их обработка и подготовка к анализу как первый,
подготовительный этап, и второй – бизнес-анализ информации и визуализация результатов,
как вещественный итог исследования. Поставленные задачи подробнее раскрывают
наполнение каждого из этапов, формируя плавный переход от разрозненных данных к
бизнес-приложению, доказывая практическую значимость реализации цели исследования.
4
Глава 1 Анализ предметной области. Первичная обработка
данных
1.1.
Анализ предметной области
Одним из основных продуктов информационного агентства "INFOLine" (место
прохождения производственной практики) является ежегодное исследование "Рынок
металлоконструкций
России».
Цель
этого
исследования
-
анализ
динамики
и
географической структуры производства и потребления металлических конструкций в
России, анализ структуры и динамики цен на данном рынке, анализ внешнеторгового
оборота металлоконструкций. В контексте данной работы под термином "рынок
металлоконструкций" будет пониматься рынок, на котором действуют предприятия,
осуществляющие производство и поставку металлических конструкций, а также
организации, чья деятельность связана с использованием металлоконструкций в
строительстве зданий и сооружений.
Специфику отрасли производства и потребления металлоконструкций определить
достаточно сложно, ведь помимо своей терминологической базы и особенностей
ассортимента существуют собственные признаки потребления, его объем. Также стоит
отметить, что отрасль охватывает все виды экономического взаимодействия, по типам
взаимодействующих субъектов: B2B, B2C и B2G.
Основными терминами рынка металлоконструкций, которыми оперирует данная
работа будут: фасадная система; легкие металлоконструкции (ЛМК) – здания и
сооружения, в которых ограждения выполнены с использованием тонколистового
профилированного металла и облегчённого синтетического утеплителя; легкие стальные
металлоконструкции (ЛСТК); металлочерепица; профильный лист и сэндвич-панель строительный материал, состоящий из двух листов жёсткого материала и слоя утеплителя
между ними.
Данное исследование ориентировано, в основном, на следующие целевые группы
клиентов:
менеджмент и отдел маркетинга производителей – для оценки конкурентного
окружения;
специалисты отделов продаж и отделов по работе с клиентами организаций,
осуществляющих поставки металлоконструкций и сопутствующих объектов производства
– для активизации сбыта и поиска новых клиентов;
5
специалисты отделов закупок строительных фирм – для повышения эффективности
закупочной деятельности;
банковские структуры, инвестиционные компании и частные инвесторы – для
формирования и улучшения стратегии инвестирования в промышленность строительных
материалов.
Чем работа может быть интересна непосредственно информационным агентствам,
таким как «ИНФОЛайн»:
Прописывается алгоритм по обработке данных ВЭД, который в той или иной
степени можно использовать в обработке данных другого рода
Автоматизируется процесс вычленения необходимой информации из текстовых
полей данных
Описывается вариант представления данных в сети Интернет, с постоянно
обновляющейся базой на платформе Tableau
Работа включает рассмотрение пула данных как взаимосвязанную базу, что
позволяет управлять данными в едином поле
Основными информационными источниками в ходе исследования являлись:
База данных «Топ 400 производителей металлоконструкции» ИА «ИНФОЛайн»
База грузовых таможенных деклараций за 2004-2009
Ретроспектива курса валют
Краткий отчет агентства по исследованию
Справочники ВЭД (внешнеэкономической деятельности)
Материалы СМИ
Как видно из информационных источников, данные представляли из себя пул
разнородной неконсолидированной информации, находящейся в разных форматах данных.
Например, база грузовых таможенных деклараций представляла из себя набор текстовых
файлов за каждый год. Проблема свода их в один файл была связана с различием
переменных, что объяснялось изменением ведения учета при осуществлении таможенных
транзакций. База данных «Топ 400 производителей металлоконструкции» никак не была
связана
с
ВЭД,
связь
пришлось
устанавливать
по
адресу
и
наименованию
потребителя/производителя, что было затруднено грамматическими и фактическими
ошибками при заполнении деклараций, описании продукта, отсутствием четкой структуры
хранения адресов и т.д.
6
Проблема консолидации и автоматизации обработки таких массивов данных легла в
основу ВКР по причине демонстрации наличия проблемы подобного рода исследований,
которые выходят далеко за рамки рынка металлоконструкций. Факт того, что обработка
данных при ежегодных исследованиях не стала автоматизированной и не осуществляется
по удобному и наглядному алгоритму, предусматривающему захват регулярных
выражений, консолидации данных в один информационный пул, привел к мысли
построения алгоритма, существенно облегчающего такую рутинную работу. Создание
подобного алгоритма позволило бы легко выполнять такие исследования, делегируя работу
любым сотрудникам.
1.2.
Описание алгоритма обработки данных
Кратко структуру алгоритма можно описать так:
1.
Для каждого вида источников информации выделить приоритетные части
(переменные, внешние справочники), сузив область обработки данных
2.
Устранить
ошибки
в
переменных,
связанные
с
неправильным
представлением в базе
3.
Проанализировать выбранные переменные на предмет информативности,
если они содержат необходимую информацию не в явном виде, вычленить ее с
последующим удалением ненужных значений
4.
Определить ключевые переменные для создания лучших с точки зрения
удобства обработки фильтров
5.
Разработать
аналитический
план
работы
с
данными,
включающий
описательные статистики и постановку важных для клиента гипотез
6.
Осуществить консолидацию всех данных в одном программном продукте с
возможностью обновления данных из внешних источников
7.
Подготовить типовые элементы отчетов с возможностью доработки и
масштабируемости по определенным критериям
Несмотря на свою простоту алгоритм сложен в реализации по нескольким причинам:
отбор важных переменных (вопрос степени важности согласно поставленным целям),
сложность вычленения необходимой информации из текстовых переменных, вопрос какие
отчеты необходимо автоматизировать, а в каких оставить возможность внесения
корректировок, в каком программном продукте удобно и дешево реализовать
консолидацию всех данных и т.д.
7
Для начала оценим текущую ситуацию и посмотрим «узкие» места работы с данными
при отсутствии алгоритма.
1.
Формирование
БД
«Топ
400
производителей
металлоконструкции»
производится несколькими сотрудниками, переменная адрес компании несмотря на
требование к заполнению, может представлять проблему визуализации отчетности, так как
адрес фактического производства, юридический адрес и фактический адрес офиса могут и
часто отличаются. Это требует некоторых усилий для определения геолокации
производителей. Также в плане ассортимента заполнение не ограничивалось значениями
ячеек «да», «нет», а расширялось в некоторых случаях комментарием, например, да
(сэндвич-панели поэлементной сборки) что мешало при применении фильтрации
2.
Работа с базой таможенных деклараций производилась одним сотрудником,
который был вынужден в «полуручном» и ручном режиме определять содержимое
переменной описание, что замораживало работу с базой на несколько дней. Также
приходилось дублировать некоторые переменные для унификации некоторых значений
переменных, что существенно увеличивало размер файла и, соответственно, скорость
обработки данных. Даты приходилось определять по переменной номер декларации,
разбивая их затем по годам и месяцам, что приводило к появлению двух переменных,
которых можно было избежать и т.д.
Остальные информационные источники не так тяжеловесны, и работа с ними
составляет небольшое количество времени, хотя элементы автоматизации работы с ними
также помогли бы снизить время на проведение исследования, например, список ключевых
слов для поиска, набор ссылок с необходимым описанием и т.п.
1.3.
Проработка ключевых сущностей
Определим две главные сущности нашей работы: Таможня МК и СП 2004-2009 и База
400 производителей металлопродукции. Каждая из них представляет собой огромный пул
доменов и атрибутов, с которыми мы будем работать далее, стоит отметить, что
первоначальный вид данных мог содержать другое количество полей, эти различия могли
появиться на начальной стадии обработки текста. Чтобы можно было делегировать работу
по обработке этих таблиц опишем формат и необходимый вид каждой из них, это будет
служить ориентиром при обновлении данных, в том числе внесении новых полей и т.д.
Некоторые поля в таблицах приходится организовывать путем определения
необходимой информации в исходных данных, например, номер декларации как таковой
нам не нужен, но из этого поля можно определить две важные переменные для анализа: код
8
таможенного органа и дата оформления ГТД. Первая переменная нам нужна для
определения географии осуществления перевозки металлических конструкций, вторая
переменная - для анализа динамики движения металлоконструкции на границе РФ. Код
таможенного органа определяется путём отщепления первых восьми символов встроенной
функцией ПРАВСИМВЛ, дата определяется путем отщепления символов между слешами,
а затем путем простого использования внутренних текстовых функций, например,
ЛЕВСИМВ (A1; 2) & "." & ПРАВСИМВ (ЛЕВСИМВ (A1; 4); 2) & "." & ПРАВСИМВ
(A1; 2).
Полученный результат сохраняется как текст, а не как дата, что не мешает Tableau
распознать ее, но что существенно замедляет обработку в Excel так как преобразование
огромных массивов там сопровождается большой тратой времени. Также ненужным и
тяжеловесным для анализа является текстовая переменная Описание, но она содержит
квадратуру сэндвич-панелей и принадлежность к определенной группе товаров:
металлоконструкции, металлоконструкции прочие, металлочерепица и сэндвич-панели.
Приведем пример поля Описание:
СТЕНОВЫЕПАНЕЛИСТЕПЛОИЗОЛИРУЮЩИМСЛОЕММЕЖДУ2ЯСТЕНКАМИ,ИЗПРОФИЛИРОВАННЫХГОФРИР.ЛИСТОВИЗОЦИНКОВАННОЙСТАЛ
И:АРТИКУЛ"FTV+W-120MS7035/9002"-71.406М2,АРТИКУЛ"FTV+W-120MS1015/9002"61.26М2
Решением по автоматизации определения первой из ключевых компонент стало
создания макроса, реализованного с помощью объекта «регулярное выражение», а второй
представлял из себя набор условий для определения принадлежности к группе, то есть был
сформирован
набор
слов,
включающий
типовой
набор
возможных
вариантов
принадлежности к группе в том числе и с орфографическими ошибками.
Макрос, основанный на объекте «регулярное выражение» обладал несколькими
ключевыми свойствами: возможностью проверки на соответствие шаблону по всему тексту
ячейки, нечувствительность к регистру, возможность вести подсчеты несмотря на наличие
или отсутствие пробелов, возможность вручную прописывать шаблон через всплывающее
окно, а также суммированием значений перед паттернами с записью в новый столбец с
прописываемым пользователем названием.
Порядок работы макроса:
1.
Выбираем столбец с исходным текстом
9
2.
При раскладке клавиатуры на английском языке нажимаем комбинацию
клавиш Ctrl+M, это вызовет окно исполняемого макроса
Рисунок 1. Диалоговое окно пользователя
3.
В графу критерий поиска напишем значение паттерна, например, в нашем
случае «М2» - метр квадратный. Напишем заголовок столбца, куда сохранится значение,
выберем возможные свойства и нажмем кнопку Поиск
Стоит отметить, что можно было бы избежать разработки макроса и поиска
необходимых значений вручную, выполнив расчет по средним коэффициентам веса, но это
сильно исказило бы данные, повлияв на прогноз и оценку экспорта/импорта сэндвичпанелей.
Оценить эффективность данного макроса можно путем элементарного подсчета, в
основе которого лежит средняя почасовая ставка работы отдела, равная 260 руб.
Разработка макроса заняла порядка 4 часов, в пересчете на заработную плату, это 1040
рублей. Время, которое тратилось на выявление необходимых данных, равнялось, в
среднем, трем дням, что в пересчете на заработную плату равно 6250 рублей в расчете на
одного сотрудника. Экономия составляет, как минимум, 5 тысяч рублей и 3 рабочих дня.
После необходимых преобразований с переменными получаем следующие ключевые
сущности, где столбец Формат создается с целью правильной загрузки данных в Tableau,
а Описание помогает с поиск необходимых значений и их интерпретацией:
Название
Описание
Формат
Вид данных
поля
10
Номер ГТД
Номер таможенной транзакции (уникальное
Number (Whole)
1
Number (Whole)
10408010
Date
10.01.04
поле). Присваиваем автоматически, работает
как счетчик
Код таможни
Код таможенного органа, находим из Номера
декларации, отсечением символов до
первого слеша
Дата
Дата оформления грузовой таможенной
оформления ГТД
декларации, находим из Номера декларации
алгоритмом, описанным выше
Импорт/Экспорт
Направление груза
String
ИМ
Код
Процедура, определяющая порядок
String
40
таможенного
применения таможенных пошлин и налогов
1 – груз перевезен в контейнере, 0 - наоборот
Number (Whole)
0
Буквенный код
Расшифровку берем из приказа ФНС России
String
CFR
условия
от 27.07.2012
String
Н.НОВГОРОД
режима
Признак
контейнерных
перевозок
поставки
Пункт поставки
Город, населенный пункт без конкретного
товара
адреса
Валюта
Валюта контракта
String
USD
Товарная номенклатура
String
7308909900
контракта
ТНВЭД
внешнеэкономической деятельности,
классификатор товаров
Вес брутто, кг
Вес груза с упаковкой
Number (Whole)
4516
Нетто, кг
Вес груза
Number
4064
(Decimal)
Фактурная
Оговоренная условиями внешнеторговой
Number
стоимость
сделки, фактически уплаченная либо
(Decimal)
2490
подлежащая уплате цена товара с учетом
условия его поставки
Статистическая
Статистическая стоимость получается путем
Number
стоимость
пересчета в доллары США:
(Decimal)
товара
- фактурной стоимости декларируемого
2490
товара, по возможности приведенной к базе
11
цен FOB - российский порт или DAF граница Российской Федерации
УНИ-Страна
Определяется по коду страны (есть в
отправления
исходной выборке), подгружается из базы
String
Литва
String
Челябинская
международных кодов стран
УНИ-регион
Для российских компаний определяется по
отправления
первым трем цифрам почтового индекса. Для
область
зарубежных компаний – не заполняется
УНИ-
По российским компаниям названия
Отправитель
унифицируются и приводятся к одному
String
Slk Technologies
Llc
виду: без кавычек; сначала название, потом
организационно-правовая форма.
УНИ-ИНН
По российским компаниям данное поле
отправителя
заполняется по данным из исходной базы. В
3305038244
коде ИНН юридических лиц должно быть 10
цифр, в коде по индивидуальным
предпринимателям 12 цифр. Так как
зачастую в исходной выборке есть ошибки
(например, у кодов отсечены первые ноли и
т.д.), исходные данные приводятся к
стандартному виду. То есть, если длина кода
уже равна 10 или 12 символам, то берутся
эти данные. Если длина менее 10 символов,
то дополняем код спереди нолями до 10
символов. Если длина 11 символов, то
добавляем ноль спереди, чтобы было 12
символов. УНИ-ИНН фиксируем как
текстовое поле, чтобы в дальнейшем не было
проблем отсечением нолей и т.д.
По зарубежным компаниям данных нет.
Основной вид
Для российских компаний вычисляется по
деятельности
ИНН или ОКПО из внутренней базы
машинами и
отправителя
компаний. Для зарубежных – не
оборудованием
String
Оптовая торговля
заполняется
12
УНИ-Страна
Определяется по коду страны (есть в
получения
исходной выборке), подгружается из базы
String
Россия
String
Нижегородская
международных кодов стран
УНИ-регион
Для российских компаний определяется по
получения
первым трем цифрам почтового индекса. Для
область
зарубежных компаний – не заполняется
УНИ-ФО
Федеральный округ получения
String
ПФО
УНИ-
По российским компаниям названия
String
Промтехресурс,
Получатель
унифицируются и приводятся к одному
получения
ООО
виду: без кавычек; сначала название, потом
организационно-правовая форма.
УНИ-ИНН
См. УНИ-ИНН отправителя
3305038244
получателя
Основной вид
Для российских компаний вычисляется по
деятельности
ИНН или ОКПО из внутренней базы
получателя
компаний. Для зарубежных – не заполняется
УНИ_Группа
Выделены 4 группы товаров:
товара
Металлоконструкции, металлоконструкции
String
Прочая оптовая
торговля
String
Металлоконструк
ции прочие
прочее, сэндвич-панели, металлочерепица.
Определяем через таможенный режим и из
описания
УНИ_Тип товара
Определяется через описание с помощью
String
фильтрации, имея ввиду справочник типов
Стеллажи и
стенды
товаров
УНИ_Таможенн
Берется из исходной выгрузки. Если этих
Number
ая стоимость
данных нет, то тогда рассчитывается как
(Decimal)
72190
статистическая стоимость из исходной
выгрузки, умноженная на курс доллара на
момент составления декларации. Если и этих
данных нет, то оценивается
Таможенная
0% и 15%; Проставляется вручную для
Number
пошлина
каждого кода товара ТН ВЭД на основании
(Decimal)
0,15
данных таможенной службы РФ
13
Стоимость с
Таможенная стоимость*(1+НДС(0,18) +
Number
НДС и
+ таможенная пошлина)
(Decimal)
Из исходных данных
Number
97961,83
пошлиной
Цена за 1 кг (для
сэндвичей - за 1
24,1
(Decimal)
м2), руб
УНИ_Материал
Определяется для сэндвич-панелей.
наполнителя
Существует: пенополиизоцианурат,
(для С/П)
пенополиуретан, минеральная вата
String
PUR
620,35
(базальтовое волокно), пенополистирол.
Площадь С/П,
Определяется выделением информации из
Number
кв.м.
описания с помощью макроса или с
(Decimal)
помощью расчета по средним
коэффициентам
Таблица 1. Таможенная база ВЭД 2004-2009 гг.
Название
Описание
Формат
Вид данных
Номер компании
Идентификационный номер компании
Number (Whole)
11
ИНН
Уточняется у контактных лиц компании и с
Number (Whole)
3305038244
String
TRIMO GROUP
поля
помощью налоговых БД
Принадлежность
Поиск через сайт компании и через
к холдингу
контактных лиц
Название
Уточняется у контактных лиц компании и с
(www.trimo.org.uk)
String
Тримо-ВСК
String
ООО
помощью налоговых БД
Форма
Уточняется у контактных лиц компании и с
собственности
помощью налоговых БД
ФО
Определяем из адреса
String
ЦФО
Регион
Определяем из адреса
String
Москва
Адрес
Контактные данные с сайта компании или
String
121087, Москва,
через контактные лица
ул. Барклая, д. 6,
стр. 5 (бизнесцентр "БарклайПлаза")
14
Почтовый
Определяется из адреса компании
Number (Whole)
121087
Контактные данные с сайта компании или
String
(495) 6428091
String
infо@trimо-vsk.ru
индекс
Телефон
через контактные лица
е-mail
Контактные данные с сайта компании или
через контактные лица
www
Поиск в сети Интернет
String
www.trimо-vsk.ru
Руководитель
Контактные данные с сайта компании или
String
Дмитриев
через контактные лица + налоговые БД
Александр
Сергеевич
Должность
Контактные данные с сайта компании или
String
через контактные лица + налоговые БД
ЛМК (здания)
Информация по ассортименту. 1 – завод
ЛМК (линии
занимается реализацией данного типа
ЛЭП)
товаров, 0 - нет
Генеральный
директор
Number (Whole)
0
Number
1
ЛМК (прочие
сооружения)
ЛСТК
Полнокомплектн
ые здания
Алюминиевые
металоконструкции
Горячее
цинкование
Сэндвич-панели
Металлочерепиц
а
Профлист
Фасадные
системы
Мощности по
Уточняется через контактных лиц компании
выпуску
(Decimal)
сэндвичпанелей, млн. кв.
м. в год
Мощности по
Уточняется через контактных лиц компании
Number (Whole)
0
выпуску
металлоконструк
ций, тонн в год
15
ЦФО, СЗФО,
Уточняется через контактных лиц компании
Number (Whole)
1
ЮФО, СКФО,
ПФО, УФО,
СФО, ДВФО,
БЕЛАРУСЬ,
КАЗАХСТАН
Таблица 2. База 400 производителей металлопродукции
16
Глава 2 Реализация алгоритма автоматизации в Tableau.
Создание бизнес-приложения
2.1.
Обоснование выбора Tableau как платформы реализации
Термин Business Intelligence, BI (бизнес-аналитика) был впервые предложен в 1989 г.
аналитиком компании Gartner Говардом Дреснером. С тех пор BI-системы стали
многофункциональными инструментами для организации процессов сбора и анализа
информации, а также поддержки принятия решений в управлении компаний.
Современные аналитические системы – это:
возможности анализа данных из различных источников – учетные системы, прочие
базы данных, плоские файлы;
разнообразные средства анализа информации: многомерный анализ (OLAP),
стандартная
отчетность,
нерегламентированные
запросы;
контроль
показателей
деятельности (KPI, BSC);
богатые возможности представления результатов (графики, таблицы, диаграммы,
«панели приборов»);
организация совместного доступа и контроль доступа к аналитическим ресурсам:
информационные панели, рассылки по электронной почте, настройка прав доступа к
данным для различных категорий пользователей1.
По оценкам аналитиков, компании, активно использующие BI в своей деятельности,
на 5% более продуктивны и на 6% прибыльнее конкурентов. При этом около половины
компаний, внедряющих BI, достигают ощутимых бизнес-результатов в первые 6 месяцев2.
С точки зрения потребления BI-систем в России несмотря на кризисное состояние
экономики все достаточно стабильно. По усредненным оценкам участников рынка, объем
сегмента в рублях вырастет или, в худшем случае, останется на уровне прошлого года Те
игроки, кто совершенствует свои бизнес-процессы, продолжат инвестировать в аналитику3.
При выборе BI-системы крупные компании в первую очередь руководствуются ценой
соответствующих продуктов и местоположением в квадранте, формируемым компанией
Магомедова П.Р. Анализ и прогноз - это просто вместе с BI-решением// Международный научноисследовательский журнал. – 2016. – С. 49 – 50.
2
Развитие BI в российских бизнес-реалиях// Блог компании по бизнес-аналитике «Прогноз». – 2014. – URL:
http://www.prognoz.ru/blog/market/bi-evolution-in-russia/
3
Бизнес-аналитика и большие данные в России 2015// Интернет-издание о высоких технологиях – CNews. –
2015. Режим доступа: http://www.cnews.ru/reviews/bi_bigdata_2015
1
17
Gartner каждый февраль. В своем отчете консалтинговая фирма описывает тенденции и
формирует прогноз на ближайшие несколько лет рынка Business Intelligence, составляет
рейтинг лучших продуктов, размещая их в «Магическом квадранте», где по горизонтали
оценивается целостность видения, а по вертикали – совершенство платформы. Несколько
лет подряд в этом рейтинге BI-система Tableau занимает лидирующее положение по
вертикали, то есть по совершенству платформы. На рисунке 2 видно, что в тройке лидеров
также находится продукт QlikView и Power BI от компании Microsoft. Данные по этому
рейтингу сузили круг платформ до трех претендентов, среди которых была выбрана
система Tableau по критерию совершенства продукта.
Рисунок 2. The 2016 Gartner BI Magic Quadrant
Стоит отметить, что данная система подойдет не всем компаниям, так как Tableau не
предоставляет бесплатных лицензий на один компьютер на одного пользователя, как это
делают главные конкуренты. Стоимость лицензии в зависимости от продукта и версии
начинается с $ 999 за год.
2.2.
Консолидация данных в Tableau
После подготовки данных для анализа необходимо проверить форматы переменных
при загрузке в Tableau, чтобы впоследствии создать Extract-файлы, позволяющие
оперировать данными не только в RAM, но и задействовать HDD. Этот шаг необходим по
причине улучшения быстродействия запросов и возможности публикации рабочего стола
18
приложения, хотя может появиться проблема с обновлением данных, если мы, например,
имеем дело с OLTP и т.д.
Рисунок 3. Загрузка данных в Tableau
После загрузки данных добавим сразу все справочники, которые понадобятся для
анализа, и прописать связи с главной таблицей Таможня МК и СП 2004-2009, чтобы далее
не обращаться к ним, прерывая работу.
Для анализа создадим следующие справочники, где подчеркнем ключи сущностей:
1.
Курс валют
Название поля
Формат
Вид данных
Дата
String
21.03.2009
USD
Number (Decimal)
33,423
Таблица 3. Справочник курса доллара за заданный период
Берем в качестве ключа дату, так как одной дате соответствует средняя цена доллара
за день. Данные можно взять, например, с ресурса «КонсультантПлюс» в разделе
Справочная информация.
2.
Таможенный орган
Название поля
Формат
Вид данных
Код таможни
Number (Whole)
10001000
Наименование таможни
String
Внуковская таможня
19
Город
String
Москва
Почтовый код таможни
Number (Whole)
103027
Таблица 4. География таможенных органов по почтовому коду
Этот справочник можно найти на сайте компании ООО, ТКС.РУ в разделе базы
данных. Почтовый код таможни можно вычленить из поля адрес, находящейся в
оригинальной базе.
3.
База кодов стран
Название поля
Формат
Вид данных
Наименование
String
Абхазия
Часть света
String
Азия
Расположение
String
Закавказье
Таблица 5. Справочник географии стран мира
Ключом данной сущности является наименование страны, что не так эффективно с
точки зрения обработки данных, можно было бы ввести идентификационный номер страны,
но ключевые сущности уже оперируют названиями стран, поэтому оставим справочник в
исходном виде. Справочник можно найти, например, на сайте студии Артемия Лебедева в
разделе Инвентарь.
4.
Таможенный режим
Название поля
Формат
Вид данных
Код таможенного режима
String
10
Таможенный режим (процедура)
String
Экспорт
Таблица 6. Расшифровка таможенного режима
Справочник-классификатор таможенных процедур можно найти также на сайте
компании ООО, ТКС.РУ
5.
Условия поставки
Название поля
Формат
Вид данных
Буквенный код
String
EXW
Наименование
String
Франко-завод
Таблица 7. Расшифровка условий поставки
Данный справочник находится в рамках приказа ФНС России от 27.07.2012 N ММВ7-13/524.
20
6.
Russian Postcodes
Название поля
Формат
Вид данных
Russia_PostalCode
Number (Whole)
101000
Latitude
Number (Decimal)
55.7522
Longitude
Number (Decimal)
37.6156
Таблица 8. Почтовые коды с координатами
Все определенные нами справочники проверим на наличие ошибок с помощью
фильтрации в Excel. Важность данного шага очевидна на последнем примере, открытые
базы данных почтовых кодов с широтой и долготой содержат порядка 44 полей, где вместо
значений этих переменных стоят даты. Такого рода ошибки могут привести к некорректной
визуализации данных и появлению неопознанных значений, оперирование которыми
вызывает ошибки.
Для удобства объединим два справочника Таможенный орган и Russian Postcodes при
загрузке данных в Tableau в справочник Таможенный орган+. Это необходимо сделать
потому, чтобы создать справочник с геолокацией, на который можно ссылаться, спускаясь
на один уровень иерархии, что уменьшит количество возможных ошибок при обращении к
геоданным.
Рисунок 4. Формирование связи между сущностями
Объединение будет проходить по форме left join, так как нам необходимо сузить
количество геоданных в область таможенного местоположения. Теперь мы расширим
21
таблицу Таможенный орган данными широты и долготы каждой таможни, что будет
впоследствии подспорьем геовизуализацией.
Для работы с получившимся пулом информации нарисуем ER-диаграмму сущностьсвязь, чтобы видеть на высоком уровне абстракции задачи, которые необходимо решить
при проверке поставленных гипотез.
Рисунок 5. ERD-диаграмма связи с таблицей Таможня МК и СП 2004-2009
Чтобы данную диаграмму реализовать в Tableau необходимо в диалоговом окне
Relationships прописать связи, учитывая, что в поле Primary data source всегда находится
таблица, которая стоит выше по иерархии. Так как наш алгоритм предполагает два уровня,
то в этом поле всегда будет находится таблица Таможня МК и СП 2004-2009 за
исключением формирования визуализации экспорта металлических конструкций с заводов
из БД «Топ 400 производителей МК и СП». Механизм организации связей в Tableau таков,
что все они автоматически создаются лишь тогда, когда поля в разных таблицах носят
одинаковое название, в обратном случае связи необходимо прописать вручную.
22
Рисунок 6. Организация связей справочников с основной таблицей
Отметим, что если исследование необходимо будет масштабировать новыми
справочниками и ключевыми сущностями, то добавить их не составит труда; необходимо
будет задать связанное поле и поместить сущность в ту же папку, что и уже имеющиеся,
если она локальна, если же она подгружается из онлайн сервисов, то у Tableau реализованы
специальные механизмы добавления и обработки таковых на странице Data Source.
Точно таким же образом поступаем со второй ключевой таблицей исследования База
400 производителей металлопродукции, добавив справочник Адреса заводов+. Вид
справочника представлен в следующей таблице:
Название поля
Формат
Вид данных
Russia_PostalCode
Number (Whole)
101000
Номер завода
Number (Whole)
1
Почтовый индекс
Number (Whole)
105058
Latitude
Number (Decimal)
55.7522
Longitude
Number (Decimal)
37.6156
Таблица 9 Формирование расширенного справочника с помощью left join
Опишем ERD-диаграмму всего получившегося пула данных, включая последний
описанный справочник:
23
Рисунок 7. Связь ключевых сущностей
2.3.
Разработка задач и гипотез
Отметим сразу, что данные представленные в данной работе носят ретроспективный
характер, таблице таможенных транзакций более 6 лет, а БД 400 заводов 2013 года, но это
не принижает цель работы, так как потом этот алгоритм можно переложить на релевантные
данные. Сейчас же мы продемонстрируем эффективность и явное превосходство
коммуникативной составляющей визуализации данных в выбранном программном
продукте.
После организации и консолидации данных мы имеем четко очерченный пул
информации, которую необходимо проверить на те или иные гипотезы, потенциально или
реально важные для клиентов компании. Чтобы реализовать это необходимо выявить
независимые и зависимые переменные, определить, что нам необходимо лишь для
визуальной составляющей, а что для конкретного анализа. Далее необходимо разработать
ряд метрик, которые будут интересны стейкхолдерам исследования.
Минимальное количество вопросов, которые, на мой взгляд, необходимо разрешить в
рамках анализа следующие:
1)
Определить динамику импорта и экспорта за заданный период. Посмотреть
их соотношение и интерпретировать результат.
Чем и кому может быть такая информация? В начале работы мы определили круг
потенциально заинтересованных лиц подобного рода исследований, но при постановке
вопроса таким образом можно предположить, что Государству подобная динамика может
24
служить
основанием
смены
вектора
развития
отрасли,
применить
политику
импортозамещения и т.д. При раскрытии вопроса окажется, что импорт существенно
превалирует над экспортом. Этот факт носит негативный характер и показывает наиболее
обобщенно трагедию отрасли в данный промежуток времени.
2)
Определить самые проходимые таможенные органы, интерпретировать
результаты.
Данный вопрос может заинтересовать дистрибьюторов рынка металлоконструкций,
так как формирование складских помещений и логистики на основании проходимых
объемов может быть целесообразным. Также по данному показателю можно формировать
команды и/или заниматься расширением таможен, ведь их загруженность может быть
весьма динамичной.
3)
Определить структуру экспорта, посмотреть на динамику
Экспорт – наиболее интересная статья ВЭД так как она определяет успешность тех
иди иных регионов в плане производства металлических конструкций. Данная информация
может быть полезна для полного понимания конъюнктуры рынка: увеличение показателя
говорит о хорошем состоянии отрасли и наоборот, может служить индикатором наличия
проблемы. Также по данной информации можно отслеживать перспективы расширения
поставок в ту или иную страну, например, по данным за 2004-2009 года, основная страна,
куда мы поставляли металлические конструкции, Казахстан. Постоянное первенство может
демонстрировать как занятость рынка либо показывать перспективу дальнейшего роста
поставок. В противопоставление Казахстану можно заметить, что поставки в Океанию и
Восточную Азию крайне низок.
4)
Рассмотреть структуру ВЭД по операциям в валюте. Определить, самые
крупные поставки осуществлялись в долларовой валюте или существовала другая
альтернатива?
Этот вопрос был бы интересен с точки зрения понимания степени зависимости
формирования стоимости металлических конструкций от курса доллара. Если доллар и/или
евро доминируют в сделках, то, скорее всего, зависимость цены от курса валют есть. Также
можно определить количество сделок в других валютах, посмотреть есть ли в этих сделках
какая-то закономерность либо они носят случайный характер, что свидетельствует о
точечных покупках продукции.
25
5)
Определить динамику цен металлопродукции и проверить гипотезу
взаимосвязи с курсом доллара
6)
Определить структуру и географию потребления металлоконструкций по
коду таможенного режима
7)
Определить топ самых крупных импортеров и экспортеров РФ на данном
рынке
Может быть интересно в плане развития конкуренции. Крупнейший экспортер,
например, может стать эталоном, на которого можно будет направить силы бенчмаркинга
конкурентов. Крупнейшие импортеры могут стать потенциальными партнерами, если
предложить им вариант поставки продукции по более выгодным условиям.
8)
Определить специфику потребления импортированных металлоконструкций
по основным видам деятельности
Эта информация даст общее понимание компаний, которые импортируют товары
данного рынка. Может так оказаться, что это, в основном, компании дистрибьюторы, то
есть не конечные пользователи, строительные компании или домохозяйства. Такое видение
необходимо, чтобы грамотно сформировать конкурентную стратегию, посмотреть узкие
места рынка и т.д.
9)
Посмотреть на группы товаров и определить, какой тип товаров более
востребован для иностранных партнеров наших производителей
Если компания собирается заняться экспортом металлоконструкций или уже
занимается этим, то подобного рода информация может служить демонстрацией успеха
того или иного продукта у иностранных партнеров.
10)
Определить совокупный объем таможенных пошлин и посмотреть динамику
по месяцам
Это необходимо для государственных структур, так как можно отслеживать
количество вливаний в бюджет от ВЭД по рынку металлоконструкций.
11)
Рассмотреть мощности выпусков заводов и определить крупнейших
производителей
Эта
информация
необходима
потенциальным
клиентам
производителей
металлоконструкций, так как заказы могут носить масштабный характер, и некоторым
производителям будет не по силам качественно и в нужные сроки реализовать тот или иной
26
проект. Также это полезно самим компаниям, попавшим в топ, как реклама собственных
заводов.
2.4.
Решение поставленных для анализа задач и проверка гипотез
в BI-системе «Tableau»
1)
Определим динамику импорта и экспорта за заданный период, посмотрим их
соотношение:
Добавляем переменную Импорт/Экспорт в Filtres, включаем режим Show Filter и в
качестве выбора значения выбираем Single Value (Dropdown), то есть выпадающий список,
для удобного переключения между ВЭД. В поле Columns добавляем переменную Дата
оформления ГТД, меняя значение на непрерывное, чтобы далее можно было спускаться
ниже по иерархии времени (квартал, месяц и т.д.). В качестве динамического показателя
воспользуемся переменной Нетто, кг, поместив его в поле Rows и добавив функцию
агрегирования SUM. На выходе получаем графики:
Рисунок 8. Экспорт металлоконструкций, 2004 – 2009 гг.
Как видно по графику, до 2006 года наблюдался стабильный рост экспорта металла,
но после 2006 года ситуация поменялась на диаметрально противоположную. До 2008 года
экспорт существенно падал до показателей, меньших чем в 2004 году, затем 2009 год
несмотря на разгар кризиса для экспортеров принес рост объемов поставок металла за
рубеж до уровня 2005 года, показав рост на более чем 40 млн. тонн
27
Рисунок 9. Импорт металлоконструкций, 2004-2009 гг.
В динамике импорта ситуация в сравнении с экспортом другая. С 2004 по 2008 год
объем импортированных металлоконструкций увеличился более чем в два раза, достигнув
пикового значения в 550 млн. тонн. Затем под влиянием кризиса размер импорта
существенно сократился, количественно падение за год было более чем 20% или 100 млн.
тонн.
Посмотрим на соотношение импорта к экспорту по годам:
Рисунок 10. Соотношение импорта и экспорта, 2004-2009 гг.
С 2004 по 2006 можно наблюдать, примерно, одинаковый уровень прироста импорта
и экспорта металлоконструкций. В 2006 появилось разнонаправленность тенденций,
импорт стал существенно расти, в то время как экспорт стал постепенно убывать.
28
Тенденция изменилась с наступлением кризиса, впервые стала наблюдаться отрицательная
динамика в импорте и положительная в экспорте.
2)
Определим самые проходимые таможенные органы:
Добавим в поле Rows переменную Latitude, далее нажмем на переменную Longitude.
Переменные автоматически будут агрегированы как средние значения, после этого добавим
в область Filter переменную Код таможни и Дата оформления ГТД. В первом случае
выбираем все значения, исключая неизвестные, дату ставим как дискретную величину по
годам. В поле Marks добавим переменную Код таможни из главной таблицы Таможня МК
и СП 2004-2009, это позволит нам увидеть на карте все таможни, через которые
осуществлялась ВЭД по металлоконструкциям. Далее для визуального представления
масштабов внешнеэкономической деятельности по таможенным органам возьмем
переменную Нетто, кг и перенесем на Size в области Marks. Чтобы оперировать рамками
выбранного временного отрезка, включим режим Show Filter у фильтра Дата оформления
ГТД:
Рисунок 11. Определение проходимости таможенных органов, 2004-2009 гг.
Код таможенного органа, как таковой нам ничего не скажет, поэтому добавим из
справочника Таможенный орган+ в область Marks две переменные Наименование
таможни и Город, после чего их можно добавить в Tooltip, что позволит при наведении на
таможню распознать таможенный орган и его географию.
29
Рисунок 12. Определение таможенного органа
В 2004 и 2005 годах самая активная ВЭД проходила в ДВФО, в Южно-Сахалинске
объем более чем в 2 раза превышал показатели 2-го крупнейшего таможенного органа в
Магнитогорске, ПФО. В 2005 году разрыв составлял более 26 млн. тонн: 47 млн. против 21.
В 2006 году ситуация резко изменилась, показатели Магнитогорска встают на 1 место,
после этого идет Воронеж, за которым идет ДВФО. В 2008 году Санкт-Петербург по
объемам занимает втрое место, что прежде всего связано с началом строительства стадиона
«Зенит-Арена». В 2009 году оборот таможни в Санкт-Петербурге смещается на первую
позицию, вторую занимает Белгород, третью – Новороссийск.
Стоит отметить, что если смотреть на распределение отдельно импорта, то оно
фактически совпадает с общей расстановкой ВЭД, это связано с тем, что в процентном
соотношении импорт занимал, в среднем, 60-65%.
Если оценивать экспортную составляющую ВЭД, то можно отметить одну явно
выраженную направленность – центральная Азия. Основной поток находился на границе с
Монголией, Казахстаном. Также большие объемы проходили в ЮФО, где находятся
несколько морских портов и ж/д пути в Украину и Беларусь.
3)
Определим структуру экспорта:
Добавим в поле Columns агрегированные данные по переменной Нетто, кг, в поле
Rows добавим переменную УНИ-Страна получения. Чтобы ограничиться рамками
экспорта, добавим эту переменную в фильтр и выберем Экспорт. Для коммуникации
данных добавим несколько визуальных фильтров: Дата оформления ГТД по годам, уберем
пропущенные значения с помощью фильтрации, Null по переменной УНИ-Страна
происхождения. Из справочника База кодов стран добавим в область Marks переменную
30
Часть света, предварительно очистив от пустых значений. Выведем фильтр времени на
экран выпадающим списком.
В результате мы получим список всех стран, куда производители металлопродукции
поставляли товар. Этот результат получился, однозначно, громоздким, так как всего
экспорт в заявленные сроки производился 118 странам. Сократим полученный список,
создав Calculative Field, ограничив демонстрацию стран суммарными поставками за год 300
тоннами:
Рисунок 13. Формирование новой переменной
Итоговый результат, после корректировки формата представления данных и
добавления переменной Нетто, кг в область Label, будет выглядеть следующим образом:
Рисунок 14. Направленность экспорта, пример 2004 г.
Для полной картины экспорта, создадим еще две рабочие страницы. Первая будет
показывать общий объем транзакций по странам, вторая продемонстрирует соотношение
расположений стран–импортёров нашей металлопродукции.
31
Первая создается путем рассмотрения автоматически созданной переменной Number
of Records, агрегированной по странам в виде суммы. В область Color добавим переменную
Часть света, исключим пропуски.
Последняя страница будет организована в виде packed bubbles. Данного типа
графическое представление лучше не использовать, так как оно крайне неэффективно для
сравнительного
анализа,
но
в
нашем
случае
оно
может
визуально
наглядно
продемонстрировать существенный разрыв поставок товаров в Восточную Европу
относительно других направлений. Организация данного типа диаграммы осуществляется
путем добавления в область Marks суммы Нетто, кг и переменной Расположение и Часть
света. Фильтрами будет выступать время ГТД, переменной, отбирающей поставки
объемами более 300 тонн, а также исключение Null из переменой Часть света:
Рисунок 15. Bubble диаграмма: соотношение поставок МК, 2006
4)
Рассмотрим структуру ВЭД по операциям в валюте. Определим топ наиболее
часто используемых валют:
Отметим, что всего в ВЭД по металлоконструкциям и сэндвич-панелям за заданный
период использовалось 25 различных валют. Продемонстрируем на графике динамику их
использования. Для этого сделаем все тоже самое, что мы делали в предыдущих примерах,
только в область Color добавим переменную Валюта контракта, исключив пустые
значения; на выходе получим следующий график:
32
Рисунок 16. Динамика ВЭД по валюте транзакций
По получившемся графику можно четко выделить три ключевых валюты: доллар,
евро и рубль. Остальные валютные операции находятся далеко позади, поэтому мы не
можем оценить динамику по ним, чтобы сделать это создадим группы валют: ключевые,
остальные.
Для этого правой кнопкой мыши нажмем на переменную Валюта контракта и
выберем поле Group, где выделим ключевые валюты. Включим функцию Include Other,
чтобы можно было все остальные валюты обозначить, как не ключевые:
Рисунок 17. Создание групп
Добавим валюту контракта в область Filters и выберем все валюты, кроме ключевых.
Так как их достаточно много и визуально продемонстрировать динамику будет не столь
33
информативно, сменим line chart на bar chart, это позволит нам оценить по годам раскладку
валютных транзакций, исключая ключевые валюты:
Рисунок 18. Валютные транзакции по группе Other, 2009 г.
5)
Определим динамику цен на металлопродукции и проверим гипотезу
взаимосвязи с курсом доллара:
Очевидна гипотеза связи цены МК и СП с курсом доллара по причине того, что, вопервых, импорт существенно превышает экспорт, как мы недавно выяснили, во-вторых,
основными валютами ВЭД РФ по МК это доллар и евро. Учитывая, что евро достаточно
сильно коррелирует с долларом, предположим, гипотеза имеет право на жизнь. Докажем ее
следующим образом: перенесем в поле Rows среднее значение переменной Цена за
единицу, руб., а в поле Columns добавим среднее по переменной USD из справочника курса
валюты. В область Marks перенесем Дата оформления ГТД, сделав непрерывной и
агрегировав по месяцам. На выходе мы получим график с множеством пустых значений изза агрегирования, отфильтруем их построим линию тренда, исходящую из нуля (доллар и
металлические конструкции меньше нуля стоить не могут), на выходе получим:
34
Рисунок 19. Проверка гипотезы связи доллара с ценой МК и СП, весь период
Посмотрим на описание модели:
Trend Lines Model
A linear trend model is computed for average of Цена за единицу, руб. given average of
USD (Курсы валют (Курс доллара)). The model may be significant at p <= 0,05.
Model formula:
( Avg. USD )
Number of modeled observations:
70
Number of filtered observations:
0
Model degrees of freedom:
1
Residual degrees of freedom (DF): 69
SSE (sum squared error):
495937
MSE (mean squared error):
7187,5
R-Squared:
0,897539
Standard error:
84,7791
p-value (significance):
< 0,0001
Individual trend lines:
Panes
Line
Coefficients
Row
Column
p-value
DF
Term
Value
StdErr
t-value
pvalue
Цена за единицу, руб
USD
< 0,0001
69
Avg. USD
8,924
26
0,362994
24,5852
<
0,0001
35
Как видно из описания, курс доллара может объяснить в среднем 89% цены на МК и
СП, то есть с 89% вероятностью средняя цена за единицу будет равно среднему курсу
доллара, умноженному на 8,92, p-значение не превышает 0,1, что говорит о состоятельности
данной гипотезы, отвергнуть ее мы не можем.
Посмотрим на влияние кризиса 2008-2009 годах на цену на МК и СП. Для этого
создадим группу по переменной Дата оформления ГТД, содержащую значения 2008-2009
годов, при группировке включим возможность создания группы Other. После этого добавим
полученную переменную в фильтр и вынесем его на страницу, получим:
Рисунок 20. Наличие фактора влияния кризиса
Trend Lines Model
A linear trend model is computed for average of Цена за единицу, руб given average of
USD (Курсы валют (Курс доллара, евро)). The model may be significant at p <= 0,05. The
factor Дата оформления ГТД (group) may be significant at p <= 0.05.
Model formula:
Дата оформления ГТД (group)*( Avg. USD )
Number of modeled observations:
70
Number of filtered observations:
0
36
2
Model degrees of freedom:
Residual degrees of freedom (DF): 68
SSE (sum squared error):
286791
MSE (mean squared error):
4217,52
R-Squared:
0,940749
Standard error:
64,9424
p-value (significance):
< 0,0001
Analysis of Variance:
Field
DF SSE
MSE
F
p-value
Дата оформления ГТД (group)
1
209146
49,5897
< 0,0001
209145.76
Individual trend lines:
Panes
Row
Color
Line
Colum
Дата
p-value
n
оформления
Coefficients
DF
Term
Valu
StdErr
t-value
e
pvalue
ГТД (group)
Цена за единицу,
USD
Докризисное
< 0,0001
46
Avg. USD
руб
7,500
0,20807
36,045
<
24
7
6
0,000
1
Цена за единицу,
руб
USD
Кризисное вр
< 0,0001
22
Avg. USD
емя
11,61
0,72088
16,114
<
67
3
6
0,000
1
Модель, в которой кризис представлен как фактор, имеет R-квадрат 0,94 p-значение
не превышает 0,1. Показатели модели улучшились, что говорит нам о наличии влияния
кризиса на изменение формирования цен на металлоконструкции. До кризиса цена МК
складывалась как цена доллара, умноженная на 7,5, после кризиса коэффициент возрос до
11,6 при условии, что и стоимость доллара возросла, превысив отметку в 30 рублей.
Для демонстрации влияния кризиса нанесем на один график линию изменения цены
доллара и цены единицы МК или СП, отметив переломный период:
В поле Rows добавим дату, а в Columns добавим медиану цены на продукцию, так как
среднее значение имеет множество выбросов, что будет отражаться на коммуникации
визуализации, и среднее значения стоимости доллара. Чтобы нанести линию, после которой
происходит кардинальное изменение добавим Reference Line:
37
Рисунок 21. Обозначение переломного периода
В итоге получим следующий график:
Рисунок 22. Динамика цены на МК и СП и курса доллара
Несмотря на колебания цены на металлоконструкции до февраля 2009 года тенденции
обеих величин на графике были однонаправленны, после данного периода появилась
крайняя нестабильность. Стандартное отклонение в докризисный период равнялось 3,96, а
в кризис – 17,72.
6)
Определим структуру и географию потребления металлоконструкций по коду
таможенного режима:
38
Данный вопрос особенно может заинтересовать производителей МК по причине того,
что можно узнать, какие регионы РФ наиболее зависимы от импорта.
Сначала рассмотрим структуру потребления в целом без нюансов географии. Для
этого используем переменную Таможенный режим и сумму Нетто, кг, в фильтр занесем
переменную Импорт/Экспорт, сузив выборку импортом металлопродукции, что нас более
интересует:
Рисунок 23. Структура внутреннего потребления импортированной продукции
Данное представление может нам сказать лишь то, что превалирует таможенный
режим:
«Выпуск
для
внутреннего
потребления
для свободного обращения без освобождения
от
с
уплаты
одновременным
выпуском
таможенных
пошлин,
налогов». Чтобы определить, использование других статей таможенного режима, создадим
группу, как делали это ранее, объединяя режим 40 и 42, включив группу Other. После этого
рассмотрим структуру потребления по федеральным округам, добавив УНИ-ФО получения
в поле Rows и включив несколько фильтров, исключающих пустые значения:
39
Рисунок 24. Структура потребления импортных металлоконструкций и СП, 2007 г.
Рисунок 25. Структура потребления импортных металлоконструкций, весь период
Рассмотрим оставшиеся транзакции, по ним выделяются два явно важные и значимые
режима: «Свободная таможенная зона» и «Таможенный склад для иностранных товаров»
40
Рисунок 26. Рассмотрение ВЭД по таможенному режиму, импорт, весь период
7)
Определим топ самых крупных импортеров и экспортеров РФ:
Определим топ 10 импортеров следующим образом: в Columns добавим
агрегированные данные по Нетто, кг, а в поле Rows добавим УНИ-Отправитель, это
позволит увидеть общую картину по импортерам. Чтобы данные представляли из себя
ценность для клиентов необходимо убрать пустые значения и проранжировать их по сумме.
Для этого отсортируем по убыванию полученную диаграмму и после с помощью создания
Table Calculation организуем упорядоченный список импортеров.
Скопируем зажатой кнопкой CTRL SUM(Нетто, кг) и поставим рядом в поле Columns,
в опциях полученной переменной нажмем Add Table Calculation и добавим Rank.
Полученный ранг перенесем в поле Rows и скопируем в фильтр, оставив номера с 1 по 10,
на выходе получим:
Рисунок 27. Топ 10 импортеров, 2005 год
Получить топ 10 экспортеров можно по тому же механизму, сменив фильтр с импорта
на экспорт.
41
8)
Определить специфику потребления импортированных МК компаний по
основным видам деятельности
Создадим два рабочих листа, которые будут коммуницировать с клиентом на основе
одних данных, но на разном уровне восприятия. Первый лист создадим по аналогии с
алгоритмом действий по выявлению топ импортеров/экспортеров за исключением того, что
классификатором будет являться переменная Основной вид деятельности. Единственно,
сделаем не 10, а 20 основных видов деятельности, а также исключим пустые значения и
прочую оптовую торговлю, так как она не особо информативна в плане анализа:
Рисунок 28. Классификация потребления импортированных МК и СП по виду
деятельности компаний, 2007 г.
Вторую страницу создадим путем дублирования первой, исключая ранжирование и
сменив тип представления результата на treemaps, что позволит посмотреть на результат
полно, можно вернуть значения прочей оптовой торговли:
42
Рисунок 29. Классификация потребления импортированных МК и СП по виду
деятельности компаний, 2007 г.
9)
Посмотреть на группы товаров и определить, какой тип товаров более
востребован для иностранных партнеров наших производителей
Для узнаем в каких объемах поставляются товары по группам. Основных групп 4:
металлоконструкции, металлочерепица, сэндвич-панели и металлоконструкции прочее.
Чтобы это сделать перенесем переменную УНИ_Группа товара в поле Rows, а Нетто, кг
в область Marks, предварительно поставив фильтр на экспорт и добавив открытый фильтр
по годам. Выберем тип представления highlight table, которое укажет нам на общие объемы
по экспорту по категориям с градацией цвета в качестве визуальной подсказки. Чтобы
посмотреть процент товара из группы создадим Table Calculation Total Percent, сделав
переменную SUM( Нетто, кг) дискретной и добавив ее в поле Rows.
Теперь создадим страницу, которая будет нести информацию о потреблении разных
стран товаров из РФ в зависимости от принадлежности товаров к определенной группе.
Сделаем это следующим образом: включим связь справочника База кодов стран с
сущностью Таможня МК и СП 2004-2009. После этого добавим в поле Columns
переменную Наименование, а в Rows поместим сумму Нетто, кг. В фильтр добавим выбор
года, выбор группы товара, оставим лишь данные по экспорту, уберем пустые значения по
наименованию страны и добавим созданную нами переменную Экспорт_фильтр, чтобы
оставить лишь транзакции более чем на 300 тонн в год, так как на фоне больших значений,
они будут выглядеть нулевыми, что негативно скажется на представлении.
43
Рисунок 30. Экспорт группы товаров Металлоконструкции по странам, 2008
Продублируем страницу, заменив наименование страны на расположение для того,
чтобы на одном dashboard'е показать картину в целом и в частности. Причем можно сделать
страницу с расположением стран в качестве фильтра, чтобы при выборе необходимого
расположения узнать цифры по каждой стране.
10)
Определить совокупный объем таможенных пошлин и посмотреть динамику
по месяцам
Определим совокупный объем поступлений налогов и пошлин в государственный
бюджет следующим образом:
Добавим время в качестве дискретной величины в Columns, а в поле Rows добавим
созданную Tableau переменную measure names, которую сразу добавим в фильтр и оставим
два значения: Сумма таможенных пошлин и Сумма НДС, которые создаем, умножив
переменную УНИ-Таможенная стоимость на Таможенная пошлина или на 18% НДС. Далее,
чтобы получить в таблице агрегированный результат отчислений в государственный
бюджет, заходим в раздел Analytics и выбираем Totals, добавляя его на странице, получим
итоговую таблицу по годам:
Рисунок 31. Отчисления налогов и пошлин в госбюджет
44
Также создадим поквартальные графики отчислений НДС и таможенных пошлин,
используя тип графика lines и круговую диаграмму для визуального сравнения объемов
государственных отчислений по годам.
11)
Рассмотреть мощности выпусков заводов и определить крупнейших
производителей по базе «400 производителей МК и СП»
Ранее мы фактически не задействовали нашу вторую ключевую сущность, где
хранится собираемая аналитическим отделом информация о заводах, включая контактные
данные, ассортиментную линию и региональную представленность. На мой взгляд,
наиболее эффективным будет представление компаний на карте, включая пояснительную
таблицу с топом компаний по выпуску МК или СП. Для данной визуализации включим
соединение нашей сущности со справочником Адреса заводов+. Нанесем на карту адреса
заводов двойным щелчком по геоданным latitude и longitude. На карте появятся наши
заводы, точнее ближайшее до них почтовое отделение, в размере РФ это будет не критично,
но позволит увидеть географию заводов. Далее в область Marks добавим информацию,
которую хотим продемонстрировать клиентам: название компании, адрес, ссылка на
страничку в интернете, электронную почту и данные о руководителе:
Рисунок 32. Демонстрация географии и данных о заводах из БД «Топ 400»
Создадим параметр Выбор мощностей, с помощью которого можно будет одним
кликом менять топ производителей МК на топ СП:
45
Рисунок 33. Создание параметра
Чтобы данным параметром можно было оперировать, создадим переменную Выбор
мощностей:
Рисунок 34. Переменная, активирующая параметр
Эта переменная меняет агрегированное значение, которым мы оперируем в качестве
показателя вхождения в топ по производству. Чтобы она заработала, добавим её в поле
Columns, создав ранг их нее и сделав дискретной, как мы делали это ранее, и добавив в поле
Rows название компании-производителя:
46
Рисунок 35. Формирование топа производителей по категориям МК и СП
2.5.
Создание dashboard'ов для визуального представления данных
Все полученные в ходе работы страницы можно объединить в группы или так
называемые дашборды по тематике исследования тех или иных вопросов. Дашборд в
переводе на русский означает панель индикаторов, шкал, приборов. Термин пришел из
английского и ранее употреблялся в контексте автомобиля, сейчас же относится к
различным механизмам и системам, включая компьютеры4. В рамках информационных
систем дашборды понимаются как пользовательские интерфейсы взаимодействия между
пользователем и системой и наоборот.
Свойства дашбордов:
1)
Визуальное представление информации
2)
Выбор самой необходимой информации
3)
Возможность группирования и выбора расположения информации
4)
Вся информация обязательно находится на одном экране системы
5)
Изменения данных удобно отслеживать
The Web's Largest Resource for Definitions & Translations. Электронный источник:
http://www.definitions.net/definition/Dashboard
4
47
Создание дашбордов – это творческий процесс, где нет четкой структуры и алгоритма
работы, поэтому опишем формирование нескольких дашбордов, в которых обозначим
формирование фильтров из страниц, связей между ними, добавление действий и т.д.
Дашборды необходимы для лучшего визуального восприятия проблемы, так как
можно объединить рабочие страницы, которые направлены на объект исследования под
разными углами зрения. Например, при создании дашборда Валютные операции можно
исследовать ключевые валюты, в которых проходит ВЭД, а также разместить информацию
по не ключевым, так как она может быть полезна стейкхолдерам. Создадим дашборд, нажав
на соответствующий элемент рабочего пространства, из перечня нами уже созданных
страниц выберем необходимые, в нашем случае это «Валюта контракта, другие»,
«Валюта контракта, ключевые» и «Ключевая валюта, таблица» и перенесем их в
область формирования дашборда, выбрав свойство новых объектов Floating, чтобы можно
было подбирать размер страниц по нашему усмотрению. Далее подберем размер окна
дашборда, наиболее оптимально пригодный для демонстрации нашего пула информации,
выберем Legal Landscape. При переносе рабочих страниц на дашборд, автоматически
переносятся все созданные фильтры. Если мы хотим, чтобы пользователи не могли на таком
уровне взаимодействовать с данными, то просто удалим их. В данном случае оставим лишь
Дату оформления ГТД по годам, чтобы можно было смотреть степень использования в ВЭД
не ключевых валют по отдельно выбранному году.
После установки размера окон, решения оставить или убрать заголовки, подберем
цветовую гамму корректную для подачи с точки зрения коммуникации данных, это сделаем
в области Colors на рабочих страницах. Также изменим описание значений на страницах в
разделе Tooltip, чтобы избежать автоматически созданных двуязычных названий,
содержащих сокращения по умолчанию и т.д. В итоге получим:
48
Рисунок 36. Анализ валютных операций
Рассмотрим
дашборд
Загруженность
таможенных
органов,
где
введем
вспомогательную страницу Год, демонстрирующую значение фильтра в заголовке, а также
используем географию таможенных органов как функцию выделения.
Создадим рабочую страницу Год, в которой поместим в область фильтрации
переменную YEAR(Дата оформления ГТД), выбрав любое одно значение. Затем эту же
переменную поместим в область Text. Настроим формат представления размером шрифта
22, а также уберем все границы:
Рисунок 37. Вспомогательная страница Год
Поместим на страницу дашборда таблицу с перечнем таможенных органов и
объемами транзакций, пройденных через них, географию таможенных органов, а также
вспомогательную страницу Год. Далее создадим действие, позволяющее выделять в
49
таблице выбранный на карте таможенный орган. Для этого во вкладке Dashboards зайдем в
Actions и создадим Highlight action:
Рисунок 38. Использование страницы как фильтр
В результате получим следующее визуальное представление:
50
Рисунок 39. Загруженность таможенных органов
После реализации всех дашбордов, необходимых для маркетингового исследования,
создадим так называемый Story board, который агрегирует все, что мы до этого сделали, в
один информационный пул:
Рисунок 40. Итоговый результат
Здесь мы можем изменить порядок следования страниц, подготовить описательную
часть, которая необходима заказчикам, вставить ссылки на внешние источники и т.д.
Наверху страницы story board'а будет реализована история наших данных в формате Flow,
51
что искусственно создаст рамки для пользователя приложением. Единственным, что
останется сделать, - это опубликовать результат в интернете, не потеряв интерактивную
форму. В зависимости от продукта Tableau это делается по-разному, в нашем случае
воспользуемся бесплатной возможностью публикации в продукте Public. Для этого
необходимо создать extract-файлы каждой сущности, чтобы Public, который ограничен в
функциональных возможностях, смог прочитать их. После этого шага на вкладке Server
находим поле Save to Tableau Pablic. Итоговый результат опубликован в сети Интернет.
52
Заключение
На основании данных ИА «ИНФОЛайн-Аналитика» выделены целевые группы
потенциальных стейкхолдеров проекта, обоснован выбор тех или иных источников, а также
сформирован алгоритм, включающий аналитический план работы с данными, что может
позволить существенно снизить затраты на проведение маркетинговых исследований
товарных рынков, при участии данных внешнеторгового оборота.
Формирование
подобного
алгоритма
-
процесс
трудоемкий
и
не
всегда
оправдывающий затраченное время, так как существует вероятность того, что при
масштабируемости или передаче на исполнение он окажется не пригодным по ряду причин.
Когда такого рода алгоритм реализуется с участием новых для компании программных
продуктов, есть вероятность, что он воспримется негативно будущими исполнителями или
начальством, но, тем не менее, стоит отметить, что реализованная работа может принести
свои плоды, как минимум, по факту делегирования полномочий при исполнении,
В целом, в нашем алгоритме проработан действенный вариант обработки информации
и формирования соответствующих полей; разработанный макрос позволяет экономить от
трех рабочих дней на обработку и вычленение численных данных из таблиц таможенных
деклараций. Получившееся бизнес-приложение, как результат разработанного алгоритма,
реализован наиболее полно для того, чтобы можно было выбрать, что оставить для
коммерческого продукта, а что для демонстрации клиентам с целью формирования
интереса к исследованию в целом. Отчет предусматривает возможность выделения
интересующих групп данных и копирования их в буфер обмена. Ввиду интерактивности
всех видов графиков и таблиц, по отчету можно формулировать собственные гипотезы,
отталкивающиеся от фактических визуально представленных данных. Возможность
публикации приложения с обновлением в установленные сроки и периодичность позволяет
легко распространять информацию об исследовании при помещении результата на
тематические сайты и форумы. Все это в целом говорит об успешной реализации
поставленных задач и цели работы. Ознакомиться с приложением можно на сайте Tableau
Public по ссылке на странице профиля автора:
https://public.tableau.com/profile/dmitry2592#!/
53
Список использованных источников
Монографии, учебники, учебные пособия
1. В.Л. Аббакумов, Т.А. Лезина. Бизнес-анализ информации. Статистические методы.
- М.: ЗАО «Издательство «Экономика», 2009. — 374 с. — (Учебники
экономического факультета СПбГУ). ISВN 978-5-282-02918-5
2. Паклин Н.Б. Орешков В.И. Бизнес-аналитика: от данных к знаниям: Учебное
пособие. –СПб.: Питер, 2013. – 704с. ISBN 978-5-459-00717-6
3. Ashutosh Nandeshwar. Tableau Data Visualization Cookbook. – Packt Publishing, 2013.
– ISBN 978-1-84968-978-6
4. Ben Jones. Communicating data with Tableau. – O’Reilly Media, 2014. – ISBN
1449372023
5. Jen Stirrup. Tableau dashboard Cookbook. – Packt Publishing, 2014. – ISBN 1782177906
Статьи в журналах и других периодических изданиях
1. Максим Крупенин. Pro Tableau. Визуальная аналитика для бизнеса// DataReview. –
2016. – URL: http://datareview.info/article/pro-tableau-vizualnaya-analitika-dlya-biznesa/
2. Экономика России, цифры и факты. Часть 8 Металлургия// UTMagazine.ru аналитический портал для трейдеров, всё для обучения трейдингу и стратегиям
торговли на любых рынках. — 2015. — URL: http://utmagazine.ru/posts/10561ekonomika-rossii-cifry-i-fakty-chast-8-metallurgiya
3. Andrew Dlugan. How to Improve Your PowerPoint Slides with the Rule of Thirds// Six
Minutes: Public Speaking and Presentation Skills Blog.
– 2009. – URL:
http://sixminutes.dlugan.com/rule-of-thirds-powerpoint/
4. Dr. Abela. Choosing a good chart// The Extreme Presentation(tm) Method. – 2006. – URL:
http://extremepresentation.typepad.com/blog/2006/09/choosing_a_good.html
5. Graham Kenny. Five Questions to Identify Key Stakeholders// Harvard Business Review.
– 2014. – URL: https://hbr.org/2014/03/five-questions-to-identify-key-stakeholders
6. Nancy Duarte. Five Presentation Mistakes Everyone Makes// Harvard Business Review. –
2012. – URL: https://hbr.org/2012/12/avoid-these-five-mistakes-in-y
Статистические сборники и отчеты
1. Josh Parenteau, Rita L. Sallam, Cindi Howson, Joao Tapadinhas, Kurt Schlegel, Thomas
W. Oestreich. Magic Quadrant for Business Intelligence and Analytics Platforms//
Официальный
сайт
консалтинговой
компании
Gartner.
–
2016.
–
URL:
https://www.gartner.com/doc/reprints?id=1-2XXKCD7&ct=160204&st=sb
54
Электронные ресурсы и документы
1. Классификатор таможенных процедур// TKS.RU - всё о таможне. Российский
таможенный портал. [Электронный ресурс]. – URL: http://www.tks.ru/2007/class1.
(Дата обращения: 02.04.2016).
2. Объект RegExp// Разработка скриптов. [Электронный ресурс]. – URL:
http://www.script-coding.com/WSH/RegExp.html. (Дата обращения: 24.03.2016).
3. Обучение визуализации данных в BI-системе Tableau. Официальный сайт
Tableau. [Электронный ресурс]. – URL: http://www.tableau.com/learn/training
4. Отраслевой портал Черной металлургии России. [Электронный ресурс]. URL:
http://www.russianmet.ru/. (Дата обращения: 23.03.2016).
5. Перечень таможенных органов// Официальный сайт Федеральной таможенной
службы
РФ.
[Электронный
ресурс].
–
URL:
http://www.customs.ru/index.php?id=14237&option=com_content&view=article.
(Дата обращения: 02.04.2016).
6. Приказ ФНС России от 27.07.2012 N ММВ-7-13/524 // Официальный сайт
компании
«КонсультантПлюс».
[Электронный
ресурс].
–
URL:
http://www.consultant.ru/document/cons_doc_LAW_134785/d798e5e0e9a45a3533a
6051fb21c3c3b579078f9/. (Дата обращения: 02.04.2016).
7. Продукт Tableau Server// TAdviser - портал выбора технологий и поставщиков.
[Электронный ресурс]. – URL:
http://tadviser.ru/a/164815. (Дата обращения:
29.04.2016).
8. ERDPlus. A database modeling tool for creating Entity Relationship Diagrams,
Relational Schemas, Star Schemas, and SQL DDL statements. [Электронный ресурс].
– URL: https://erdplus.com/#/diagrams. (Дата обращения: 25.04.2016).
9. «InfoLine» — информационно-аналитическое агентство. [Электронный ресурс].
– URL: http://infoline.spb.ru/. (Дата обращения: 18.03.2016).
55
Приложения
Приложение 1. Макрос, определяющий необходимую численную
информацию из текстовых полей. Основа: «регулярное выражение»
Private Sub SearcBtn_Click()
Dim userPattern As String
userPattern = SearchTxt.Text
Dim lastRow As Long 'calculate number of the last used row
lastRow = ActiveSheet.UsedRange.Row - 1 + ActiveSheet.UsedRange.Rows.count
Dim lastColumn As Integer 'calculate number of the last used column
lastColumn = ActiveSheet.Cells(1, ActiveSheet.Columns.count).End(xlToLeft).Column
Dim currentRow As Long
currentRow = ActiveCell.Row
'set title of new column
ActiveSheet.Cells(1, lastColumn + 1).Value = ColTitleTxt.Text
Dim pattern As String 'build pattern
pattern = "[[0-9]+(?:(\,|\.)[0-9]+)?"
If SpacesCheck.Value Then pattern = pattern & "\s*"
pattern = pattern & userPattern
Dim resultSum As Double
For Each cell In Selection
If currentRow <> 1 Then
resultSum = ParseText(cell, pattern, userPattern, RegCheck.Value)
If resultSum = -1 Then
ActiveSheet.Cells(currentRow, lastColumn + 1).Value = DefaultValTxt.Text
Else
ActiveSheet.Cells(currentRow, lastColumn + 1).Value = resultSum
End If
If currentRow = lastRow Then Exit For
56
End If
currentRow = currentRow + 1
Next cell
ParserForm.Hide
End Sub
Private Function ParseText(ByVal src As String, pattern As String, userPattern As String,
ignoreCase As Boolean) As Double
Set regex = CreateObject("VBScript.RegExp")
With regex
.ignoreCase = ignoreCase 'ignoring cases while regex engine performs the search
.pattern = pattern 'declaring regex pattern
.Global = True
'restricting regex to find only first match
If .Test(src) Then 'Testing if the pattern matches or not
Dim result As Double
result = 0
Set matches = .Execute(src)
With matches
For myMatchCt = 0 To .count - 1
Dim tmpVal As String
tmpVal = Replace(matches.Item(myMatchCt), userPattern, "", 1, -1,
vbTextCompare)
tmpVal = Replace(tmpVal, ".", ",") 'fix VB double parsing
result = result + CDbl(tmpVal)
Next
End With
ParseText = result
Else
ParseText = -1
End If
End With
End Function
57
Отзывы:
Авторизуйтесь, чтобы оставить отзыв