Николаев Никита
Петрозаводский государственный университет
Проблема открытых данных по коммерческим организациям
Аннотация
Статья посвящена исследованию объекта Викиданных «коммерческие организации». С помощью SPARQLзапросов, вычисляемых на объектах типа «коммерческие организации» в Викиданных, решены такие
задачи: выведен список с распределением организаций по отраслям в виде пузырьковой диаграммы,
построен граф существующих организаций и их дочерних организаций и получена информация о количестве организаций в различных странах. Сделаны выводы по поводу полноты Викиданных по данной
теме и построена карта организаций мира.
Примечание
Статья распространяется по лицензии Creative Commons Attribution-ShareAlike. Материалы этой статьи использованы в главе курса Викиверситета «Программирование Викиданных» [2]. Иллюстрации
загружены на Викисклад. Научный руководитель к.т.н. Крижановский А.А.
Экземпляры объекта "Коммерческие организации"
Используются:
• Объект: business enterprise (Q4830453) (коммерческая организация).
Список всех коммерческих организаций (листинг 1).
1
2
3
4
5
6
7
8
#added 2017−02
#L i s t o f ‘ i n s t a n c e s o f ‘ " b u s i n e s s e n t e r p r i s e "
SELECT ? l a n g ? l a n g L a b e l
WHERE
{
? l a n g wdt : P31 wd : Q4830453 .
SERVICE w i k i b a s e : l a b e l { bd : s e r v i c e P a r a m w i k i b a s e : l a n g u a g e " en " }
}
Листинг 1: Список всех коммерческих организаций
SPARQL-запрос, 109383 записей.
Наиболее полными и проработанными по теме коммерческие организации на Викиданных являются:
Google, Apple, Microsoft.
Почти пустыми и малоинформативными организацями оказались: Pininfarina, ANHUI EXPRESSWAY
COMPANY LIMITED, Futura et Marge.
Безымянные объекты
Недостаток полученного списка в том, что ряд объектов получился безымянным на Викиданных (No
label defined). Попробуем получить список организаций, у которых поле «label» будет непустым. (Листинг 2)
1
2
3
4
5
6
#L i s t o f ‘ i n s t a n c e s o f ‘ " b u s i n e s s e n t e r p r i s e " o n l y with a l a b e l .
SELECT ? item ? i t e m _ l a b e l
WHERE
{
? item wdt : P31 wd : Q4830453
; r d f s : l a b e l ? item_label .
7
FILTER (LANG( ? i t e m _ l a b e l ) = " en " ) .
8
9
}
Листинг 2: Список организаций, у которых указано имя в Викиданных на английском языке
SPARQL-запрос, 74556 записей.
1
Распределение организаций по отраслям
Каждая организация специализируется на какой-либо отрасли. Для того чтобы понять, какая отрасль
является самой популярной на данной момент вычислим число организаций, работающих в этой отрасли (листинг 3).
Результаты представлены в виде пузырьковой диаграммы (рис. 3).
Используются:
• Объект: business enterprise (Q4830453) (коммерческая организация).
• Свойство: industry (P542) (отрасль).
1
2
3
4
5
6
7
8
9
10
11
12
13
14
#e n t e r p r i s e i n d u s t r y r a n k i n g
#d e f a u l t V i e w : BubbleChart
SELECT ? i n d u s t r y ? company ( count ( ∗ ) a s ? count )
WHERE
{
? o r g wdt : P31 wd : Q4830453 .
? o r g wdt : P452 ? i n d u s t r y .
OPTIONAL {
? i n d u s t r y r d f s : l a b e l ? company
f i l t e r ( l a n g ( ? company ) = " en " )
}
}
GROUP BY ? i n d u s t r y ? company
ORDER BY DESC( ? count ) ASC( ? company )
Листинг 3: Пузырьковая диаграмма распределения организаций по отраслям
SPARQL-запрос, 864 записи.
Проанализировав данную диаграмму (рис. 1), можно сделать вывод о количестве организаций, специализирующихся в той или иной отрасли. На основе (рис. 1) построим таблицу, включающую 5 самых
популярных отраслей.
Название отрасли
Автомобильная промышленность
Розничная торговля
Телекоммуникации
Видеоигры
Обрабатывающая промышленность
Количество организаций
1149
843
648
633
506
Таблица 1: Топ-5 самых популярных отраслей
2
Рис. 1: Пузырьковая диаграмма организаций мира по отраслям
Ответим на следующий вопрос: «Какие и сколько отраслей существуют в России?» с помощью
запроса, представленного на листинге 4.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
#e n t e r p r i s e i n d u s t r y r a n k i n g i n R u s s i a
#d e f a u l t V i e w : BubbleChart
SELECT ? i n d u s t r y ? company ( count ( ∗ ) a s ? count )
WHERE
{
? o r g wdt : P31 wd : Q4830453 .
? o r g wdt : P452 ? i n d u s t r y . #i n d u s t r y
? o r g wdt : P17 wd : Q159 . #R u s s i a c o u n t r y
OPTIONAL {
? i n d u s t r y r d f s : l a b e l ? company
f i l t e r ( l a n g ( ? company ) = " en " )
}
}
GROUP BY ? i n d u s t r y ? company
ORDER BY DESC( ? count ) ASC( ? company )
Листинг 4: Запрос на построение пузырьковой диаграммы распределения организаций по отраслям в
России
SPARQL-запрос, 60 записей.
Из таблицы 2 делаем вывод, что такая отрасль, как розничная торговля, в России существенно
преобладает над остальными. Если количество организаций в этой области достигает 78, то в следующей
по счету отрасли (автомобильной промышленности) работает только 13 организаций.
Для сравнения России построим список существующих отраслей какой-нибудь другой страны , например, Норвегии (листинг 5).
1
2
3
4
#e n t e r p r i s e i n d u s t r y r a n k i n g i n Norway
#d e f a u l t V i e w : BubbleChart
SELECT ? i n d u s t r y ? company ( count ( ∗ ) a s ? count )
WHERE
3
Рис. 2: Пузырьковая диаграмма организаций России по отраслям
5
6
7
8
9
10
11
12
13
14
15
{
? o r g wdt : P31 wd : Q4830453 .
? o r g wdt : P452 ? i n d u s t r y .
? o r g wdt : P17 wd : Q20 . #Norway c o u n t r y
OPTIONAL {
? i n d u s t r y r d f s : l a b e l ? company
f i l t e r ( l a n g ( ? company ) = " en " )
}
}
GROUP BY ? i n d u s t r y ? company
ORDER BY DESC( ? count ) ASC( ? company )
Листинг 5: Диаграмма распределения организаций по отраслям в Норвегии
SPARQL-запрос, 41 запись.
В Норвегии преобладающей отраслью является manufacturing (производство).
Количество организаций по странам
Напишем SPARQL-запрос для получения количества коммерческих организаций в каждой стране мира
(листинг 6).
Используются:
• Объект: business enterprise (Q4830453) (коммерческая организация).
• Свойство: country (P17) (страна).
4
Название отрасли
Розничная торговля
Автомобильная промышленность
Оружейная промышленность
Аэрокосмическая промышленность
Видеоигры
Количество организаций
78
13
10
9
9
Таблица 2: Топ-5 самых популярных отраслей в России
1
2
3
4
5
SELECT ? c o u n t r y L a b e l ( count ( ? o r g ) a s ? count )
WHERE
{
? o r g wdt : P31 wd : Q4830453 .
? o r g wdt : P17 ? c o u n t r y .
6
SERVICE w i k i b a s e : l a b e l { bd : s e r v i c e P a r a m w i k i b a s e : l a n g u a g e " en " }
}
GROUP BY ? c o u n t r y ? c o u n t r y L a b e l
ORDER BY DESC ( ? count )
7
8
9
10
Листинг 6: Количество организаций в каждой стране мира
SPARQL-запрос, 198 записей.
В полученном списке Россия находится на 17-ом месте(614 организаций). Лидером является США(14
658 организаций).
Организации и их дочерние организации
Построим граф из существующих организаций, а также их дочерних организаций (листинг 7).
Используются:
• Объект: business enterprise (Q4830453) (коммерческая организация).
• Свойство: subsidary (P355) (дочерняя организации).
1
2
3
4
5
6
7
#s u b s i d a r y graph
#d e f a u l t V i e w : Graph
SELECT ? o r g ? o r g L a b e l ? s u b s i d a r y ? s u b s i d a r y L a b e l
WHERE
{
? o r g wdt : P31 wd : Q22687
; r d f s : l a b e l ? item_label .
8
SERVICE w i k i b a s e : l a b e l { bd : s e r v i c e P a r a m w i k i b a s e : l a n g u a g e " en " }
OPTIONAL { ? o r g wdt : P355 ? s u b s i d a r y . }
FILTER (LANG( ? i t e m _ l a b e l ) = " en " )
9
10
11
12
}
Листинг 7: Построение графа родительских и дочерных организаций
SPARQL-запрос, 428 записей(рёбер).
Полученный граф соседей (рис. 2) состоит из висячих вершин и изолированных. Присутствие изолированных вершин, пожалуй, является недостатком полученного запроса. Необходимо построить такой
граф, чтобы в нем отсутствовали эти вершины (листинг 8).
1
2
3
4
5
6
7
8
#s u b s i d a r y graph
#d e f a u l t V i e w : Graph
SELECT ? o r g ? o r g L a b e l ? s u b s i d a r y ? s u b s i d a r y L a b e l
WHERE
{
? o r g wdt : P31 wd : Q22687
; r d f s : l a b e l ? item_label .
? o r g wdt : P355 ? s u b s i d a r y .
9
10
SERVICE w i k i b a s e : l a b e l { bd : s e r v i c e P a r a m w i k i b a s e : l a n g u a g e " en " }
5
Рис. 3: Диаграмма дочерних организаций мира
11
FILTER
12
13
(LANG( ? i t e m _ l a b e l ) = " en " )
}
Листинг 8: Построение графа родительских и дочерных организаций без висячих вершин
SPARQL-запрос, 55 записей.
Полнота Викиданных
По данным категории Компании по алфавиту Русской Википедии существует, как минимум, 10 272
коммерческие организации. Их количество изменяется с каждым днем (обычно, увеличивается) ввиду
появления новых организаций, которые заносятся в данный список.
По данным категории List of companies of Russia Английской Википедии в Росиии существует как
минимум 208 коммерческих организаций. В этой категории перечислен рейтинг крупнейших компаний России по объему реализации продукции. Можно сделать вывод, что даже крупные организации(Яндекс, Тинькофф) не вошли в данный список, не говоря уже про мелкие и средние.
Невозможно получить релевантные данные о количестве коммерческих организаций, так как их
количество растёт с каждым днём, а данные о них не хранятся в открытом доступе. Взять, к примеру,
Единый государственный реестр юридических лиц(ЕГРЮЛ), который предоставляет данные за плату
[1].
"Количество коммерческих организаций, внесенных в госреестр как вновь созданных, в 2014 году составило 420,5 тыс."свидетельствуют данные на сайте Федеральной налоговой службы России.
З0 июня 2015 года вступили в силу приказы Минфина России о том, что данные об имеющихся организациях и информация по ним больше не распространяется в открытом доступе. Данные могут
быть предоставлены только органам государственной власти, иным государственным органам, органам
местного самоуправления и так далее. Поэтому получить достоверные данные о количестве имеющихся
организаций не представляется возможным.
Оценим полноту информации о коммерческих организациях на Викиданных. Необходимо вспомнить
цифру, полученную вначале, об общем количестве организаций на Викиданных (около 110 000). Найдем
иллюстрации, соответствующие организациям с помощью запроса из листинга 9.
1
#L i s t o f o r g a n i z a t i o n s with image
2
3
4
5
6
SELECT ? o r g ? o r g L a b e l ? image
WHERE
{
? o r g wdt : P31 wd : Q4830453 . #i n s t a n c e o f o r g s
6
? o r g wdt : P18 ? image #has image
7
8
SERVICE w i k i b a s e : l a b e l { bd : s e r v i c e P a r a m w i k i b a s e : l a n g u a g e " en " }
9
10
}
Листинг 9: Организации с изображением
SPARQL-запрос, 2913 записей.
Количество организаций с изображением равно 2 913, что составляет 3
Оценим количество заполненных свойств у коммерческих организаций на Викиданных. Результат
в табл. 3. Например inception(Дата создания) указано у 31 организаций, что составляет 31
Имя свойства
inception (Дата создания)
founded by (Кем основана)
subsidiary (Дочерние организации)
image (Изображение)
location (Географические координаты)
motto (Девиз)
Количество результатов
30995
5722
3398
2913
577
2
Таблица 3: Свойства объекта «Коммерческая организация» на Викиданных и их заполненность.
Результаты данной таблицы (табл. 3) говорят о том, что количество необходимой информации об
организациях очень мало, учитывая их общее количество на Викиданных.
Исследуем полноту представления российских организаций в Викиданных (листинг 10).
1
#L i s t o f o r g a n i z a t i o n s
2
3
4
5
6
7
SELECT ? o r g ? o r g L a b e l
WHERE
{
? o r g wdt : P31 wd : Q4830453 . #i n s t a n c e o f o r g a n i z a t i o n s
? o r g wdt : P17 wd : Q159 . #R u s s i a c o u n t r y
8
SERVICE w i k i b a s e : l a b e l { bd : s e r v i c e P a r a m w i k i b a s e : l a n g u a g e " en " }
9
10
}
Листинг 10: Организации России
SPARQL-запрос, 577 записей.
В Викиданных представлено 577 отечественных организаций Отобразим на карте те российские
организации, у которых указан географические координаты (листинг 11).
1
2
#Map o f o r g a n i z a t i o n s
#d e f a u l t V i e w : Map
3
4
5
6
7
8
9
SELECT
WHERE
{
? org
? org
? org
? org ? orgLabel ? l o c a t i o n
wdt : P31 wd : Q4830453 . #i n s t a n c e o f o r g s
wdt : P17 wd : Q159 . #R u s s i a c o u n t r y
wdt : P625 ? l o c a t i o n #d i s p l a y l o c a t i o n
10
SERVICE w i k i b a s e : l a b e l { bd : s e r v i c e P a r a m w i k i b a s e : l a n g u a g e " en " }
11
12
}
Листинг 11: Карта организаций России
SPARQL-запрос, 9 записей.
В результате оказалось очень мало записей с географическими координатами в России. Получить
карту организаций не только России, но и всех организаций в мире можно с помощью следующего
скрипта (листинг 12).
1
2
#L i s t o f o r g a n i z a t i o n s
#d e f a u l t V i e w : Map
3
4
SELECT ? o r g ? o r g L a b e l ? l o c a t i o n
7
5
6
7
8
WHERE
{
? o r g wdt : P31 wd : Q4830453 . #i n s t a n c e o f o r g s
? o r g wdt : P625 ? l o c a t i o n
9
SERVICE w i k i b a s e : l a b e l { bd : s e r v i c e P a r a m w i k i b a s e : l a n g u a g e " en " }
10
11
}
Листинг 12: Карта организаций мира
SPARQL-запрос, 511 записей.
Результат (рис. 3), опять-таки, очень скромный, всего лишь 511 организаций. Количество выведенных организаций с координатами даже меньше, чем общее количество всех организаций в России.
Рис. 4: Карта организаций мира
Проанализировав полученные данные, можно сделать вывод, что данные об организациях на Викиданных заполнены лишь частично. Не имеется достаточной информации, чтобы делать какие-то
определенные выводы насчет организаций и их составляющих. Наличие авторитетных источников,
неаффилированных и общедоступных крайне мало, а это главный козырь для создания статьи об организации в Википедии и Викиданных.. Но информация даже о таких крупнейших организациях (Apple,
Microsoft, Intel) не полна и нуждается в доработке (например, у организации Intel не указан девиз).
8
Список литературы
[1] Access to egrul // federal tax service of russia. — https://www.nalog.ru/rn77/service/egrip2. —
2017. — Accessed 06 June 2017.
[2] Business enterprise. research in programming wikidata [kommercheskie organizacii].
9
Отзывы:
Авторизуйтесь, чтобы оставить отзыв