Министерство науки и высшего образования Российской Федерации
Федеральное государственное бюджетное образовательное учреждение
высшего образования «Петрозаводский государственный университет»
Институт математики и информационных технологий
Кафедра теории вероятностей и анализа данных
(подпись соискателя)
Трубина Елизавета Денисовна
Выпускная квалификационная работа бакалавра
Ранжирование отечественных математиков и научных
сообществ мира
Направление 01.03.02 Прикладная математика и информатика
Научный руководитель:
к.т.н. А. А. Крижановский
(подпись руководителя)
Петрозаводск — 2021
Содержание
Введение
3
1 Обзор Викиданных
5
1.1
Об исследовании Викиданных . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.2
Неоднозначность объекта Викиданных . . . . . . . . . . . . . . . . . . . . . .
6
1.3
Качество Викиданных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
2 Анализ академий
8
2.1
Географический анализ академий . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2
Изменение количества академий при переходе от Российской империи к
СССР, а затем — к России . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3
Тематический анализ академий . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3 Персоны Викиданных
18
3.1
Вычисление продолжительности жизни
. . . . . . . . . . . . . . . . . . . . . 19
3.2
Программа для определения количества математиков на определенный год . 20
3.3
Программа для определения продолжительности жизни математиков . . . . 23
3.4
Методика визуализации Викиданных на языке Python . . . . . . . . . . . . . 26
4 Ранжирование математиков и академий
26
4.1
Эвристики (опытные правила для математиков и академий) . . . . . . . . . 28
4.2
Ранжирование ученых по Викиданным . . . . . . . . . . . . . . . . . . . . . . 29
4.3
4.2.1
Foreign label — наличие перевода на иностранные языки . . . . . . . . 30
4.2.2
Свойство «P188 (award received)» . . . . . . . . . . . . . . . . . . . . . 32
4.2.3
Формула для вычисления рейтинга математиков . . . . . . . . . . . . 34
Вычисление рейтинга математиков и академий с помощью алгоритма PageRank 36
4.3.1
Свойства «P184 (doctoral advisor)» и «P1066 (student of)» . . . . . . 37
4.3.2
Свойство «P463 (member of)» . . . . . . . . . . . . . . . . . . . . . . . 38
4.3.3
Вычисление рейтинга отечественных математиков и академий на основе алгоритма PageRank . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.4
Оценка качества рейтинга ученых . . . . . . . . . . . . . . . . . . . . . . . . . 40
Список использованной литературы
43
2
Введение
Постановка задачи
Работа посвящена анализу данных проекта Викиданные. Викиданные — это многоязычная, свободная, совместно редактируемая база данных, в которой собрана структурированная информация для обеспечения поддержки Википедии, Викисклада, а также
других вики-проектов Викимедиа по всему миру.
Работа построена на основе информации о математиках и научных сообществах, в
которые входят исследуемые персоны. В первую очередь исследуем отечественных математиков (персоны в базе данных, у которых в поле свойства «гражданство» указаны либо
Российская империя, либо СССР, либо Россия).
Цель работы — ранжирование отечественных математиков и академий, к которым
относятся исследуемые персоны, на основе информации из Викиданных.
Задачи:
1. Получить список отечественных математиков с помощью Викиданных;
2. Ранжировать отечественных математиков различными методами;
3. Вычислить продолжительность жизни математиков с помощью Викиданных и языка
программирования Python;
4. Определить основные типы исследуемых научных организаций;
5. Провести географический и тематический анализ научных сообществ;
6. Вычислить рейтинги научных сообществ на основе алгоритма PageRank.
Викиданные
Викиданные — это структурированная и совместно редактируемая база данных, созданная Фондом Викимедиа. Проект был официально запущен 30 октября 2012 года,
его разработка ведется под руководством Wikimedia Deutschland [28]. Проект создавался за счёт пожертвований Allen Institute for Artificial Intelligence, Gordon and Betty Moore
Foundation и Google. В данный момент Викиданные — это бесплатная и свободная база
знаний, которая может использоваться и редактироваться людьми и машинами [27].
Любой объект Викиданных имеет свой уникальный идентификатор и свойства. Эта
информация может быть обработана с помощью компьютера, и при этом она понятна
3
пользователям. Сайт Викиданных содержит сервис «Wikidata Query», включающий набор инструментов для построения SPARQL-запросов и их визуализации в виде таблиц,
диаграмм, графов или географических карт.
Содержимое Викиданных распространяется по лицензии Creative Commons CC0, которая позволяет повторно использовать информацию самыми разными способами: пользователи могут копировать, изменять, распространять и обрабатывать эти данные в любых
целях. Еще одна особенность Викиданных — это многоязычность. Любой человек может
редактировать Викиданные более чем на 350 языках.
Викиданные постоянно обновляются, добавляются новые объекты. Сейчас насчитывается более 63 миллионов страниц и более 883 миллионов правок. 15 марта 2019 года в
Викиданных была совершена 883 173 631 правка, что превзошло количество правок в английской Википедии и сделало Викиданные наиболее редактируемым сайтом Викимедиа
[30].
Объект «математик» в Викиданных
Цель данного раздела состоит в том, чтобы получить список отечественных математиков на основе информации из базы Викиданные с помощью SPARQL-запроса [29].
Основные объекты Викиданных в запросе — это персоны с «родом занятий» (свойство
Викиданных P106) «математик» (объект Викиданных Q170790) и гражданством России,
СССР или Российской Империи (см. Листинг 1). Результат запроса составил 2085 отечественных математика.
Листинг 1: Список отечественных математиков
SELECT ?mathematician ?mathematicianLabel WHERE {
?mathematician wdt:P106 wd:Q170790.
#country of citizenship # mathematicians
{ ?mathematician wdt:P27 wd:Q34266 } UNION # Russian Empire
{ ?mathematician wdt:P27 wd:Q15180 } UNION # Soviet Union
{ ?mathematician wdt:P27 wd:Q159 }. # Russia
SERVICE wikibase:label { bd:serviceParam wikibase:language "ru" }
}
GROUP BY ?mathematician ?mathematicianLabel
4
1
Обзор Викиданных
1.1
Об исследовании Викиданных
В работе «A large-scale collaborative ontological medical database » [8] описываются плюсы использования Викиданных для создания крупномасштабной совместной медицинской
база данных. Основные требования к создаваемой базе данных — это платформа с обновлением в реальном времени, подходящая лицензия для последующего использования
полученной информации, свободное редактирование на любом языке. Именно это и есть
основные характеристики Викиданных. Во-первых, Викиданные — это открытая, редактируемая база знаний. Любой пользователь без навыков программирования может вносить
изменения более чем на 350 языках и диалектах. Во-вторых, информация постоянно обновляется, добавляются новые объекты. В настоящее время Викиданные насчитывают
более 18000 редакторов. В-третьих, лицензия Creative Commons CC0 обеспечивает широкое использование полученной информации.
Есть несколько альтернативных вариантов баз знаний:
1. Cyc — проект компании Cycorp (Остин, США) по созданию онтологической базы
знаний, позволяющий решать задачи из области искусственного интеллекта [10].
Сейчас Cyc имеет исследовательскую лицензию ResearchCyc. У данной базы знаний есть некоторые недостатки: сложность системы (сложность добавления данных
вручную), недостаток документации для изучения системы, неполнота системы.
2. Evi (ранее True Knowledge [26]) – технологическая компания в Кембридже (Англия),
которая специализируется на базе знаний и программном обеспечении семантического поиска. Добавление информации в базу знаний осуществляется двумя способами: импорт из «заслуживающих доверия» внешних баз данных (например: Википедия) и из представления пользователей в соответствии с единообразным форматом
и подробным процессом ввода. Как и в Википедии, пользователь может изменять
данные, «соглашаться» или «не соглашаться» с информацией, представленной True
Knowledge. Система может отклонить любые факты, которые семантически несовместимы с другими утвержденными знаниями, в отличие от Викиданных, где могут
храниться противоречивые данные.
По мнению авторов статьи, Викиданные являются лучшим вариантом для обработки
информации, т.к. можно связывать объекты через их свойства (экземпляр P31, подкласс
5
279, часть P361, имеет часть P527), создавать SPARQL-запросы, визуализировать их результаты в виде таблиц, графов, диаграмм или сохранять в нужном формате (CSV, JSON,
SVG).
Таким образом, авторы призывают обратить внимание на Викиданные, которые могут
взять на себя роль централизованного хранилища данных. В статье «Falcon 2.0: An Entity
and Relation Linking Tool over Wikidata» [12] приводится пример использования Викиданных в качестве централизованной и общедоступной базы знаний для системы FALCON
2.0. Это инструмент, связывающий сущность и отношения через Викиданные. Эта система идентифицирует сущности в коротком тексте или вопросе, а затем связывает их с
соответствующими URL в графе знаний Викиданных.
1.2
Неоднозначность объекта Викиданных
Как говорилось ранее любой объект Викиданных имеет свойства. Одно из них — «P31»
(instance of — экземпляр класса). Оно определяет класс, к которому принадлежит объект.
В правилах Викиданных и в некоторых статьях [15], которые были найдены с помощью
сайта scholar.google.com [1], написано, что объекту соответствует один класс.
Но в ходе исследований было обнаружено, что это не всегда так. Оказалось, что некоторые объекты являются экземплярами совершенно разных классов. Например, Королевская шведская академия наук (Q191583) является экземплярами сразу трех классов:
академии наук, сооружении и королевской академии Швеции. На мой взгляд, такое определение классов в этом случае верно. Поскольку данный объект можно рассматривать как
организацию, целью которой является развитие науки, и как архитектурное сооружение.
Разрешением задачи о лексической многозначности занимался ученый Angela Fogarolli
из итальянского университета. Результаты исследований были представлены в виде статьи «Word Sense Disambiguation based on Wikipedia Link Structure» [13]. Автор выделяет
объекты неоднозначностей, которым соответствует нескольким классам в зависимости от
контекста и допускает наличие нескольких классов в свойстве «instance of».
1.3
Качество Викиданных
В докторской диссертации Alessandro Piscopo [18] рассказывается о социально-технических
процессах и качестве данных проекта Викиданные, в котором с даты запуска (2012 год)
произошли большие изменения. На данный момент редакторами проекта являются более
200 тысяч пользователей, которые сделали более 50 миллионов правок.
6
В диссертации рассказывается о том, что пользователи Викиданных имеют возможность добавлять отдельные фрагменты информация, выполнять редактирование через
различные интерфейсы и работать с такими платформами как Википедия, но при этом
они несут ответственность за поддержание схемы графа знаний. Однако эту работу должна выполнять команда обученных специалистов в соответствии с четко продуманными
методами. Эти действия осуществляются с помощью инструментов, которые составляют
техническую основу системы.
Особым инструментом как в Викиданных, так и в Википедии являются боты. Это части
программного обеспечения, которые автоматически могут выполнять различные действия
на платформе с большой скоростью (более тысячи правок в минуту). Их основная задача —
редактирование существующих данных, добавление и импорт новых из других ресурсов.
Боты создают отчеты, с помощью которых пользователь может исправлять некоторые
неточности.
Таким образом, боты являются одним из ключевых технических компонентов Викиданных. Пользователи добавляют и модифицируют данные, а также общаются между собой
с помощью веб-интерфейса Викиданных. Также доступны плагины, которые предупреждают редакторов, когда они собираются выполнить ревизию, которая может привести к
любым ошибкам в данных.
Также стоит обратить внимание на статью «Сетевая структура научных революций»,
в которой на примере Википедии рассматривается процесс формирования знаний в виде
постоянно растущих сетей из статей и их взаимосвязанных гиперссылок. Эта концепция
реализуется за счет заполнения пробелов в знаниях. Авторы сформулировали цель своей
работы в одном предложении: «The authors test theories of scientific progress on growing
concept networks and reveal data-driven conditions underlying breakthroughs», т.е. авторы
проверяют теории научного прогресса на растущих концептуальных сетях и раскрывают
управляемые данными условия, лежащие в основе прорывов [16].
В процессе исследований было проведено ранжирование всех статей Википедии на сети
по определенным критериям. Каждый узел сети соответствует определенной статье, имя
узла — это заголовок статьи, год рождения узла — это первый год, указанный во введении
или в разделе истории как год, когда концепция была задумана. Затем на основе текущего
состояния сетей были определены некоторые закономерности в эволюции этих структур
на протяжении времени и периоды, когда сеть наиболее быстро менялась.
Полученные результаты показали, что человеческие знания растут и как следствие
происходит постепенное изменение сетевой структуры (заполняются некоторые пробелы
7
в знаниях). Авторы статьи считают, что знания, обнаруженные при заполнении пробелов,
будут иметь важное значения для научных инноваций.
Данная статья имеет непосредственное отношение к качеству Викиданных, потому что
информация для Викиданные чаще всего берется из Википедии. Если будут заполнены
пробелы в Википедии, то новые данных обязательно буду добавлены в Викиданные. Следовательно, база знаний будет более подробной.
2
Анализ академий
В этом разделе будем ранжировать академии, в которые входят отечественные мате-
матики, по тематикам и географическому расположению. В первую очередь, с помощью
SPARQL-запроса получаем список всех организаций, в которые входят исследуемые персоны (см. Листинг 2). В результате было выявлено 55 типов организаций.
Листинг 2: Типы организаций, включающих в качестве членов отечественных ученых,
обладающих свойством "математик" в Викиданных
SELECT ?academy_class ?academy_classLabel
WHERE {
?mathematician wdt:P106 wd:Q170790.
#country of citizenship
{ ?mathematician wdt:P27 wd:Q34266 } UNION # Russian Empire
{ ?mathematician wdt:P27 wd:Q15180 } UNION # Soviet Union
{ ?mathematician wdt:P27 wd:Q159 }. # Russia
?mathematician wdt:P463 ?academy.
# which types of academies includes mathematicians
?academy wdt:P31 ?academy_class.
SERVICE wikibase:label { bd:serviceParam wikibase:language "en" }
}
GROUP BY ?academy_class ?academy_classLabel
Добавим в предыдущий SPARQL-запрос столбец с количеством отечественных математиков, относящихся к каждой организации (см. Листинг 3).
Листинг 3: Типы организаций с количеством отечественных математиков в них сходящих.
SELECT ?academy_class ?academy_classLabel(count (?mathematician) as ?count)
8
WHERE {
?mathematician wdt:P106 wd:Q170790.
#country of citizenship
{ ?mathematician wdt:P27 wd:Q34266 } UNION # Russian Empire
{ ?mathematician wdt:P27 wd:Q15180 } UNION # Soviet Union
{ ?mathematician wdt:P27 wd:Q159 }. # Russia
?mathematician wdt:P463 ?academy.
?academy wdt:P31 ?academy_class.
SERVICE wikibase:label { bd:serviceParam wikibase:language "en" }
}
GROUP BY ?academy_class ?academy_classLabel
Составим аналогичный запрос для математиков мира. Результат SPARQL-запроса —
240 организаций.
По листингу 3 видны особенности и сложность представления и обработки Викиданных. В полученном списке некоторые объекты не имеют отношения к науке: «архитектурное сооружение» и «организация». Музыкальные коллективы, производственные объединения, ДОСААФ являются организациями, которые не связаны с научной деятельностью
и в которые входят математики. Например, объект Викиданных «Royal Swedish Academy
of Sciences (Q191583)» является и академией наук, и архитектурным сооружением, поэтому было решено пропустить такие объекты, как: «архитектурное сооружение» и «организация». Для дальнейшей работы будем учитывать только первые шесть организаций
с наибольшим числом отечественных ученых и построим таблицу с их количеством (см.
Таблица 1).
Чтобы получить список филиалов для каждого типа исследуемых организаций, составим SPARQL-запрос. В листинг 3 укажем интересующую нас организацию, как объект
свойства P31 («instanse of»), а также добавим свойство P355 («subsidiary»), которое поможет выделить зависимые учреждения и организации (см. Листинг 4).
Листинг 4: Список филиалов академии наук.
SELECT ?academyLabel ?academy_class ?academy_classLabel
WHERE {
?mathematician wdt:P106 wd:Q170790. #country of citizenship
{ ?mathematician wdt:P27 wd:Q34266 } UNION # Russian Empire
9
{ ?mathematician wdt:P27 wd:Q15180 } UNION # Soviet Union
{ ?mathematician wdt:P27 wd:Q159 }. # Russia
?mathematician wdt:P463 ?academy.
?academy wdt:P31 wd:Q414147.
?academy wdt:P355 ?academy_class. # subsidiary of "academy of sciences"
SERVICE wikibase:label { bd:serviceParam wikibase:language "ru", "en" }
}
GROUP BY ?academyLabel ?academy_class ?academy_classLabel
Таблица 1: Исследуемые организации, в которые входят математики.
Academy
Label
class
Q414147
академия наук
Число
Число в РФ, СССР и РИ
в мире
( % к мировым)
6147
(1089) 17.7
3436
(212) 6.2
1255
(72)5.7
474
(50) 10.5
135
(40) 29.6
66
(34) 51.5
academy of sciences
Q955824
научное общество
learned society
Q748019
научное общество
scientific society
Q162633
академия
academy
Q31855
научно-исследовательский институт
research institute
Q2385804
образовательное учреждение
educational institution
Аналогично получим список академий, для которых родительскими компаниями являются организации из таблицы 1. В предыдущем листинге вместо свойства P355 («subsidiary»)
будем использовать свойство P749 («parent organization»). Листинг 5 — пример списка
академий для родительских компаний — академий наук.
Листинг 5: Список организаций, “родителями” которых являются академии наук.
SELECT ?academy_classLabel ?academy ?academyLabel
WHERE {
?mathematician wdt:P106 wd:Q170790. # occupation is mathematician
10
#country of citizenship
{ ?mathematician wdt:P27 wd:Q34266 } UNION # Russian Empire
{ ?mathematician wdt:P27 wd:Q15180 } UNION # Soviet Union
{ ?mathematician wdt:P27 wd:Q159 }. # Russia
?mathematician wdt:P463 ?academy. # member of academy
?academy wdt:P749 ?academy_class . # parent organization
?academy_class wdt:P31 wd:Q414147. # academy_class of sciences
SERVICE wikibase:label { bd:serviceParam wikibase:language "en" }
} GROUP BY ?academy_classLabel ?academy ?academyLabel
Результаты запросов (см. Листинги 3, 4, 5) для всех типов исследуемых организаций
оформим в виде таблицы (см.Таблица 2).
Академии наук из столбцов «subsidiary» и «parent organization» уже входят в общее количество организаций данного типа. Таким образом, в исследуемые организации не будут
включены их филиалы и организации, родителями которых они являются.
Таблица 2: Количество исследуемых типов организаций, их филиалов (свойство
«subsidiary») и родительских компаний (свойство «parent organization»).
Тип
Количество
Subsidiary
организации
Parent
Location
organization
academy of sciences
45
2
3
24
learned society
10
0
0
1 (Q1282089)
scientific society
9
0
0
1 (Q1282089)
research institute
2
0
0
0
educational institution
2
0
0
1
academy
2
0
0
1
В таблице 2 были определены такие организации, как академия и академия наук. Для
работы с этими понятиями нужно понимать разницу между ними. Обратимся к их определениям [4]:
1. Академия (свойство Викиданных «Q162633») — это выcшее нayчнoe или xyдoжecтвeннoe учpeждeниe. Например, Лондонское королевское общество (Royal Society).
2. Академия наук («Q414147») — некоммерческая организация, объединяющая людей,
занимающихся различными науками. Например, Российская академия наук (Russian
11
Academy of Sciences).
В дальнейшем для простоты изложения все шесть организаций из таблицы 1 будем называть «академиями».
2.1
Географический анализ академий
В этом разделе мы проведем географический анализ академий на основе их количества
в странах мира. Для этого составим SPARQL-запрос, который показан на листинге 6.
Результат запроса — 265 стран.
Листинг 6: Количество академий в странах мира.
SELECT ?country ?countryLabel (count(?academy) as ?count)
WHERE {
{?academy wdt:P31 wd:Q414147} UNION # academy of sciences
{?academy wdt:P31 wd:Q955824} UNION # learned society
{?academy wdt:P31 wd:Q748019} UNION # scientific society
{?academy wdt:P31 wd:Q31855} UNION # research institute
{?academy wdt:P31 wd:Q2385804} UNION # educational institution
{?academy wdt:P31 wd:Q162633}. # academy
?academy wdt:P17 ?country.
SERVICE wikibase:label { bd:serviceParam wikibase:language "ru" }
} GROUP BY ?countryLabel ?country
Рис. 1: Фрагмент дендрограммы результатов SPARQL-запроса (см. Листинг 6) с кластеризацией академий по их количеству в странах.
Изначально результат запроса был представлен в виде таблицы, состоящей из 3 столбцов: название объекта Викиданных, страна и количество академий. Для более наглядно12
го представления результатов был использован сервис визуализации данных RAWGraphs
[20].
Таблица 3: Список стран мира, имеющих больше 500 академий.
№
Страна
Количество академий
1
США
2244
2
Германия
2217
3
Бразилия
1236
4
Великобритания
995
5
Франция
919
6
Россия (подробнее см. раздел 2.2.2)
820
7
Китай
732
8
Индонезия
726
9
Испания
661
10
Япония
608
11
Индия
559
12
Польша
522
Для отображения на карте мира всех академий необходимо в листинг 6 добавить:
1. объект «отечественный математик» (?mathematician wdt:P27 wd:Q34266/Q15180/Q159);
2. переменную «location» в SELECT и GROUP BY;
3. комментарий «#defaultView:Map»;
4. строку «?academy wdt:P625 ?location #display location»;
5. комментарий «#defaultView:Map».
Результат такого запроса (38 академий) — карта мира с красными метками, при нажатии на которые появляется краткая информация об академии (название и место расположения). Количество академий, полученное с помощью данного запроча, меньше, чем
их суммарное количество из таблицы 2. Это не ошибка SPARQL-запрос, а особенность
Викиданных. У некоторых академий не заполнено свойство «location». Для получения
количества академий с заполненным свойством составим SPARQL-запрос, рассматривая
отдельно каждый тип исследуемых организаций. Результаты запросов в таблице 2.
13
Рис. 2: Карта всех академий, в которые входят отечественные математики, построенная
на основе свойства «location» (географические данные).
2.2
Изменение количества академий при переходе от Российской
империи к СССР, а затем — к России
Цель данного раздела — отслеживание динамики изменения количества академий с
течением времени. С помощью SPARQL-запроса получены следующие данные: в России
существует 816 академий, в СССР их было 330, а в Российской империи – 240. Таким
образом, суммарное количество академий равно 1386.
Однако результат SPARQL-запроса (см. Листинг 7), который также определяет суммарное число академий России, СССР и Российской империи на основе свойства Викиданных «P17» (страна), оказался другим: 979 академий. Возникло предположение, что
у некоторых академий в свойстве «P17» указано несколько стран. Для выявления таких
академий были построены SPARQL-запросы для поиска пересечения множеств академий.
Листинг 7: Академии России, СССР и Российской империи.
SELECT ?academy ?academyLabel
WHERE {
{?academy wdt:P31 wd:Q414147} UNION # academy of sciences
{?academy wdt:P31 wd:Q955824} UNION # learned society
{?academy wdt:P31 wd:Q748019} UNION # scientific society
{?academy wdt:P31 wd:Q31855} UNION # research institute
{?academy wdt:P31 wd:Q2385804} UNION # educational institution
14
{?academy wdt:P31 wd:Q162633}. # academy
#country
{ ?academy wdt:P17 wd:Q34266 } UNION # Russian Empire
{ ?academy wdt:P17 wd:Q15180 } UNION # Soviet Union
{ ?academy wdt:P17 wd:Q159 }. # Russia
SERVICE wikibase:label { bd:serviceParam wikibase:language "ru" }
}
GROUP BY ?academy ?academyLabel
При поиске пересечений академий двух стран был получен неожиданный результат:
1. При переходе от Российской империи к СССР было утрачено 108 академий, создано
198 академий, было сохранено 132 академий;
2. При переходе от СССР к России было утрачено 65 академий, была создана 551 академий, было сохранено 265 академий;
3. В Викиданных есть информация о 131 академии, которые были в Российской империи и есть в России.
Рис. 3: Пересечение множеств академий Российской империи, СССР и России.
При рассмотрении пересечения множеств академий не было учтено, что свойство Викиданых «P17 (страна)» может содержать все исследуемые страны. По этой причине был
составлен SPARQL-запрос для поиска таких объектов. Результат запроса — 121 академия, у которых в свойстве «страна» указаны все три страны (Россия, СССР и Российская
империя).
Таким образом, в результате работы с пересечением множеств было подтверждено
предположение, что в переломные моменты истории сократилось число академий. Бы15
ло найдено 165 академии, у которых в свойстве Викиданных «P17» указано две страны и
121 академия, у которых в свойстве Викиданных «P17» указано три страны.
2.3
Тематический анализ академий
В этом разделе будет получен список научных направлений для исследуемых академий
на основе свойств «field of work» (область работы) и «occupation» (род занятий), которые
указаны в Викиданных у отечественных математиков.
Сначала получим список всех возможных научных направлений для исследуемых персон (см. Листинг 8). Результат запроса — 188 направлений.
Листинг 8: Список научных направлений для отечественных математиков.
SELECT ?field_of_workLabel WHERE {
?mathematician wdt:P106 wd:Q170790.
{ ?mathematician wdt:P27 wd:Q34266 } UNION # Russian Empire
{ ?mathematician wdt:P27 wd:Q15180 } UNION # Soviet Union
{ ?mathematician wdt:P27 wd:Q159 }. # Russia
?mathematician wdt:P463 ?academy.
?mathematician wdt:P101 ?field_of_work.
SERVICE wikibase:label { bd:serviceParam wikibase:language "ru", "en". }
}
GROUP BY ?field_of_workLabel
Составим аналогичные SPARQL-запросы для каждого из шести исследуемых типов
академий (см. Листинг 10). Полученные результаты оформим в виде таблицы (см. Таблица 4) с указанием процентного соотношения количества научных направлений для каждого типа исследуемых организаций от их общего количества из листинга 8.
Листинг 9: Количество научных направлений для академий наук.
SELECT ?field_of_workLabel WHERE {
?mathematician wdt:P106 wd:Q170790.
{ ?mathematician wdt:P27 wd:Q34266 } UNION # Russian Empire
{ ?mathematician wdt:P27 wd:Q15180 } UNION # Soviet Union
{ ?mathematician wdt:P27 wd:Q159 }. # Russia
?mathematician wdt:P463 ?academy.
16
?academy wdt:P31 wd:Q414147. # academy of science
?mathematician wdt:P101 ?field_of_work.
SERVICE wikibase:label { bd:serviceParam wikibase:language "ru", "en". }
}
GROUP BY ?field_of_workLabel
Таблица 4: Количество научных направлений для всех академий.
Тип
Количество
Процент от общего
организации
научных направлений
количества направлений
academy of sciences
166
88%
learned society
77
40.9 %
scientific society
39
20.7 %
research institute
39
20.7 %
educational institution
34
18 %
academy
48
25.5 %
Таким образом, больше всего научных направлений существует в академиях наук (88%
от общего количества направлений для математиков).
Сравним по количеству научных направлений две академии наук (экземпляры класса
«academy of sciences»), в которые входят отечественные математики:
1. Q83172 — Российская академия наук (РАН)
2. Q651690 — Польская академия наук (ПАН)
Поскольку свойство «country» (Р17) у данных академий наук разное, то в дальнейшем
исследовании научных направлений будем рассматривать не только отечественных математиков, но и польских. Членами РАН являются 159 математиков, а ПАН — 31. Для получения списка научных направлений данных академий наук составим SPARQL-запросы
(см. Листинг 10) и запишем полученные результаты в таблицу 5.
Листинг 10: Направления подготовки для РАН.
SELECT ?field_of_workLabel(count(?mathematician) as ?count)
WHERE {
?mathematician wdt:P106 wd:Q170790.
{ ?mathematician wdt:P27 wd:Q34266 } UNION # Russian Empire
17
{ ?mathematician wdt:P27 wd:Q15180 } UNION # Soviet Union
{ ?mathematician wdt:P27 wd:Q159 } UNION # Russia
{ ?mathematician wdt:P27 wd:Q36 }. # Poland
?mathematician wdt:P463 wd:Q651690. # ?academy
?mathematician wdt:P101 ?field_of_work.
SERVICE wikibase:label { bd:serviceParam wikibase:language "ru", "en". }
}
GROUP BY ?field_of_workLabel
Результаты запросов: 131 научное направление для математиков РАН и 25 научных
направлений для математиков ПАН.
Таблица 5: Количество математиков, относящихся к научным направлениям РАН и ПАН.
field of work
Направление
РАН
ПАН
Q395
математика
89 (56 %)
20(64.5 %)
Q41217
механика
56(35 %)
2(6.5 %)
Q28575007
теория дифференциальных уравнений
51 (32 %)
3 (9.7 %)
Q156495
математическая физика
48 (30 %)
0 (0 %)
Q4455174
теория функций
32 (20 %)
0 (0 %)
Q7754
анализ
33 (20,4%)
2 (6.5%)
Q12479
теория чисел
30 (19 %)
3 (9.7 %)
Q3968
алгебра
25 (16 %)
0 (0 %)
Q5862903
теория вероятностей
25 (16 %)
2 (6.5 %)
Q190549
функциональный анализ
25 (16 %)
9 (29 %)
Количество научных направлений РАН в пять раз больше, чем в ПАН. Это объясняется тем, что мы искали направления через свойство «occupation» (P463) у математиков. К
ПАН относятся 31 математик и к РАН — 159. Исходя из полученных результатов, можно
сделать вывод, что количество научных направлений академии наук прямо пропорционально числу математиков, которые к ней относятся.
3
Персоны Викиданных
В Википедии и Викиданных хранится информация о важных персонах. Существуют
специальные «критерии значимости персоналий», которые определяют важность персоны
18
и наличие статьи о ней в Википедии на основе частных критериев значимости (деятели
искусства и культуры, деятели науки, техники и образования, т.д).
Для математиков определены шесть формальных критериев, выполнения одного из
которых достаточно для добавления в Википедию и Викиданные статьи об этой персоне,
и десять содержательных критериев, подтверждения двух или трех из которых достаточно
для включения статьи об математике в Википедию и Викиданные.
3.1
Вычисление продолжительности жизни
Существует два метода подсчета продолжительности жизни: статистический и биографический [5].
Статистический метод — это подсчет средней продолжительности жизни на основе
статистических данных о возрастном составе населения, о смертности и о числе живущих в каждой возрастной группе (начиная с первого года жизни человека). Эти данные
можно получить при переписи населения. Точность таких данных зависит от точности
статистического учета.
Биографический метод основывается не на статистических данных, а на данных о
фактической продолжительности жизни людей путем фиксации года рождения и смерти. Например, Леонард Эйлер родился в 1707 году и умер в 1783. Он прожил 76 лет —
это его биологическая, индивидуальная продолжительность жизни. Однако этот метод не
показывает, является ли такая продолжительность жизни нормальной для человека или
нет.
Если рассмотреть подсчет продолжительности жизни на основе Викиданных, то нельзя однозначно определить, какой это метод. Во-первых, можно получить список персон с
годами рождения и смерти. Это биографический метод. Во-вторых, у нас нет никакой статистической информации для всех персон (например, для математиков в целом), но есть
данные для отдельных персон, информация о которых есть в Викиданных. При этом мы
не учитываем влияние детской смертности из-за особенностей используемой базы знаний,
в которой содержится информация только о значимых персонах.
Таким образом, цель данной главы заключается в подсчете продолжительности жизни
математиков, информация о которых есть в Викиданных. Используемые методы вычисления являются комбинацией статистического и биографического методов.
19
3.2
Программа для определения количества математиков на определенный год
В этом разделе с помощью разработанной программы на языке Python [6] вычислим
количество математиков, живших в конкретный период времени.
Сначала с помощью SPARQL-запроса нужно получить список отечественных математиков с годами жизни (без дня и месяца). Это можно сделать, используя функция
year(date). Результат запроса — таблица из 1069 строк (см. Листинг 10). Для дальнейшей
работы представим полученный результат в виде файла с расширением csv (dates.csv).
До использования функции year результат SPARQL-запроса составлял 1134 математика, а после — 1069. Это объясняется тем, что у некоторых математиков дважды указано
свойство P569 («дата рождения») и P570 («дата смерти»), но в разной форме. Например,
у Эммануила Гринбергса в поле P569 написаны две даты: «25 января 1911» и «1911»,
аналогично с датой смерти: «25 апреля 1985» и «1985». При использовании в качестве
фильтра функции «year» из четырёх одинаковых строк была оставлена только одна.
Таким образом, в файле dates.csv содержится 1069 уникальных имён математиков с годами их жизни. По данным общероссийского математического портала Math-Net.Ru [14]
на сегодняшний день известно 136627 отечественных математиков, однако в Викиданных
есть информация только о 1069 математиках. Число американских математиков можно
определить по количеству членов американского математического общества (AMS), созданного в 1888 году. На сегодняшний день членами AMS являются более 30000 ученых,
но в Викиданных можно найти информацию только о 1446 персонах.
Листинг 11: Список отечественных математиков с годами жизни.
SELECT ?mathematicianLabel ?year_b ?year_d
WHERE {
?mathematician wdt:P106 wd:Q170790.
{ ?mathematician wdt:P27 wd:Q34266 } UNION # Russian Empire
{ ?mathematician wdt:P27 wd:Q15180 } UNION # Soviet Union
{ ?mathematician wdt:P27 wd:Q159 }. # Russia
?mathematician wdt:P569 ?date_b. # date of birth
?mathematician wdt:P570 ?date_d. # date of death
BIND(year(?date_b) AS ?year_b)
BIND(year(?date_d) AS ?year_d)
SERVICE wikibase:label { bd:serviceParam wikibase:language "ru" }
20
}
GROUP BY ?mathematicianLabel ?year_b ?year_d
Чтобы узнать, сколько математиков жило в заданный год, была написана программа
MathCountByYears.py [22] на языке Python.
Алгоритм
Программа считывает данные из файла dates.csv, создает два списка с годами рождения и смерти математиков (list b и d), находит минимальный год рождения («min») и
максимальный год смерти («max»). В цикле рассматриваются все года от min до max.
Если текущий год year больше года рождения математика и меньше года его смерти, то
переменная count увеличивается на единицу. После того как были пройдены все строки
файла dates.csv, значение переменной count и текущий год year добавляются в словарь и
все действия повторяются для следующего года (year+1), пока year не будет больше, чем
max.
for year = range ( min , max ) :
count = 0
for p <-- person []:
# this
if
mathematician p is alive in this year
year >= p [ birth ] & year <= p [ death ]:
count ++
quantity [ year ] = count # number of alived mathematicians
in this year
Входные данные: person — список математиков, при этом известны года рождения
и смерти, то есть personibirth и personideath .
Переменные:
1. min —– минимальный год рождения математика (1669 — Магницкий Л. Ф.)
2. max —– максимальный год смерти математика (2021 —Борисов А. В.)
3. year —– текущий год (значение в диапозоне [min, max])
4. count —– количество математиков живых в заданный год year
Выходные данные: quantity[] (Y = quantity[X] — учёных жило в году X)
21
Сравним количество американских и отечественных математиков, живущих в заданный год (рассмотрим период с 1700 по 2021 гг.). С помощью запроса (см. Листинг 10) был
получен список отечественных математиков с годами жизни. Если в этом запросе вместо
Российской империи, СССР и России указать США, то получим список американских
математиков.
Рис. 4: Зависимость числа математиков, живущих в заданный год, от этого года (красная
сплошная линия — отечественные математики, зеленая пунктирная — американские).
На рис. 4 представлено изменение числа отечественных математиков (красная сплошная линия) и американских математиков (зеленая пунктирная) от года.
Ось абсцисс — года от 1700 до 2021. Ось ординат — количество математиков. Для
отечественных математиков значения по оси Y принадлежат отрезку [1, 665], для американских — [1, 1069].
Анализ полученных результатов:
1. До 1950 года наблюдается рост числа отечественных и американских математиков.
2. На основе полученных данных оказалось, что с 1950 года резко сократилась число
математиков. Это можно объяснить тем, что в список математиков не были добавлены персоны, у которых не заполнено поле «P570» («дата смерти») в Викиданных.
При построении графиков программа пропускала таких ученых.
22
3.3
Программа для определения продолжительности жизни математиков
Для определения продолжительности жизни математиков на заданный год был использован результат SPARQL-запроса из пункта 3.2 (см. Листинг 11) и была написана
программа на языке Python.
Программа определяет среднюю продолжительность жизни lif espanyear на год рождения математика year, используя только два числа: год рождения и год смерти. На вход
программе подается файл «dates.csv» с годами жизни математиков. Эти данные обрабатываются, записываются в два списка — personbirth и persondeath , и определяется максимальный и минимальный год рождения. Именно в этом диапазоне рассматривается средняя
продолжительность жизни.
Алгоритм
Изначально продолжительность жизни на любой год равна нулю. Затем в цикле по
годам рассматриваются все математики. Для тех, кто родился в i-ый год, вычисляется
сумма продолжительностей жизни математиков, а потом делится на их количество.
В результате работы программы было создано два словаря: lifespan (ключ —– год,
значение —– средняя продолжительность жизни) и count_math (ключ —– год, значение
—– количество математиков, которые родились в этот год).
for year = range ( min , max ) :
count = 0
sum = 0
for p <-- person []:
if year == p [ birth ]
# this mathematician was born in this year
count ++
sum +=
p [ death ] - p [ birth ]
lifespan [ year ] = sum / count # lifespan in this year
count_math [ year ] = count # number of mathematicians born this year
Входные данные: person — список математиков, при этом известны года рождения и
смерти, то есть personibirth и personideath .
Переменные:
1. min —– минимальный год рождения математика (1669 — Магницкий Л. Ф.)
23
2. max —– максимальный год рождения математика (1968 — Арнольд В. Д.)
3. year —– текущий год (значение в диапозоне [min, max])
4. count —– количество математиков, родившихся в заданный год year
5. sum — сумма лет жизни математиков, родившихся в заданный год year
Выходные данные:
lifespan[], Y=lifespan[X], то есть Y — средняя продолжительность жизни на год X.
count_math[], N=count_math[X] — N математиков родилось в год X.
Рис. 5: Продолжительность жизни отечественных математиков по годам.
Рис. 6: Продолжительность жизни американских математиков по годам.
На рис. 5 и 6 представлено изменение средняя продолжительность жизни отечественных математиков и американских математиков в зависимости от года.
24
Ось абсцисс — года от 1700 до 2021. Ось ординат — продолжительность жизни математиков. Для отечественных математиков значения по оси Y принадлежат отрезку [31,
87], для американских — [16, 117].
Анализ полученных результатов (рис. 5 ):
1. Если в i-ый год не родился ни один математик, то средняя продолжительность жизни
на этот год равна нулю. Было найдено 94 таких годов. При построении графика эти
точки были пропущены.
2. На основе полученных данных оказалось, что с 1952 года резко сократилась средняя
продолжительность жизни математиков. Это можно объяснить тем, что математики, родившиеся после 1952 года, живы. Следовательно в Викиданных поле «P570»
(«дата смерти») пустое, а мы не рассматривали эти персоны.
Для более наглядного представления полученных результатов для отечественных математиков кроме точек, которые соответствуют средней продолжительности (зеленый цвет),
отметим точки максимальной (красный цвет) и минимальной (синий цвет) продолжительности жизни на определенный год. Если в заданный год родился только один математик,
то на графике отмечаем только одну точку серого цвета (см. Рис. 7 ).
Рис. 7: Продолжительность жизни отечественных математиков по годам с учетом максимума и минимума
25
Анализ расположения точек на рисунке 7:
На рисунке 7 можно увидеть изменение числа математиков и продолжительности их жизни с течением времени. До 1800 года было мало выдающихся математиков — об этом свидетельствуют серые точки на графике. В период с 1800 до 1940 года произошел рост числа
математиков и продолжительности их жизни (это видно по синим точкам на графике).
Однако после 1940 года заметно резкое уменьшение продолжительности жизни исследуемых персон. Это объясняется тем, что многие математики, родившиеся после 1940 года,
живы. Следовательно, в Викиданных у них не заполнено свойство P570 («date of death»),
а при обработке результатов SPARQL-запросов такие персоны были пропущены.
3.4
Методика визуализации Викиданных на языке Python
Для построение графиков была использована библиотека «matplotlib» [6] (библиотека
для визуализации данных двумерной графикой на языке Python) и написаны программы.
Полученный график сохранен в формате png.
Основные методы, используемые для построения графиков:
1. plt.axis([x_min , x_max, y_min, y_max]) — предельные значения по осям Х и У;
2. plt.plot(*args, **kwargs) — создание графика (координаты, цвет и тип линии);
3. plt.xlabel(), plt.ylabel() — подписи для координатных осей;
4. plt.grid(True) — включает отображение сетки по значениям осей;
5. plt.savefig(’chart2.png’, fmt=’png’) — сохранение графика;
6. plt.show() — отображает окно с графиком.
4
Ранжирование математиков и академий
Ранжирование объектов — это процесс построения рейтинга на основе различных фак-
торов (критериях). Каждый сам выбирает наиболее важные критерии для ранжирования
и учитывает комбинации их показателей. Можно вычислять рейтинг объектов в различных масштабах: в пределах организации, страны или по всему миру. Однако часто возникают споры о точности полученного рейтинга и появляются новые методы ранжирования
объектов. Все это свидетельствует об отсутствии единого мнение в вопросе вычисления
рейтинга.
26
Gilad Katz и Lior Rokach в своей статье [14] пишут об использовании Википедии и
Викиданных в качестве источника информации для исследований во многих областях
науки (математика, физика, медицина, социология). Авторы выделяют несколько причин
этому:
1. Большое количество записей по различным областям;
2. Актуальность данных;
3. Теги и метаданные: Википедия и Викиданные содержит несколько типов UGC (категории, ссылки, страницы перенаправления и информационные блоки), которые
можно использовать для определения атрибутов и связей между различными объектами;
4. «Мудрость толпы»: Каждый имеет возможность вносить свой вклад в Википедию и
Викиданные, что позволяет отслеживать наиболее важные и волнующие общество
темы (объекты). По мнению авторов, Википедия и Викиданные — это «представители реального мира».
Цель данного раздела — вычислить рейтинг математиков и академий, используя только те свойства, которые есть в Викиданных. Ранжирование будет проведено с помощью
формулы оценки значимости математиков по Викиданным и алгоритма PagePank для математиков и академий. В результате будет получено три рейтинга математиков и один
рейтинг академий.
Для определения свойств Викиданных, которые можно использовать для ранжирования, было проведено сравнение страниц нескольких математиков разной значимости:
Андрей Николаевич Колмогоров, Владимир Викторович Мазалов, Филипп Илларионович Андон.
В результате сравнения были выделены следующие свойства, которые можно использовать при ранжировании ученых и академий:
1. Foreign label (важно наличие перевода имени на иностранные языки)
2. P101 — область работы (field of work)
3. P512 — ученая степень (academic degree)
4. P800 — выдающаяся научная работа (notable work)
27
5. P1412 — языки, на которых говорит или пишет персона (languages spoken, written or
signed)
6. P803 — учёное звание (professorship)
7. P166 — полученные награды (award received)
8. P463 — член организаций или академий (member of)
9. P184 — научный руководитель (doctoral advisor)
10. P1066 — обучался у (student of)
Полученные свойства можно разделить на те, которые могли бы быть указаны, если
бы персона представляла интерес для редакторов (например, имя на английском языке)
и свойства, описывающие саму персону (например, число научных работ).
4.1
Эвристики (опытные правила для математиков и академий)
В этом разделе будут приведены некоторые опытные правила, которые будут подтверждены или опровергнуты после вычисления рейтингов математиков и академий:
1. Если у персоны заполнено свойство «научный руководитель» в Викиданных, то его
рейтинг должен быть выше, чем рейтинг персоны с незаполненным свойством.
2. Если у персоны заполнено свойство «научный руководитель» в Викиданных, то его
рейтинг должен быть выше, чем рейтинг персоны с незаполненным свойством.
3. Если у персоны заполнено свойство «учитель» в Викиданных, то его рейтинг должен
быть выше, чем рейтинг персоны с незаполненным свойством.
4. Чем больше переводов страницы математика на иностранные языки, тем более значимая персона.
5. Количество объектов в следующих свойствах прямо пропорционально влияет на значимость персоны:
(a) P101 — область работы
(b) P512 — ученая степень
(c) P800 — выдающаяся научная работа
28
(d) P1412 — языки, на которых говорит или пишет персона
(e) P463 — член организаций или академий
(f) P803 — учёное звание
(g) P166 — полученные награды (award received)
6. Значимость академии прямо пропорциональна значимости математиков, которые к
ней относятся.
4.2
Ранжирование ученых по Викиданным
В этом разделе ранжирование математиков будет выполнено на основе семи свойств
Викиданных с помощью формулы вычисления ранга персоны на основе метода наименьших квадратов (далее кратко представлена «формула ранга») и формулы вычисления
ранга математиков на основе подбора оптимальных коэффициентов (далее кратко «не
научная формула ранга»):
1. Foreign label (важно наличие перевода имени на иностранные языки)
2. P101 — область работы
3. P512 — ученая степень
4. P800 — выдающаяся научная работa
5. P1412 — языки, на которых говорит или пишет персона
6. P803 — учёное звание
7. P166 — полученные награды
Коэффициенты формулы ранга:
Для определения коэффициентов формулы ранга будет использован метод наименьших квадратов, идея которого заключается в минимизации квадратов разности между
вычисляемым рейтингом и рейтингом эксперта [3]. Условием минимума является равенство нулю частных производных. В результате для определения коэффициентов формулы
ранга нужно решить систему линейных уравнений.
Неизвестные системы — это коэффициенты формулы ранга. Коэффициенты системы
определяются следующим образом:
gi — это рейтинг эксперта для i-ого математика;
29
n — количество математиков, для которых известен рейтинг эксперта;
hi =( h( i)1 , h( i)2 , h( i)3 , h( i)4 , h( i)5 , h( i)6 , h( i)7 ) — значения свойств Викиданных, полученные с помощью SPARQL-запросов.
Общий вид системы, которую нужно решить для получения коэффициентов формулы
ранга:
Pn
Pn
Pn
Pn
x
∗
n
+
x
∗
h
+
x
∗
h
+
...
+
x
∗
h
=
0
1
i,1
2
i,2
7
i,7
i=1
i=1
i=1
i=1 gi
P
P
P
P
x0 ∗ ni=1 hi,1 + x1 ∗ ni=1 h2i,1 + ... + x7 ∗ ni=1 [hi,7 ∗ hi,1 ] = ni=1 [gi ∗ hi,1 ]
Pn
Pn
Pn
Pn
x
∗
h
+
x
∗
[h
∗
h
]
+
...
+
x
∗
[h
∗
h
]
=
0
i,2
1
i,1
i,2
7
i,7
i,2
i=1
i=1
i=1
i=1 [gi ∗ hi,2 ]
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
x0 ∗ Pn hi,7 + x1 ∗ Pn [hi,1 ∗ hi,7 ] + ... + x7 ∗ Pn h2 = Pn [gi ∗ hi,7 ]
i=1
i=7
i=1
i=1 i,7
Коэффициенты “не научной” формулы ранга определяются из условий:
1. Все коэффициенты должны быть больше нуля, но меньше единицы;
2. Коэффициенты должны одинаково влиять на результат. Например, если у математика много наград и коэффициент при соответствующем свойстве практически единица, но влияние остальных факторов (свойств) на результат будем незначительным.
Таким образом, для каждого свойства, которое будет использовано для вычисления
рейтинга, будут определены максимальное и минимальное значения, а также диапазон
возможных значений коэффициентов. Зачем с помощью программы будут определены
оптимальные значения коэффициентов формулы и полученный результат будет сравниваться с рейтингом эксперта.
Отдельно рассмотрим два свойств «Foreign label» и «award received», поскольку SPARQLзапросы для них требуют предварительного исследования (поиск конструкции для обращения к полям Label и определение, используемых классов наград) [11].
4.2.1
Foreign label — наличие перевода на иностранные языки
Для ранжирования математиков важно знать количество языков, на которых есть
информация о персоне в Викиданных. Можно предположить, что количество иностранных
языков, на которые переведено ФИО математика, прямо пропорционально его значимости.
Для получения списка математиков с количество языков перевода их имен был составлен
SPARQL-запрос (см. Листинг 12). Результат — таблица из 1604 строк.
30
SELECT ?mathematician ?mathematicianLabel
?cnt
WHERE {
{
SELECT DISTINCT ?mathematician (COUNT(?sitelink) AS ?cnt)
WHERE { # Russian Empire, Soviet Union and Russia
VALUES ?ruCountries {wd:Q34266 wd:Q15180 wd:Q159}
?mathematician wdt:P106 wd:Q170790 . # this is mathematician
?mathematician wdt:P27 ?ruCountries . # lives (lived) in Russian countries
?sitelink schema:about ?mathematician .
} GROUP BY ?mathematician
#Sorted by amount of articles in other languages.
} SERVICE wikibase:label { bd:serviceParam wikibase:language "ru, en" } }
Листинг 12: Список отечественных математиков в количество языков, на которых есть
статья в Викиданных.
Например, статья о Константине Эдуардовиче Циолковском переведена на 182 языка,
включая русский. В Викиданных эта информация отображена в начале страницы в виде
таблицы: Language, Label (ФИО персоны), Description, Also known as (см. Рис. 8).
Рис. 8: Таблица с указанием языков, на которые переведена статья о Константине Эдуардовиче Циолковском.
31
4.2.2
Свойство «P188 (award received)»
Стоит отдельно рассмотреть свойство «Р188 (award received)», поскольку не все объекты этого свойства могут быть связаны с наукой. В дальнейшем под термином «награды»
подразумеваем все премии, ордена, медали, титулы и почетные звания, полученные ученым.
С помощью SPARQL-запроса был получен список из 2122 наград, которые получали
математики мира. Однако не все из них имеет отношение к науки. Для выбора списка
наград, которые будут использоваться в дальнейшем исследовании, нужно определить
к какому классу принадлежит награда с помощью SPARQL-запроса (139 классов). Из
данного списка нужно выбрать те объекты, которые имеет непосредственное отношения
к науке и характерны для математиков любой страны или группе стран.
Для дальнейших исследований выберем математиков нескольких стран:
1. Отечественные математики (Россия, СССР, Российская империя)
2. Американские ученые (США)
3. Французские ученые (Франция)
Для математиков этих стран существует 1194 награды, которые относятся к 97 классам наград. Чтобы определить награды, характерные только для математиков, нужно
построить аналогичные запросы для списков наград физиков и химиков. Затем взять пересечение списков и оставить только те награды, которые есть у математиков и которых
нет у физиков и химиков.
1. Физики: 1565 наград, которые принадлежат к 119 классам.
2. Химики: 1147 наград, которые принадлежат к 92 классам.
При работе с пересечением множеств оказалось, что существует 32 наград для математиков, физиков и химиков, которые относятся к семи классам: научная награда, награда,
медаль, членство, степень ордена, стипендия, степень награды. Рассмотрев награды математиков, физиков и химиков, не удалось определить наиболее характерные награды для
математиков. Из-за этого было решено применить другой подход для определения наград,
которые характерны для исследуемых персон и имеют непосредственное отношение к математики. Для математиков каждой из исследуемых стран были определены три наиболее
распространенных класса наград (см. Таблица 6).
32
Таблица 6: Три наиболее популярные класса наград для рассматриваемых персон с ранжированием по странам.
Страна
Классы наград
Идентификаторы
Россия, СССР,
Орден (1158 матем.)
Q193622
Российская империя
Награда (1114 матем.)
Q618779
Гражданская награда (791 матем.)
Q5124642
Научная награда (1591 матем.)
Q11448906
Награда (1314 матем.)
Q618779
Членство (1024 матем.)
Q20006438
Научная награда (468 матем.)
Q11448906
Награда (398 матем.)
Q618779
Степень ордена (273 матем.)
Q60754876
США
Франция
В результате дальше были рассмотрены 6 классов наград, для каждого из которых был
построен отдельных SPARQL-запрос. На основе полученных списков наград для каждого
класса было принято решение оставляем этот класс в качестве одного из свойств для
ранжирования или нет (см. Таблицу 7).
Таблица 7: Количество наград для рассматриваемой группы математиков по классам наград, определенным в таблице 6.
Объект
Название класса
Количество наград
Вывод
Q193622
Орден
75
Не имеет отношения к науке
Q618779
Награда
474
Имеет отношение к науке
Q5124642
Гражданская награда
11
Не имеет отношения к науке
Q11448906
Научная награда
326
Часть наград имеет
отношение к науке
Q20006438
Членство
28
Не имеет отношения к науке
Q60754876
Степень ордена
75
Не имеет отношения к науке
Таким образом, при ранжировании математиков в свойстве награды будут рассмотрены следующие классы: награда (Q618779) и научная награда (Q11448906).На основе
выбранных классов наград был составлен SPARQL-запрос (см. Листинг 13).
SELECT ?mathematician ?mathematicianLabel (count(?award_received) as ?award_received)
WHERE {
33
{ SELECT DISTINCT ?mathematician # mathematicians from Russia, France and USA
WHERE { # Russian Empire, Soviet Union, Russia, France and USA
VALUES ?ruCountries {wd:Q34266 wd:Q15180 wd:Q159 wd:Q142 wd:Q30}
?mathematician wdt:P106 wd:Q170790 . # this is mathematician
?mathematician wdt:P27 ?ruCountries . # lives (lived) in Russian countries
} GROUP BY ?mathematician
}
OPTIONAL {
VALUES ?award {wd:Q618779 wd:Q11448906} # award and science award
?mathematician wdt:P166 ?award_received. # award received
?award_received wdt:P31 ?award.
} SERVICE wikibase:label { bd:serviceParam wikibase:language "ru", "en". }
} GROUP BY ?mathematician
?mathematicianLabel
Листинг 13: Список математиков с количеством наград, которые принадлежат выбранным
классам.
4.2.3
Формула для вычисления рейтинга математиков
В первую очередь нужно написать программу на языке Python для объединения всех
данных (результатов SPARQL-запросов, отсортированных по возрастанию идентификатора персоны в Викиданных) в файл. В таблице 8 описаны входные данные для этой
программы. В результате работы программы все данные были сохранены в csv-файл
(table.csv). Каждая строка файла содержит следующую информацию о математике (если
свойства у математика в Викиданных не заполнено, но в файле table.csv будет указано
значение ноль):
1. Количество областей работы;
2. Количество языков, на которых говорит или пишет персона;
3. Количество выдающихся работ;
4. Количество ученых степеней;
5. Количество наград, которые имеют отношение к науке;
6. Количество ученых званий (профессор, доцент);
7. Количество языков, на которые переведено поле Label в Викиданных.
34
Таблица 8: Входные данные программы для получения таблицы, которая будет использована для вычисления рейтинга отечественных математиков.
Свойство
Название файла
Формат строки
ФИО математиков
name.csv
Id_math,”ФИО” или Id_math,”Ф, ИО”
Foreign label
foreign_label.csv
Id_math, count of foreign label
P101
field_of_work.csv
Id_math, count of field
P512
academic_degree.csv
Id_math, count of degree
P800
notable_work.csv
Id_math, count of work
P1412
languages.csv
Id_math, count of languages
P803
professorship.csv
Id_math, count of professorship
P166
award.csv
Id_math, count of award
Для вычисления рейтинга математиков была написана программа на Python.
Входные данные: Файл table.csv.
Выходные данные:
1. Файл rating1.csv, в каждой строке которого указано ФИО персоны и вычисленный
рейтинг на основе «формулы ранга» [23].
Первые пять математиков с наибольшим рейтингом:
(a) Эйлер Леонард (263.57)
(b) Колмогоров А. Н. (211.51)
(c) Громов М. Л. (172.25)
(d) Арнольд В. И. (140.19)
(e) Боголюбов Н. Н. (140.0)
2. Файл rating2.csv, в каждой строке которого указано ФИО персоны и вычисленный
рейтинг на основе «не научной формулы ранга» [25].
Первые пять математиков с наибольшим рейтингом:
(a) Колмогоров А. Н. (9.789)
(b) Эйлер Леонард (9.486)
(c) Новиков С. П. (7.34)
(d) Громов М. Л. (7.314)
(e) Гельфанд И. М. (7.181)
35
4.3
Вычисление рейтинга математиков и академий с помощью алгоритма PageRank
PageRank — это метод для вычисление рейтинга «объекта» (чаще всего веб-страницы
[9]) на основе количества и значимости других объектов, ссылающихся на исходных [19].
Впервые идею о том, что важность страниц зависит от важности страниц, которые на
нее ссылаются, была предложена в 1996 году Сергеем Брином и Ларри Пейджем (аспиранты Стэнфордского университета). Статья, в которой описывался алгоритм, получивший
в дальнейшем название PageRank, была опубликована в 1998 году [17].
Простой подсчет цитирования не всегда помогает сделать правильный вывод значимости объекта. Например, если на странице есть всего лишь одно ссылка, но очень важная,
то эта страница должна иметь более высокий рейтинг по сравнению со страницей, на
которой приведено большое количество ссылок на непонятные источники.
Таким образом, PageRank — это ссылочный алгоритм, позволяющий получить «хорошее приближение к важности на основе ссылочной структуры» (см. Рис. 9) [7]:
1. Чем больше ссылок на объект, тем он важнее;
2. Рейтинг объекта A рассчитывается на основе рейтинга объекта B, на который ссылается объект А;
3. Сумма всех весов равняется единице.
Рис. 9: Веса, вычисленные с помощью алгоритма PageRank.
36
4.3.1
Свойства «P184 (doctoral advisor)» и «P1066 (student of )»
Стоит отдельно рассмотреть свойства «научный руководитель (человек, курировавший
подготовку диссертации персоны)» и «обучался у (учитель)», поскольку при ранжировании будет важно не количество персон, указанных в этих свойствах, как в предыдущих
подразделах, а их имена. Для получения списка научных руководителей и учителей был
составлен SPARQL-запрос (см. Листинг 14), который отличается от предыдущих запросов
в этом разделе: операция OPTIONAL, которая использовалась раньше, в данном случае
лишняя:
1. Если у персоны не указаны свойства научный руководитель или учитель, то в результате запроса будут строки с ФИО и идентификатором рассматриваемого математика
и пробелы на местах ФИО и идентификатора научного руководителя или учителя,
что является ненужной информацией.
2. Раньше в каждом запросе была использована группировка (GROUP BY) по переменным из SELECT для исключения повторяющихся строк, однако при использовании
алгоритмов ссылочного ранжирования важно количество упоминаний персоны на
страницах других математиков.
Таким образом, результат запроса — список из 1406 строк, из которых 198 повторяются.
SELECT ?mathematician ?mathematicianLabel ?advisor ?advisorLabel
WHERE {
{ SELECT DISTINCT ?mathematician # only mathematicians from Russia
WHERE {
# Russian Empire, Soviet Union and Russia
VALUES ?ruCountries {wd:Q34266 wd:Q15180 wd:Q159}
?mathematician wdt:P106 wd:Q170790 . # this is mathematician
?mathematician wdt:P27 ?ruCountries . # lives (lived) in Russian countries
} GROUP BY ?mathematician
}
{?mathematician wdt:P184 ?advisor} UNION
{?mathematician wdt:P1066 ?advisor}.
SERVICE wikibase:label { bd:serviceParam wikibase:language "ru", "en". }
}
Листинг 14: Список научных руководителей и учителей для отечественных математиков.
37
4.3.2
Свойство «P463 (member of )»
При рассмотрении свойства «P463» (member of) нужно учитывать те академии и организации, которые имеют отношение к науке. В разделе «Анализ академий» было проведено исследование для определения академий, членами которых являются математики
и которые имеют отношение к науке (см. Таблицу 1). Таким образом, для дальнейшего
исследования будем использовать шесть типов организаций, которые были определены
ранее (см. Листинг 15).
SELECT ?mathematician ?mathematicianLabel
?academy ?academyLabel
WHERE {
{SELECT DISTINCT ?mathematician # only mathematicians from Russia
WHERE { # Russian Empire, Soviet Union and Russia
VALUES ?ruCountries {wd:Q34266 wd:Q15180 wd:Q159}
?mathematician wdt:P106 wd:Q170790 . # this is mathematician
?mathematician wdt:P27 ?ruCountries . # lives (lived) in Russian countries
} GROUP BY ?mathematician
}
VALUES ?class_academy {wd:Q414147 wd:Q955824 wd:Q748019
wd:Q31855 wd:Q2385804 wd:Q162633} # types of academies
?mathematician wdt:P463 ?academy. # member of academy
?academy wdt:P31 ?class_academy. # academy is an element of the class_academy
SERVICE wikibase:label { bd:serviceParam wikibase:language "ru", "en". }
} GROUP BY ?mathematician ?mathematicianLabel
?academy ?academyLabel
Листинг 15: Список отечественных математиков с названиями академий, членами которых они являются.
4.3.3
Вычисление рейтинга отечественных математиков и академий на основе
алгоритма PageRank
С помощью SPARQL-запросов нужно получить список ФИО отечественных математиков, ФИО их научных руководителей и учителей, а также список с названиями академий, к
которым относятся исследуемые персоны, с указанием соответствующих идентификаторов
объектов в Викиданных. Потом необходимо объединить полученные списки и присвоить
каждому объекту новый идентификатор, начиная с нуля.
Зачем нужно определить связи между объектами: на странице какой персоны Викидан38
Рис. 10: Отечественные математики с максимальным рейтингом, получееным с помощью
алгоритма PageRank.
ных есть ссылка на академию, научного руководителя или учителя. Результаты нескольких SPARQL-запросов нужно объединить в один список. С помощью программы на языке
Python нужно изменить идентификаторы объектов Викиданных в связях на те идентификаторы, которые были введены нами. Таким образом, будет сформирован файл из n строк,
который является входными данными для программы PageRank. Каждая строка данного
файла имеет следующую структуру: идентификатор математика и идентификатор объекта (научный руководитель, учитель, академия), ссылка на который есть на странице
математика.
В результате работы программы для каждого объекта по его идентификатору будет
вычислен рейтинг (сумма рейтингов всех объектов равна единице). После вычисления
рейтинга объектов нужно по введенным нами идентификаторам вернутся к исходным
ФИО персон и названиям академий. Для этого была написана программу на языке Python,
которая соотносит идентификатор объекта и ФИО математика или название академии.
Результаты работы алгоритма PageRank приведены на рисунке 10 и в таблице 9, а также
39
полученный рейтинги отечественных матемаииков и академий загружены на сайт figshare
[21], [24].
Таблица 9: Первые десять академий с наибольшим рейтингом.
4.4
Академия
Рейтинг
Академия наук СССР
0.04368
Российская академия наук
0.03358
Национальная академия наук Украины
0.01114
Санкт-Петербургская академия наук
0.00949
Берлинская академия художеств
0.00895
Познанское общество друзей наук
0.00717
Национальная академия наук США
0.00654
Венгерская академия наук
0.00601
Национальная академия наук Азербайджана
0.00541
Королевское статистическое общество
0.00429
Оценка качества рейтинга ученых
Для проверки качества формул, используемых для ранжирования отечественных математиков, необходимо сравнить полученный нами рейтинг с рейтингом, полученным на
основе данных эксперта, или иным заслуживающим доверия рейтингом.
Существует несколько вариантов сравнения рейтингов:
1. Можно сравнить полученный нами рейтинг с рейтингом эксперта из таблицы «WP
Person math». Однако из-за постоянного обновления объектов в Викиданных может
получиться так, что в таблице не будет рейтинга и информации о некоторых отечественных математиков.
2. Найти рейтинг математиков в Интернете. Это не самый лучший способ, поскольку
нельзя найти готового рейтинга для исследуемых персон. Например, на общероссийском портале Math-Net.Ru [14] есть информация о 127065 отечественных и зарубежных математиках, но нет рейтинга для них. Однако есть таблицы «Авторы с
наибольшим числом публикаций» и «Наиболее цитируемые авторы». В обеих таблицах по 40 персон. Таким образом, этот вариант лучше не использовать, поскольку
имеющейся информации недостаточно для проверки качества полученного рейтинга.
40
3. Выделить из списка наиболее значимых математиков и сравнить их рейтинг с другими персонами из этого же списка. Если ранжирование математиков выполнено
верно, но наибольший рейтинг будет у наиболее значимых персон.
Таким образом, для оценки качества рейтингов математиков, полученных в разделе
4.2, был выбран первый способ — сравнение с рейтингом эксперта из таблицы “WP Person
math” [3].
Алгоритм сравнения рейтингов включает следующие шаги:
1. Определить список персон, для которых в таблице «WP Person math» указан рейтинг
(353 отечественных математика). Для этих же персон найти рейтинг по «формуле
ранга» и по «не научной формуле ранга» (см. Раздел 4.2).
2. Каждому математику из этих списков присвоить идентификатор от 1 до 353 и сгенерировать три последовательности идентификаторов математиков, отсортированных
по убыванию рейтингов соответствующих персон: min_square_rating, selection_rating
и expect_rating.
3. Нужно найти количество перестановок в последовательностях min_square_rating и
selection_rating, необходимое для того, чтобы получить последовательность expect_rating.
Результат выполнения данного алгоритма сравнения:
1. Нужно сделать 28.5 тыс. перестановок, чтобы из рейтинга min_square_rating получить рейтинг эксперта expect_rating.
2. Нужно сделать 23.4 тыс. перестановок, чтобы из рейтинга selection_rating получить
рейтинг эксперта expect_rating.
Таким образом, если в качестве экспертного рейтинга взять данные из таблицы «WP
Person math» [3], то рейтинг selection_rating по количеству перестановок окажется ближе к экспертному, чем рейтинг min_square_rating. Полученный результат можно объяснить тем, что при определении коэффициентов «формулы ранга» был использован метод
наименьших квадратов. В данном методе была рассмотрена только часть отечественных
математиков, имеющих рейтинг эксперта, поэтому нельзя утверждать, что свойства Викиданных для этих персон имеют большой диапазон значений. Для определения коэффициентов методом подбора учитывается разброс значений свойств и подбираются оптимальные коэффициенты так, чтобы все рассматриваемые свойства Викиданных влияли
на вычисляемый рейтинг.
41
Заключение
В ходе выполнения данного исследования были изучены научные статьи о работе с
Викиданными, об их использовании в качестве централизованного хранилища данных
и о качестве структурированной информации, получаемой из базы знаний с помощью
SPARQL-запросов.
Было проведено ранжирование отечественных математиков и академий на основе информации из Викиданных. Сначала был получен список отечественных математиков и
определены наиболее характерные для них научные организации (было выбрано шесть
типов таких организаций, далее — академии). Географический и тематический анализ
академий заключался в определении списка стран с наибольшим количеством академий,
в которые входят исследуемые персоны, и наиболее популярных научных направлений
для Российской и Польской академий наук.
Комбинируя несколько методов вычисления продолжительности жизни (статистический и биографический), были написаны программы на языке Рython для определения
количества математиков, родившихся в определенный год, и средней продолжительности жизни этих персон. Результаты работы программ представлены в виде графиков. В
XVIII веке число выдающихся отечественных математиков не превышало 50. В период с
1800 до 1950 года наблюдается увеличение числа значимых математиков от 50 до 1070 и
средней продолжительности их жизни (средняя продолжительность жизни до 1800 года
составляет 62 года, а после 1800 года — 68 лет). Нельзя сделать точных выводов о количестве математиков в период с 1950 года до настоящего времени, поскольку в Викиданных
недостаточно информации для анализа.
Основная цель работы — это ранжирование объектов на основе Викиданных. Для ранжирования математиков были выбраны часто встречаемые свойства Викиданных (например: область работы, ученая степень, полученные награды). На их основе был вычислен
рейтинг персон по «формуле ранга», коэффициенты которой определены методом наименьших квадратов и по «не научной формуле ранга» (ее коэффициенты вычислены методом подбора). Для ранжирования академий был использован метод PageRank. Данный
метод — это ссылочный алгоритм, поэтому было решено связать отечественных математиков, их учителей, научных руководителей и академии, в которые входят исследуемые
персоны. В результате был получен граф с 1762 вершинами и 2451 ребром. Вычисленные
рейтинги математиков и академий были записаны в csv-файлы и загружены на онлайнрепозиторий figshare [21], [23], [24], [25].
42
Полученные данные и реализованные алгоритмы ранжирования [22] будут использованы для дальнейших исследований математиков и академий мира на основе комбинации
свойств объектов, которые были рассмотрены в данной работе, и совершенно новых. Например, можно учитывать при ранжировании объектов такие свойства как «employer» —
место работы или «doctoral student» — список ученых, писавших диссертацию под руководством данной персоны.
Список литературы
1. Академия Google : [сайт] / Google. — [США], [2004—2021]. — URL: https://scholar.
google.com/ (дата обращения: 19.05.2021).
2. Общероссийский портал Math-Net.Ru : [сайт] / Рос. акад. наук, Математ. ин-т им.
В. А. Стеклова. — Москва, сор. 2011—2021. — URL: http://www.mathnet.ru/index.
phtml/?option_lang=rus (дата обращения: 23.05.2021).
3. Кириллов А.Н. WP Person math / А. Н. Кириллов, А. А. Крижановский, Е. Д. Трубина. — [Петрозаводск], 2019-2021. —- URL: https://docs.google.com/spreadsheets/d/
1Y5ad6-H43tMtuH8SYw_LPZDHkDHYxzuftdQW8ZHp2o0/edit?usp=sharing (дата обращения: 20.05.2021) /. — Текст : электронный.
4. Ожегов С. И. Толковый словарь русского языка : 80 000 слов и фразеологических выражений / С. И. Ожегов, Н. Ю. Шведова ; РАН, Ин-т рус. яз. им. В. В. Виноградова.
— 4-е изд., доп. — Москва : Азбуковник, 2000. — 940 с. — ISBN 5-89285-003-X.
5. Рубакин А. Н. Похвала старости / А. Н. Рубакин. — Изд. 2-е, перераб. и доп. —
Москва : Советская Россия, 1979. — 221, [3] с. — Библиогр. в подстроч. примеч.
6. Питонтьютор : [сайт]. — [Россия], 2016. — URL: http://pythontutor.ru (дата обращения: 20.12.2020). — Текст : электронный.
7. Райдингс К. Растолкованный PageRank, или Все, что вы всегда хотели знать о
PageRank / К. Райдингс, Д. Вэйлен ; пер. с англ. А. Садовский. — Текст : электронный
// Realcoding.Net : [сайт]. — 2002. — URL: http://www.realcoding.net/articles/
rastolkovannyi-pagerank-ili-vse-chto-vy-vsegda-khoteli-znat-o-pagerank.
html (дата обращения: 10.05.2021).
43
8. A large-scale collaborative ontological medical database / H. Turki, T.Shafee, M. A. Taieb
[at al.]. — DOI10.1016/j.jbi.2019.103292. — Текст : электронный // Journal of biomedical
informatics. — 2019. — Vol. 99.— P 1—13. — URL: https://www.researchgate.
net/profile/Thomas_Shafee/publication/336001723_Wikidata_A_largescale_
collaborative_ontological_medical_database/links/5d916233299bf10cff1a0e36/
Wikidata-A-large-scale-collaborative-ontological-medical-database.pdf (дата
обращения: 10.05.2021).
9. Bucci A. A continuation method for computing the multilinear Pagerank / A. Bucci, F.
Polonia. — Текст : электронный // arXiv : [website] / Cornell University [at al.]. — New
York [at al.], 2021. — Р. 1—16. — URL:https://arxiv.org/abs/2102.12714 (дата обращения: 10.05.2021).
10. Cyc : [website]. — Austin, сop. 1984 —2021. — URL: https://www.cyc.com/archives/
service/cyc-knowledge-base (дата обращения: 22.10.2020).
11. DuCharme B. Learning SPARQL: Querying and Updating with SPARQL 1.1 / B.
DuCharme. — Beijing [et al.] : O’Reilly Media, 2013. — 386 s. — ISBN 978-1-449-30659-5.
12. Falcon 2.0: An Entity and Relation Linking Tool over Wikidata / A. Sakor, K. Singh, A.
Patel, Maria-Esther Vidal. — Текст : электронный // CIKM ’20: Proceedings of the 29th
ACM International Conference on Information Knowledge Management. — New York,
2020. — Р. 3141—3148. — URL: https://arxiv.org/pdf/1912.11270.pdf (дата обращения:16.02.2021).
13. Fogarolli A. Word sense disambiguation based on wikipedia link structure / A.
Fogarolli // IEEE Third InternationalConference on Semantic Computing (ICSC 2009),
Berkeley, California, USA, 14—16 Sept., 2009. — Berkeley, 2009. — Р 77—83. —
URL: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.178.1696&rep=
rep1&type=pdf (дата обращения:10.05.2021).
14. Katz G. Wikiometrics: A Wikipedia Based Ranking System / G. Katz, L. Rokach. —
DOI10.1007/s11280-016-0427-8. — Текст : электронный // World Wide Web : [website].
— 2017. — Vol. 20, Issue 6. — Р. 1153—1177. — URL: https://arxiv.org/ftp/arxiv/
papers/1601/1601.01058.pdf (дата обращения: 18.05.2021).
15. Navigli R. BabelNet: Building a very large multilingual semantic network / R. Navigli and
S. P Ponzetto. — DOI 10.5555/1858681.1858704. — Текст : электронный // Proceedings
44
of the 48th annual meeting of the association for computational linguistics / Association
for Computational Linguistics. — Stroudsburg Uppsala, Sweden, 2010. — Р. 216—225.
— URL: https://dl.acm.org/doi/pdf/10.5555/1858681.1858704 (дата обращения:
10.05.2021).
16. The network structure of scientific revolutions / H. Ju, D. Zhou, A. S. Blevins [et al.]. —
DOI 10.31235/osf.io/tga9c. —Текст : электронный // arXiv.org : [website]. — 2020. —
URL: https://arxiv.org/ftp/arxiv/papers/2010/2010.08381.pdf (дата обращения:
07.11.2020).
17. The PageRank Citation Ranking: Bringing Order to the Web / L. Page, S. Brin, R. Motwani,
T. Winograd. — Текст : электронный // Stanford InfoLab Publication Server. — Stanford,
1998. — URL: http://ilpubs.stanford.edu:8090/422/1/1999-66.pdf (дата обращения: 10.05.2021).
18. Piscopo A. Structuring the world’s knowledge: Socio-technical processes and data
quality in Wikidata. PhD Thesis / A. Piscopo. — Текст : электронный // Figshare :
[website]. — [London и др.], 2011—2021. — URL: https://figshare.com/articles/
Structuring_the_world_s_knowledge_Socio-technical_processes_and_data_
quality_in_Wikidata/10998791/1 (дата обращения: 05.03.2021). — Thesis posted
on 23.11.2019.
19. Pynes D. Graphs paths: PageRank / D. Pynes. — Текст : электронный // Medium :
[website]. — [San Francisco], 2018. — URL: https://clck.ru/UzitC (дата обращения:
10.05.2021).
20. RAWGraphs : The missing link between spreadsheets and data visualization : [website].
— [Milano], 2013—2021. — URL: https://rawgraphs.io/ (дата обращения: 16.05.2021). —
Текст. Изображение : электронные.
21. Trubina L. Academy rating (PageRank) : Dataset / Liza Trubina. — Текст : электронный
// Figshare : [website]. — [London и др.], 2011—2021. — URL:https://doi.org/10.6084/
m9.figshare.14601303.v1 — Дата публикации: 15.05.2021.
22. Trubina L. Coursework / Liza Trubina. — Текст : электронный // GitHub : [website]. —
[Redmond], 2008—2021. — URL: https://github.com/LizaTrubina/coursework — Дата
публикации: 07.02.2021.
45
23. Trubina L. Math rating (min square) : Dataset / Liza Trubina. — Текст : электронный //
Figshare : [website]. — [London и др.], 2011—2021. — URL: https://doi.org/10.6084/
m9.figshare.14601309.v1 — Дата публикации: 15.05.2021.
24. Trubina L. Math rating (PageRank) : Dataset / Liza Trubina. — Текст : электронный //
Figshare [website]. — [London и др.], 2011—2021. — URL: https://doi.org/10.6084/
m9.figshare.14601306.v1 — Дата публикации: 15.05.2021.
25. Trubina L. Math rating (selection method) : Dataset / Liza Trubina. — Текст : электронный
// Figshare : [website]. — [London и др.], 2011—2021. — URL: https://doi.org/10.6084/
m9.figshare.14601312.v1 — Дата публикации: 15.05.2021.
26. Varone M.True Knowledge / M. Varone . — Текст : электронный // Еxpert.ai :
[website]. — 2009. — URL: https://expertsystem.com/true-knowledge/ (дата обращения: 18.05.2021).
27. Vrandečić D. Wikidata: a free collaborative knowledge base / D. Vrandečić, M. Krötzsch. –
DOI 10.1145/2629489/. — Текст : электронный // Communications of the ACM. — 2014.
— Vol. 57, Issue 10. — P. 78—85. URL: https://dl.acm.org/doi/10.1145/2629489 (дата
обращения: 18.05.2021).
28. Wikidata : The Free Knowledge Base : [website] / Wikimedia Foundation. — [USA et al.],
[2012—2021]. — URL: https://www.wikidata.org (дата обращения: 12.05.2021).
29. Wikidata Query Service: [website]. — [USA et al.], [2012—2021]. — URL: https://query.
wikidata.org/ (дата обращения: 05.05.2021).
30. Wikipedia : The Free Encyclopedia : [website] / Wikimedia Foundation. — [USA et al.],
2001 —2021. — URL: https://ru.wikipedia.org (дата обращения:12.05.2021).
46
Отзывы:
Авторизуйтесь, чтобы оставить отзыв