ФГБОУ ВО «ПЕТРОЗАВОДСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»
ИНСТИТУТ МАТЕМАТИКИ И ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ
КАФЕДРА ТЕОРИИ ВЕРОЯТНОСТЕЙ И АНАЛИЗА ДАННЫХ
(подпись соискателя)
Кузнецова Эльвира Эдуардовна
Выпускная квалификационная работа
Построение рейтинга математиков и анализ
научных областей по Викиданным
Направление 01.03.01 — Математика
Научный руководитель:
к.т.н., рук.
Лаборатории информационных компьютерных технологий
Института прикладных математических исследований
А. А. Крижановский
__________________
(подпись руководителя)
Петрозаводск — 2017
СОДЕРЖАНИЕ
ВВЕДЕНИЕ.............................................................................................................. 3
Глава 1. Заполнение данных по рейтингу математиков и научным областям . 5
Глава 2. Рейтинг отечественных ученых математиков ....................................... 6
2.1 Правила построения рейтинга и пример ..................................................... 6
2.2 Критерии ранжирования ученых: разносторонность и значимость по
оценке эксперта .................................................................................................... 7
2.3 Математический аппарат рейтингов и расстояния между ними .............. 8
2.4 Полный рейтинг и малый рейтинг с экспертной оценкой ...................... 13
Глава 3. Анализ научных областей ..................................................................... 16
ЗАКЛЮЧЕНИЕ……………………………….…………………………………21
Литература ............................................................................................................. 23
ПРИЛОЖЕНИЕ ..................................................................................................... 24
2
ВВЕДЕНИЕ
Для оценки эффективности научной деятельности ученых, в том числе
математиков, и для составления рейтинга ученых существует несколько
основных критериев: общее число публикаций, общее число цитирований,
максимальное число цитирований одной работы, индекс Хирша. Это все
относится к дисциплине – наукометрия. Численные критерии имеют свои
недостатки: некоторые авторы в погоне за числом публикаций забывают о
качестве статей. Поэтому, для качественного оценивания работ с такими
объективными критериями могут конкурировать субъективные оценки
экспертов [3].
В
этой
работе
для
построения
рейтингов
ученых
предлагается воспользоваться экспертной оценкой и информацией с сайта
Викиданных. Для сравнения рейтингов было сгенерировано множество
случайных рейтингов. По полученным результатам была оценена степень
многогранности ученых и ее связь со значимостью ученого, то есть позицией
в рейтинге.
Викиданные – проект фонда Викимеда, официально запущенный в
октябре 2012 для структурирования данных Википедии. Это свободная и
открытая база знаний. Для хранения структурированных данных ВД
используют следующую модель данных. Данные описываются парами
«свойство-значение», которые можно извлечь с помощью языка запросов
SPARQL. Например, статье в Русской Википедии об ученом П. С.
Александрове соответствует объект Викиданных «Pavel Aleksandrov».
Объект «Pavel Aleksandrov» имеет свойство «field of work» («область
деятельности») со значением «topology» (топология). Свойства являются
объектами и имеют собственные страницы в Викиданных с метками и
описаниями (рис.1). Каждый объект Wikidata идентифицируется уникальным
URI (рис.2) (например, https://www.wikidata.org/wiki/Q325696 для элемента
Q325696, Pavel Aleksandrov) [4].
Рис. 1 Пример свойств и значений в Викиданных
3
Рис. 2 Пример объекта в Викиданных
Математика является одной из древнейших наук. Она параллельно
развивалась во многих странах для решения различных практических задач.
Начавшись с арифметики и геометрии, со временем формировались многие
другие области. Например, из арифметики появились теория чисел и алгебра,
геометрия разделилась на самостоятельные направления, такие как
дифференциальная геометрия, проективная геометрия, топология и др., а
теория групп ‒ это раздел общей алгебры. Таким образом, можно сказать, что
все разделы математики в той или иной степени переплетаются друг с
другом. Эта работа преследует такую цель: проанализировать и выявить
близкие научные области, для этого построить профили математиков России
и мира в Викиданных, найти родственные математические предметы,
выразить их связь численно.
4
Глава 1. Заполнение данных по рейтингу
математиков и научным областям
Чтобы сравнить рейтинг ученых и число математических областей,
которыми занимаются математики, были предварительно решены следующие
задачи:
1. Заполнение в ВД у персон в категориях “Математики России”,
“математики СССР” и “математики Российской империи” таких свойств как
"область деятельности" (англ. “field of work”), “род занятий” (англ.
“occupation”) и заполнение полей “описание” (англ. “description”) и “метка”
(англ. “label”) в формате “Фамилия, Имя Отчество”, поскольку такой формат
соответствует стандарту именования статей о персоналиях в Русской
Википедии.
2. Построение SPARQL-скрипта (приложение Б), который выводит в
таблице: фамилию, имя, отчество (ФИО) ученого и число научных областей,
которыми он занимался. Отметим, что имена математиков берутся из
названий соответствующих статей Русской Википедии.
3. Результаты работы скрипта были загружены в Google-таблицу,
доступную онлайн. В одной таблице представлены имена ученых, их рейтинг
и их число научных областей (см. [1], вкладка “top”).
Была поставлена цель поиска близких научных тем с помощью анализа
данных об ученых, занимающихся этими темами. Для достижения этой цели
были выполнены шаги:
1. Построение SPARQL-скриптов: скрипт, выводящий список научных
областей и количество занятых ученых в каждой (в мире и в России)
(приложение Б) и скрипт, показывающий число ученых, занятых
одновременно в двух рассматриваемых областях (приложение В).
2. Составление таблицы пересечений наиболее популярных областей
математики друг с другом на основе полученных результатов (Глава 3, табл.
8).
5
Глава
2.
Рейтинг
отечественных
ученых
математиков
2.1 Правила построения рейтинга и пример
Рассмотрим список математиков, их экспертную оценку и количество
наук, которыми они занимались (см. [1], вкладка «top»). Ученый считается
разносторонним, если был занят более чем в двух областях и значимым, если
имеет оценку, поставленную экспертом, выше «3».
Значимость ученого оценивается по следующей шкале:
● 8 – мировой уровень, общепризнанный вклад;
● 6-7 – вклад внушительный, известны специалистам достаточно
широких областей математики;
● 5 – вклад большой, но известны специалистам достаточно узких
областей математики.
● 4 – вклад в область уже или решена конкретная задача,
● 2-3 – вклад менее значительный,
● 1 – остальные.
Приведем примеры ученых и их экспертной оценки:
Таблица 1. Примеры ученых, экспертной оценки и количества
изучаемых наук по Викиданным
Ученый
Оценка эксперта
Количество
изучаемых наук
В. И. Арнольд
8
4
А. А. Боровков
7
2
Н. В. Азбелев
6
3
М. Ш. Бирман
5
2
И. Н. Бернштейн
4
4
Б. А. Березовский
3
1
Н. Н. Воробьёв
2
5
А. П. Афанасьев
1
2
6
2.2 Критерии ранжирования ученых: разносторонность и
значимость по оценке эксперта
Рис. 3 Круговая диаграмма доли ученых, занятых одной или двумя науками
(“неразносторонний”), тремя и более науками (“многосторонний”),
значимый / незначимый по оценке эксперта
Основную массу персоналий в рейтинге составляют ученые, имеющие
низкую оценку эксперта (параметр «значимость») и занятые в одной или
двух математических областях (параметр «многогранность»), число коих
составило 69 человек. Это связано в первую очередь с тем, что в
Викиданных в свойстве «occupation» (род занятий) может быть указано
«математик», даже если этот человек просто окончил математический
факультет и не занимался наукой.
20% (27 человек) составляют ученые с высоким рейтингом и
занимающиеся одним или двумя областями и немного меньше людей,
изучавшие несколько областей (20 человек). Меньше всего оказалось тех, кто
работает в разных направлениях, но не внес какого-либо существенного
вклада в науку (15 человек).
7
Таблица 2. Разбиение ученых на группы по количеству изучаемых предметов и по
экспертному
рейтингу:
“незначимый/неразносторонний”
красные
ячейки,
“значимый/неразносторонний” ‒ оранжевые ячейки, “незначимый/разносторонний” ‒
голубые, “значимый/разносторонний” ‒ зеленые ячейки.
Предметы/Рейтинг
1
2
3
4
5
6
1
31
10
2
2
1
2
2
18
5
3
1
2
5
2
3
10
6
2
1
1
2
3
4
1
2
2
3
5
1
6
2
3
7
8
2
2
1
1
7
1
1
2.3 Математический аппарат рейтингов и расстояния между
ними
В нашем распоряжении есть три вида рейтингов отечественных
математиков: рейтинг «𝐸𝑥𝑝𝑒𝑟𝑡», построенный экспертами, рейтинг по
количеству изучаемых математических областей «𝑉𝑎𝑟𝑖𝑒𝑡𝑦». Ученые в
данных двух рейтингах упорядочены по убыванию. Третий вид – множество
случайных рейтингов «𝑅𝑎𝑛𝑑𝑜𝑚»:
𝐸𝑥𝑝𝑒𝑟𝑡 = {𝑒1 , 𝑒2 , … , 𝑒𝑛 }
𝑉𝑎𝑟𝑖𝑒𝑡𝑦 = {𝑣1 , 𝑣2 , … , 𝑣𝑛 }
𝑅𝑎𝑛𝑑𝑜𝑚1 = {𝑟11 , 𝑟21 , … , 𝑟𝑛1 }
…
{ 𝑅𝑎𝑛𝑑𝑜𝑚𝑚 = {𝑟1𝑚 , 𝑟2𝑚 , … , 𝑟𝑛𝑚 }
𝑗
𝑒𝑖 , 𝑣𝑖 , 𝑟𝑖 - ученые из соответствующих рейтингов.
Множество рейтингов 𝑅𝑎𝑛𝑑𝑜𝑚 было получено путем генерации
случайных последовательностей имен математиков 2000 раз с помощью
специальной функции на языке программирования Python (приложение Г).
Вычислим расстояние между всеми рейтингами, включая случайные.
Проверим, будет ли расстояние между рейтингами 𝐸𝑥𝑝𝑒𝑟𝑡 и 𝑉𝑎𝑟𝑖𝑒𝑡𝑦 меньше,
чем расстояние до случайных рейтингов.
Выдвинем гипотезу о том, что рейтинги Expert и Variety ранжируют
ученых в значительной степени одинаково. Для проверки гипотезы
необходимо сравнить данные рейтинги.
8
Для краткости введем обозначения: 𝐸 = 𝐸𝑥𝑝𝑒𝑟𝑡, 𝑉 = 𝑉𝑎𝑟𝑖𝑒𝑡𝑦, 𝑅 =
𝑅𝑎𝑛𝑑𝑜𝑚.
Введем расстояние между рейтингами 𝑑𝑖𝑠𝑡.
Определение 1. Расстоянием 𝑑𝑖𝑠𝑡 между двумя списками
𝐸𝑥𝑝𝑒𝑟𝑡 = {𝑒1 , 𝑒2 , … , 𝑒𝑛 } и 𝑉𝑎𝑟𝑖𝑒𝑡𝑦 = {𝑣1 , 𝑣2 , … , 𝑣𝑛 } называется величина:
0, при 𝑗1 ≤ 𝑗2
𝑑𝑖𝑠𝑡𝑠,𝑐 = {
1, при 𝑗1 > 𝑗2
𝑑𝑖𝑠𝑡 (𝐸, 𝑉) = ∑𝑑𝑖𝑠𝑡𝑠,𝑐
и удовлетворяющая условию:
(𝑠 = 𝑒𝑖1 ) ∧ (𝑠 = 𝑣𝑗1 ),
(𝑐 = 𝑒𝑖2 ) ∧ (𝑐 = 𝑣𝑗2 ),
𝑖1 < 𝑖2 ,
𝑠≠𝑐
𝑖𝑛𝑑𝑒𝑥 – это функция, которая возвращает номер элемента в списке и
зависящая от двух аргументов: список и элемент списка,
𝑖1 = 𝑖𝑛𝑑𝑒𝑥(𝐸, 𝑠), 𝑖2 = 𝑖𝑛𝑑𝑒𝑥(𝐸, 𝑐),
𝑗1 = 𝑖𝑛𝑑𝑒𝑥(𝑉, 𝑠), 𝑗2 = 𝑖𝑛𝑑𝑒𝑥(𝑉, 𝑐).
Расстояние зависит от того, как соотносятся индексы 𝑗1 , 𝑗2 в списке 𝑉.
Рассмотрим подсчет величины 𝑑𝑖𝑠𝑡 на примере трех математиков и двух
разных рейтингах.
Таблица 3. Пример позиций ученых относительно друг друга в рейтингах
Expertи Variety
𝑬𝒙𝒑𝒆𝒓𝒕
𝑽𝒂𝒓𝒊𝒆𝒕𝒚
1
Д. В. Аносов
О. М. Белоцерковский
2
О. М. Белоцерковский
М. И. Башмаков
3
М. И. Башмаков
Д. В. Аносов
Выбираем пару математиков из рейтинга 𝐸𝑥𝑝𝑒𝑟𝑡. Пусть 𝑠1 = Д. В.
Аносов, 𝑐1 = О. М. Белоцерковский. В списке 𝐸𝑥𝑝𝑒𝑟𝑡 𝑠1 занимает позицию 1
(𝑖1 = 1), 𝑐1 занимает позицию 2 (𝑖2 = 2). В списке 𝑉𝑎𝑟𝑖𝑒𝑡𝑦 𝑠1 занимает
позицию 3, (𝑗1 = 3), 𝑐1 занимает позицию 1 (𝑗2 = 1).
Пара (𝑠1 , 𝑐1 ) = (Д. В. Аносов, О. М. Белоцерковский) из рейтинга 𝑬𝒙𝒑𝒆𝒓𝒕
не сохраняет порядок в рейтинге 𝑽𝒂𝒓𝒊𝒆𝒕𝒚. Следовательно, 𝑑𝑖𝑠𝑡𝑠1,𝑐1 = 1.
9
Сравнивая попарно ученых, находим еще одну пару, которая не сохраняет
порядок:
(𝑠2 , 𝑐2 ) = (Д. В. Аносов, М. И. Башмаков). Следовательно, 𝑑𝑖𝑠𝑡𝑠2,𝑐2 = 1.
Таким образом, расстояние между двумя рейтингами 𝑬𝒙𝒑𝒆𝒓𝒕и
𝑽𝒂𝒓𝒊𝒆𝒕𝒚равняется 𝑑𝑖𝑠𝑡(𝐸, 𝑉) = 𝑑𝑖𝑠𝑡𝑠1,𝑐1 + 𝑑𝑖𝑠𝑡𝑠2,𝑐2 = 2.
Определим расстояния между рейтингами. Расстояние между рейтингами
𝑅𝑎𝑛𝑑𝑜𝑚 и 𝐸𝑥𝑝𝑒𝑟𝑡 было получено следующим образом: сравнивается
случайный рейтинг с рейтингом 𝐸𝑥𝑝𝑒𝑟𝑡, затем генерируется новый
случайный рейтинг. Таким образом получается 1000 различных значений и
высчитывается среднее. Аналогично для рейтинга 𝑉𝑎𝑟𝑖𝑒𝑡𝑦.
Таблица 4. Расстояния среднего и дисперсии расстояния
между рейтингами случайный (R), экспертный (E) и по
количеству предметов (V)
𝑑𝑖𝑠𝑡(𝑅, 𝐸) 𝑑𝑖𝑠𝑡(𝑅, 𝑉) 𝑑𝑖𝑠𝑡(𝑅, 𝑅) 𝑑𝑖𝑠𝑡(𝐸, 𝑉)
Среднее:
4260
4251
4247
Дисперсия:
65857
63484
63601
2017
Предложение
Для двух рейтингов длины 𝑛вычислим максимальное расстояние между
ними. Рассмотрим рейтинг 𝐸 = {𝑒1 , 𝑒2 , … , 𝑒𝑛 }
и максимум среди
расстояний,
получаемых
всевозможными
перестановками
ученых
𝑚𝑎𝑥{𝑑𝑖𝑠𝑡(𝐸, 𝐺)} , где 𝐺- все перестановки элементов 𝑒1 , 𝑒2 , … , 𝑒𝑛 . Тогда
формула для вычисления максимального расстояния:
𝑚𝑎𝑥{𝑑𝑖𝑠𝑡(𝐸, 𝐺)} =
𝑛(𝑛−1)
2
(1)
Доказательство: воспользуемся методом математической индукции.
1) Рассмотрим список длины 𝑛 = 2: 𝐸 = {1, 2}. Поменяем местами
элементы списка E и получим список: 𝐺 = {2, 1}, тогда 𝑑𝑖𝑠𝑡(𝐸, 𝐺) = 1.
Применяя формулу (1):
𝑚𝑎𝑥{𝑑𝑖𝑠𝑡(𝐸, 𝐺)} = 1.
2) Для 𝑛 = 3:
𝐸 = {1, 2, 3}. Переставим последний элемент на первую позицию.
Расстояние увеличится на единицу:
𝐺312 = {3, 1, 2} => 𝑛 − 1 = 𝑑𝑖𝑠𝑡(𝐸, 𝐺) = 2.
Теперь переставим последний элемент списка 𝐺312 на вторую позицию:
𝐺321 = {3, 2, 1} => (𝑛 − 1) + (𝑛 − 2) = 𝑑𝑖𝑠𝑡(𝐸, 𝐺) = 3.
Рассмотрим еще два возможных варианта перестановок:
10
𝐺213 = {2, 1, 3} => 𝑑𝑖𝑠𝑡(𝐸, 𝐺) = 1
𝐺231 = {2, 3, 1} => 𝑑𝑖𝑠𝑡(𝐸, 𝐺) = 2
Отсюда
𝑚𝑎𝑥{𝑑𝑖𝑠𝑡(𝐸, 𝐺)} = 3.
3)𝐸 = {1, 2, 3, … , 𝑛 − 1}. По формуле (1):
𝐸 = {1, 2, 3, … , 𝑛 − 1}.
Переставляя, по аналогии с предыдущим примером, последние элементы
на вторую позицию, расстояние будет увеличиваться до тех пор, пока список
не окажется перевернутым:
𝐺 = {𝑛 − 1, 1, 2, 3, … , 𝑛 − 2} => 𝑛 − 2 = 𝑑𝑖𝑠𝑡(𝐸, 𝐺);
𝐺 = {𝑛 − 1, 𝑛 − 2, 1, 2, 3, … , 𝑛 − 3} => (𝑛 − 2) + (𝑛 − 3) = 𝑑𝑖𝑠𝑡(𝐸, 𝐺);
...
𝐺 = {𝑛 − 1, … , 3, 2, 1} => (𝑛 − 2) + (𝑛 − 3) + ⋯ + (𝑛 − (𝑛 − 2)) =
=
(𝑛−1)(𝑛−2)
2
= 𝑑𝑖𝑠𝑡(𝐸, 𝐺) = 𝑚𝑎𝑥{𝑑𝑖𝑠𝑡(𝐸, 𝐺)}.
Добавив еще один элемент к первому и ко второму списку таким образом,
чтобы она максимально увеличил расстояние между ними, в начало и конец
списков (если добавляемые элементы находятся не на "краях" списка, то
полученное расстояние будет меньше максимального, так как не будет
учитываться перестановка с первым (крайним) элементом), получим
𝑑𝑖𝑠𝑡(𝐸 𝑛 , 𝐺 𝑛 ) =
(𝑛−1)(𝑛−2)
2
+ (𝑛 − 1) =
𝑛(𝑛−2)
2
.
Здесь слагаемое (𝑛 − 1) – дополнительное максимальное расстояние,
которое можно получить при добавлении одного элемента в список, длины
(𝑛 − 1).
Таким образом, максимальное расстояние будет тогда, когда у всех пар
элементов первого списка будет изменен порядок во втором списке. Конец
доказательства.
Поделим значения таблицы 4 на величину 𝑚𝑎𝑥 𝑑𝑖𝑠𝑡(𝐸, 𝐺), получим
нормализованные значения среднего между рейтингами (Табл. 5):
11
Таблица 5. Нормализованные расстояния среднего между рейтингами
случайный (R), экспертный (E) и по количеству предметов V
𝑑𝑖𝑠𝑡(𝑅, 𝐸)
𝑑𝑖𝑠𝑡(𝑅, 𝑉)
𝑑𝑖𝑠𝑡(𝑅, 𝑅)
𝑑𝑖𝑠𝑡(𝐸, 𝑉)
Среднее:
0,5003
0,4992
0,4987
0,2369
Из табл. 5 видим, что средние значения расстояний между рейтингами
𝑑𝑖𝑠𝑡 (𝑅, 𝐸), 𝑑𝑖𝑠𝑡 (𝑅, 𝑉) и 𝑑𝑖𝑠𝑡 (𝑅, 𝑅) примерно равны.
Заметим, что для списка длины 𝑛 = 64 по формуле (1) 𝑚𝑎𝑥 𝑑𝑖𝑠𝑡 = 2016.
Отсюда можно сделать вывод, что примерно половина ученых рейтинга
𝐸𝑥𝑝𝑒𝑟𝑡 при сравнении его с рейтингом 𝑉𝑎𝑟𝑖𝑒𝑡𝑦 не сохраняет свои пары.
Рис. 4 Рейтинг 𝑅𝑎𝑛𝑑𝑜𝑚, 𝐸𝑥𝑝𝑒𝑟𝑡, 𝑉𝑎𝑟𝑖𝑒𝑡𝑦.Значение
𝑑𝑖𝑠𝑡между рейтингами
Определение 2. Величина называется метрикой, если удовлетворяет
следующим условиям (аксиомам метрики):
● Аксиома тождества: 𝑑𝑖𝑠𝑡(𝑋, 𝑌) = 0 ⇔ 𝑋 = 𝑌.
● Аксиома симметрии: 𝑑𝑖𝑠𝑡(𝑋, 𝑌) = 𝑑𝑖𝑠𝑡(𝑌, 𝑋).
● Аксиома треугольника: 𝑑𝑖𝑠𝑡(𝑋, 𝑌) ≤ 𝑑𝑖𝑠𝑡(𝑋, 𝑍) + 𝑑𝑖𝑠𝑡(𝑍, 𝑌).
Докажем, величина 𝑑𝑖𝑠𝑡 является метрикой:
1. Видно из табл. 3
2. Очевидно из определения 1.
3. Покажем выполнение аксиомы треугольника на примере:
12
Таблица 6. Проверка выполнения аксиомы треугольника на примере трех
рейтингов ученых
Рейтинги
𝑑𝑖𝑠𝑡(𝑋, 𝑌)
𝑋 = 𝐸; 𝑌 = 𝑅; 𝑍 = 𝑉
4260
2017
4251
4251 ≤ 6268
𝑋 = 𝐸; 𝑌 = 𝑉; 𝑍 = 𝑅
2017
4260
4251
2015 ≤ 8513
𝑋 = 𝑉; 𝑌 = 𝑅; 𝑍 = 𝐸
4251
2017
4260
4251 ≤ 6277
𝑑𝑖𝑠𝑡(𝑋, 𝑍) 𝑑𝑖𝑠𝑡(𝑍, 𝑌)
Аксиома
Из таблицы 6 видим, что аксиома треугольника выполняется.
Доказательство для общего случая приведено в [2, гл. 3]
2.4 Полный рейтинг и малый рейтинг с экспертной оценкой
В этой главе мы рассматривали список, состоящий из 131 ученого (малый
рейтинг). В полном списке их 1056 человек. Это объясняется тем, что лишь у
части ученых стоит экспертная оценка. Нужно отметить, что пропорции по
количеству изучаемых областей почти одинаковые. Это видно из таблицы 7:
Таблица 7. Сравнение пропорций малого и
полного списка.
% от общего
% от общего
Количество
числа ученых
числа ученых
предметов
малого списка полного списка
1
37%
40%
2
27%
30%
3
21%
17%
4
10%
8%
5
2%
2%
6
3%
2%
7
1%
1%
Построим гистограммы, отражающие число ученых полного списка
(России и мира) с числом "field of work" = n, где n – количество изучаемых
предметов одной персоной.
13
Рис. 5 Количество российских ученых полного списка и количество предметов,
которыми они занимаются.
Распределение
аппроксимируется
аппроксимации 𝑅2
Для сравнения
(рис. 6).
количества ученых по количеству наук хорошо
экспоненциальной функцией, величина достоверности
≈ 0,97.
посмотрим на гистограмму для математиков всего мира
Рис. 6 Количество ученых мира и количество предметов, которыми они
занимаются
14
Распределение также аппроксимируется экспоненциальной функцией,
величина достоверности аппроксимации 𝑅2 ≈ 0,97.
Посмотрим процентное соотношение ученых, изучающих определенное
количество наук от общего числа ученых в России и в мире (рис. 7).
Рис. 7. Процентное соотношение числа ученых, занимающихся n математическими предметами
к общему числу математиков мира (оранжевый цвет) и России (синий цвет).
Сделаем выводы на основе трех полученных гистограмм:
Большая часть ученых занимается только одной наукой. В мире 2216
персон (58%) и в России 424 персоны (40%). Причем, среди 424 человек у
101 в свойстве “field of work” указано просто “mathematics”.
2. Если ученый занят большим количеством наук, то это такие науки (или
значительная их часть), которыми занимается мало ученых.
3. Шестью (18 человек), девятью (1 человек), 11 (1 человек) и 12 (1
человек) науками (рис. 5) занимаются российские математики.
4. Тремя, четырьмя, пятью и семью науками (рис. 5 и рис. 6) занимаются
в основном математики из России.
5. Если сложить все процентные результаты, то можно увидеть, что
примерно у 25% математиков мира не указаны научные области/область.
6. Процент ученых, занятых в одной области в мире (58%) больше чем в
России (40%), с остальным количеством областей наоборот.
1.
15
Глава 3. Анализ научных областей
Для поиска близости математических предметов воспользуемся
информацией с Викиданных, полученной с помощью SPARQL-запросов.
Во-первых, необходимо узнать какое количество человек занимается
различными математическими предметами, и в каких именно областях они
заняты. Для этого напишем SPARQL-запрос, выводящий список предметов,
указанных в свойстве “field of work” в ВД у персон и количество человек во
всем мире, которые занимаются этими предметами (приложение Б).
У нас есть математические предметы 𝑎 и 𝑏. Пусть 𝑆(𝑎, 𝑏) – число ученых,
занимающихся предметами 𝑎 и 𝑏.
Выберем такие области, в которых занято более 70 человек, чтобы
составить всевозможные попарные их комбинации и увидеть, чему равна
величина 𝑆(𝑎, 𝑏), где 𝑎 и 𝑏 рассматриваемые науки. Для этого воспользуемся
еще одним запросом (приложение В). С помощью него узнаем сколько
человек было занято одновременно в области 𝑎 и области 𝑏. Результаты
приведены в таблице 8.
16
Таблица 8. Сколько ученых заняты одновременно в двух областях математики. (
по Викиданным)
17
Пояснения к таблице:
1. В ячейке желтого цвета число слева означает, что 2 человека
занимаются одновременно предметом G (геометрия) и предметом GpT
(теория графов) во всем мире (М), а число справа в этой же ячейке означает,
что 1 человек в России (Р) занимается одновременно двумя этими
предметами. То есть в мире 𝑆(𝑎, 𝑏) = 2, в России 𝑆(𝑎, 𝑏) = 1.
2. 𝑓(𝑛) - число ученых, занимающихся предметом n.
3. На главной диагонали стоит сумма пересечений какой-либо науки со
всеми остальным.
4. Голубым цветом отмечены ячейки, в которых 𝑆(𝑎, 𝑏)> 20, красным
цветом𝑆(𝑎, 𝑏)𝜖 [10; 19],зеленым 𝑆(𝑎, 𝑏) 𝜖 [5, 9].
Сделаем выводы на основе данных из таблицы:
1. Наиболее изучаемой областью во всем мире является теория чисел. На
втором месте – математический анализ. В России – наоборот.
2. Среди математиков, занимающихся теорией чисел, наиболее
популярны такие области как математический анализ (35 человек в мире, из
них 17 из России), комбинаторика (23 в мире) и алгебра (35 в мире, из них
23 из России).
3. Изучающие математический анализ, также изучают теорию
вероятностей (27 человек в мире, из них 19 из России), геометрию (20
человек в мире, их них 9 из России), дифференциальные уравнения (33
человека и все они из России), функциональный анализ (37 в мире и только
10 из России) и теорию функций (21 человек, все из России).
4. Математики, изучающие топологию, скорее всего, занимаются и
геометрией (20 человек в мире, 9 из России).
5. Среди математиков, занимающихся комбинаторикой, 31 человек в
мире занимается теорией графов и только 4 из России.
6. Среди тех, кто занят в области геометрии 29 человек в мире и 22
человека из России заняты и в области алгебры.
7. Наибольшее число пересечений со всеми областями во всем мире у
такой науки как математический анализ, а в России – дифференциальные
уравнения.
8. Меньше всего пересечений со всеми областями (наименее изучаемые
с другими науками) во всем мире и в России: математическая логика, теория
множеств, алгебраическая геометрия, теория графов и теория групп.
9. Теория графов пересекается с другими областями по ученым всего
мира 54 раза, а по ученым России всего 7 раз.
10. Комбинаторика пересекается с другими областями во всем мире 111
раз, а в России всего 32.
Для цветных ячеек в таблице (𝑆 (𝑎, 𝑏) > 5) для наглядности
визуализируем данные с помощью программы Gephi (рис.8).
18
Рис.8 Граф научных областей математики
Узлы графа – названия наук. Ребра указывают на существование ученых,
занимающихся двумя науками (вершины, инцидентные ребру). Чем толще
ребро, тем больше число ученых. При наведении курсором мыши на один из
узлов подсвечивается выбранный узел и те, с которыми он связан (рис. 9).
19
Рис. 9. Граф научных областей математики. Связь математического анализа
с остальными областями
20
Заключение
Анализ экспертного рейтинга и рейтинга по количеству изучаемых наук
показал, что больше половины ученых-математиков либо не занимаются
математикой, либо не вносят никакого вклада в науку, а значимых ученых
оказалось всего 35%. В этой работе был предложен алгоритм вычисления
расстояния между рейтингами, с помощью которого подтвердили гипотезу о
том, что рассматриваемые рейтинги ранжируют ученых в значительной
степени одинаково.
Кроме этого, был проведен анализ научных областей, где выявлена связь
между областями математики по Викиданным. Отметим, что неполнота
Викиданных дает и неполную картину связи математических предметов:
некоторые предметы, которые, казалось бы, должны быть тесно связаны друг
с другом, имеют небольшое число пересечений.
В ходе работы были полностью заполнены Викиданные, касающиеся
только отечественных математиков. Заполнение Викиданных по
иностранным математикам оставлено на откуп студентам других стран. Это
нашло свое проявление в рисунках 5, 6, 7, показывающих
непропорционально огромный вклад наших математиков в мировую науку. В
настоящее время Викиданные развиваются и «стремительный рост объема
данных позволяет с оптимизмом ожидать появления новых аналитических
работ на их основе» [5].
21
Благодарность
Автор выражает благодарность доктору физико-математических наук
Александру Николаевичу Кириллову за экспертную оценку отечественных
математиков.
22
Литература
[1] Кириллов А. Н., Надлер О., Кузнецова Э. Э. WP Person math.
[Электронный ресурс] // 2016-2017. URL:
https://docs.google.com/spreadsheets/d/1Y5ad6H43tMtuH8SYw_LPZDHkDHYxzuftdQW8ZHp2o0/edit#gid=319918479.
[2] Крижановский А.А., Ярышкина Е. Проверка устойчивости метода
вычисления ошибки расстояния между двумя упорядоченными списками
[Электронный ресурс] // 2016.
URL:https://www.authorea.com/users/86022/articles/101510/
[3] Чеботарев Павел Юрьевич Наукометрия: как с её помощью лечить, а не
калечить? [Электронный ресурс] // УБС. 2013. №44. URL:
http://cyberleninka.ru/article/n/naukometriya-kak-s-eyo-pomoschyu-lechit-a-ekalechit (дата обращения: 25.05.2017). Научная библиотека
КиберЛенинка: http://cyberleninka.ru/article/n/naukometriya-kak-s-eyopomoschyu-lechit-a-ne-kalechit#ixzz4iMjvxoEX
[4] Denny Vrandečić, Markus Krötzsch Wikidata: a free collaborative
knowledgebase. [Электронный ресурс] // Communications of the ACM, Issue
10, October, 2014. Vol. 57, P. 78-85.
URL:http://delivery.acm.org/10.1145/2630000/2629489/p78vrandecic.pdf?ip=93.190.201.1&id=2629489&acc=OA&key=4D4702B0C3E3
8B35%2E4D4702B0C3E38B35%2E4D4702B0C3E38B35%2EB8CD93A251
5AABD1&CFID=940238039&CFTOKEN=78308187&__acm__=149564662
3_6ac0d33eba05f141b288ecade07e3f32
[5] Крижановский А.А., Кузнецова Э.Э. Открытые данные Российской
Федерации и предметный и возрастной анализ математиков России по
Викиданным [Электронный ресурс] // 2016.
URL:https://www.authorea.com/users/86022/articles/134587
23
ПРИЛОЖЕНИЕ
Приложение А
SPARQL-запрос, выводящий в таблице: ФИО ученого и число его научных
областей
SELECT ?field_of_workLabel (COUNT(?item) AS ?count)
WHERE
{
?item wdt:P106 wd:Q170790 . # occupation is 'mathematician'
?item wdt:P101 ?field_of_work.
SERVICE wikibase:label { bd:serviceParam wikibase:language "en". }
}
GROUP BY ?field_of_workLabel
Приложение Б
SPARQL-запрос, выводящий список научных областей и количество занятых
ученых в каждой
SELECT ?field_of_workLabel (COUNT(?item) AS ?count)
WHERE
{
?item wdt:P106 wd:Q170790 . # occupation is 'mathematician'
?item wdt:P101 ?field_of_work.
SERVICE wikibase:label { bd:serviceParam wikibase:language "en". }
}
GROUP BY ?field_of_workLabel
Приложение В
SPARQL-запрос, выводящий список ученых, занятых в двух областях
одновременно
SELECT ?label ?person
WHERE
{
?person wdt:P101 wd:Q5862903. #field of work is probability theory
?person wdt:P101 wd:Q131476. #field of work is graph theory
?person rdfs:label ?label.
FILTER(LANG(?label) = "en")
}
24
Приложение Г
Программа на языке программирования python. Вычисление расстояния
между рейтингами
#!/usr/bin/env python
# -*- coding: utf-8 -*import random
variety = [line.rstrip('\n') for line in open('./variety.txt')]
expert = [line.rstrip('\n') for line in open('./expert.txt')]
a=0
while a < 1000:
random.shuffle(variety)
rating_distance = 0
for i in range(0, len(variety)):
for j in range(i+1, len(variety)):
first_in_expert = expert.index( variety[i] )
second_in_expert = expert.index( variety[j] )
if first_in_expert > second_in_expert:
rating_distance = rating_distance + 1
print ("%d" % rating_distance)
a = a+1
25
Отзывы:
Авторизуйтесь, чтобы оставить отзыв