ФГБОУ ВО «ПЕТРОЗАВОДСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»
ФАКУЛЬТЕТ МАТЕМАТИКИ И ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ
КАФЕДРА ТЕОРИИ ВЕРОЯТНОСТЕЙ И АНАЛИЗА ДАННЫХ
(
подпись соискателя
)
Ярышкина Екатерина Александровна
Магистерская диссертация
Построение рейтинга вузов по данным Википедии
Направление 090402 — Информационные системы и технологии
Научный руководитель:
к.т.н., рук.
Лаборатории информационных компьютерных технологий
Института прикладных математических исследований
А. А. Крижановский
__________________
(подпись руководителя)
Петрозаводск — 2016
Оглавление
Перечень сокращений ..……….………………………………………………….3
Введение…………………………………………………………………………...4
Глава 1 Обзор предметной области ……………………………………………..7
1.1 Обзор глобальных рейтингов………………………………………….7
1.2 Википедия……………………………………………………………..12
1.3 Особенности Википедии……………………………………………..18
1.4 Новый этап академического ранжирования ………………………..21
1.5 Существующие проблемы ранжирования вузов…………………....24
Глава 2 Ранжирование вузов на основе Википедии…………………………...29
2.1 Анализ данных и извлечение информации ………………………....29
2.2 Алгоритмы ранжирования…………………………………………....31
2.2.1 Метод голосования…………………………………………..31
2.2.2 Адаптированный алгоритм PageRank……………………....32
2.3 Результаты ранжирования…………………………………………....35
Глава 3 Сравнение рейтингов…………………………………………………...39
3.1 Ошибка расстояния как мера………………………………………...39
3.2 Применение меры ошибки расстояния к сравнению рейтингов…..44
3.3 Метод искусственных шевелений…………………………………...48
Заключение ……………………………………………………………………...52
Литература……………………………………………………………………….54
Приложение……………………………………………..……………………….56
2
Перечень сокращений
АИ — авторитетный источник
ХС — хорошая статья
ИС — избранная статья
ARWU — Academic Ranking of World Universities
THE — Times Higher Education
РА — рейтинговое агентство
PR — PageRank
3
Введение
Согласно толковому словарю Уэбстера [1, c.5], рейтинг академического
качества (academic quality rankings) «составляется согласно некоторому
показателю или набору показателей, которые составители рейтинга считают
отражающими или измеряющими академическое качество. Рейтинг
представляет
собой
перечень
лучших
колледжей,
университетов,
факультетов или кафедр в некоторой области знания, расположенных в
порядке убывания или возрастания качества. При этом каждый вуз или
кафедра имеет свой собственный рейтинговый балл, а не объединяется с
другими вузами в группы, однотипные по уровню качества» [2, c.1].
«Академическая ранжирование» — процесс построения рейтинга
высших учебных заведений на основе учёта различных факторов.
Ранжирование проводится университетами, журналами, правительством,
независимыми экспертами. При большом количестве ранжируемых
университетов количество национальных вузов, вошедших в число лучших
вузов мира, становится важным показателем, характеризующим систему
высшего образования. В мире существует достаточно большое число
рейтингов вузов. Рейтинги создаются для повышения конкуренции, как
между отдельными вузами, так и между национальными системами высшего
образования. При составлении каждого рейтинга исследовательская группа
использует собственную методологию — за основу берутся различные
критерии, их сочетания и методы сбора информации. Для существующих
рейтингов такие термины как «качество образования», «уровень научных
исследований», «академическая репутация» могут иметь различное значение.
Международные рейтинги университетов задают стандарты современного
университета, которым пытаются следовать многие вузы, и пытаются влиять
4
на
исследователей.
Однако
далеко
не
всеми
исследователями
университетские рейтинги оцениваются позитивно.
Результатом академического ранжирования являются рейтинги:
● глобальные,
● национальные,
● специализированные.
В
первую
очередь
внимание
уделяется
глобальным
рейтингам.
Академический рейтинг университетов мира (ARWU) — один из наиболее
влиятельных рейтингов лучших вузов мира. THE World University Rankings
— глобальное исследование и сопровождающий его рейтинг лучших
университетов мирового значения. Ведущие вузы мира стремятся занять
первые позиции в глобальных рейтингах.
При составлении рейтинга важное значение имеет выбор параметров.
Метод взвешивания и суммирования является наиболее распространенным
при процедуре ранжирования. В соответствии с придаваемой важностью
каждому показателю присваивается вес, после чего для каждого объекта все
показатели суммируются для получения итогового балла. Поскольку
возможность оценить качество вузов в бальной системе часто подвергается
сомнению, тенденцией последнего времени является ориентация на
разработку многомерных рейтингов, в которых каждый показатель
ранжируется отдельно, а пользователь должен сам выбрать наиболее важные
для себя показатели.
Для академического ранжирования вузов используются такие
показатели как качество образования в вузе, уровень востребованности
выпускников
работодателями
и
уровень
научноисследовательской
активности вуза. Существуют рейтинги, процесс составления которых
существенно отличается от традиционных глобальных рейтингов. Так в
5
исследовании испанской лаборатории «Cybermetrics» вузы сравниваются по
степени наполнения их официальных интернетсайтов.
На сегодняшний день не существует «идеального» рейтинга, то есть
такого рейтинга, который сможет охватить все существующие вузы, будет
обладать прозрачной методикой и все будут довольны результатами этого
ранжирования. Составители рейтингов преследуют определенные цели и
ориентируются на целевую аудиторию при составлении рейтингов. Так в
одном рейтинге отдельный вуз может занимать лидирующие места, а в
другом занимать позицию далеко не в первом десятке. Не представляется
возможным равняться сразу на всех. Ключевым фактором, влияющим на
величину рейтинга, является наличие (или отсутствие) того или иного
показателя. Поэтому при ранжировании любой перечень учитываемых
показателей должен опираться на научную основу.
Это исследование направлено на создание рейтинга вузов на основе
данных из интернетэнциклопедии. У каждого значительного вуза есть статья
в Википедии. В этом исследовании проверяется гипотезу викиметрики
(wikiometrics) о том, что степень популярности статей в Википедии
соответствует позиции вуза в рейтинге. Таким образом, целью этого
исследования является создание нового рейтинга вузов и сравнение его с
существующими глобальными рейтингами академического ранжирования.
Данная работа содержит три главы и заключение. В первой главе
приведен обзор существующих глобальных моделей академического
ранжирования и обзор Википедии как площадки для построения нового
рейтинга. Во второй главе представлено описание методов для ранжирования
и анализ результатов ранжирования. В третьей главе описана предложенная
метрика для сравнения рейтингов.
6
Глава 1 Обзор предметной области
«Академическое ранжирование» (или «ранжирование университетов»)
— это численная оценка высших учебных заведений на основе сравнения
образовательной и научноисследовательской деятельности. Оценивание
осуществляется
на
основе
определенной
методики.
В
истории
академического ранжирования можно выделить несколько основных этапов:
1 этап. 1870 год — Комиссия «Бюро по образованию США»
опубликовала первый ежегодный отчет со статистической информацией и
классификацией учебных заведений.
2 этап. 1983 год — Журнал «News&World Report» опубликовал список
50ти лучших вузов США, созданный в помощь абитуриентам и их
родителям.
3 этап. С 2003 года началось построение системы глобальных
университетских рейтингов: ARWU, THE, Webometrics.
4 этап*1. Ранжирование вузов на основе данных Википедии:
Wikiometrics [3].
1.1 Обзор глобальных рейтингов
Появление глобальных (или мировых) рейтингов в дополнение к
национальным обусловлено глобализацией высшего образования для
предоставления
реальной
информации
о
высшем
образовании.
Государственные органы получили инструмент контроля над качеством
образования, руководство вузов использует рейтинги для разработки мер по
достижению мировых образовательных стандартов. Студенты используют
информацию рейтингов для выбора образовательного учреждения.
1
Сейчас 4 этап существует и развивается параллельно с 3 этапом.
7
Работодатели применяют рейтинги для поиска потенциальных сотрудников
среди студентов. Глобальные рейтинги широко востребованы во всем мире.
Academic Ranking of World Universities (ARWU)
Академический рейтинг университетов мира [14], так же известный как
Шанхайский, составляется в институте высшего образования Шанхайского
университета Цзяо Тун с 2003 года. При его составлении университеты
оцениваются по шести показателям [4]:
1. число выпускниковлауреатов Нобелевской или Филдсовской премий
(10% от общего балла),
2. число сотрудниковлауреатов Нобелевской или Филдсовской премий
(20% от общего балла),
3. количество «часто цитируемых исследователей» по 21 категории (20%
от общего балла),
4. число статей, опубликованных в журналах Nature или Science (20% от
общего балла),
5. число статей, проиндексированных в Science Citation Index Expanded и
Social Sciences Citation Index, а также индексы ведущих журналов Arts
and Humanities Citation Index (20% от общего балла),
6. академическая производительность (per capita performance of a
university) — соотношение пяти вышеизложенных показателей к
численности преподавательского состава вуза (10% от общего балла).
По итогам ежегодного исследования публикуется рейтинг 500 лучших
университетов мира. Одной из причин значительного влияния ARWU
является тот факт, что его методика была признана научно обоснованной,
стабильной и прозрачной [4].
8
Мировой рейтинг университетов Times Higher Education (THE)
Рейтинг [15] рассчитывается по методике британского издания Times
Higher Education (THE) при участии информационной группы Thomson
Reuters и содержит индикаторы, отражающие, как утверждают создатели,
«все их (исследовательских университетов) основные миссии». Всего
индикаторов тринадцать, они сгруппированы по пяти критериям:
преподавание,
исследование,
цитирование,
вложения
индустрии,
международная перспектива [4].
1. академическая репутация университета; дополнительно учитываются
научная деятельность и качество образования (15% от общего балла),
2. научная репутация университета по определенным областям (19,5% от
общего балла)
3. общая
цитируемость
научных
публикаций,
нормализованная
относительно разных областей исследований (32,5% от общего балла),
4. отношение статей, опубликованных в научных журналах, к общей
численности профессорскопреподавательского состава университета
(4,5% от общего балла),
5. объем финансирования исследовательской деятельности университета
по отношению к численности профессорскопреподавательского
состава (5,25% от общего балла),
6. объем финансирования сторонними компаниями исследовательской
деятельности
университета
по
отношению
к
численности
профессорскопреподавательского состава (5,5% от общего балла),
7. отношение государственного финансирования исследовательской
деятельности к общему исследовательскому бюджету университета
(0,75% от общего балла),
8. отношение профессорскопреподавательского состава к численности
9
обучающихся в университете (4,5% от общего балла),
9. отношение
количества
иностранных
представителей
профессорскопреподавательского состава к численности местных (3%
от общего балла),
10.отношение количества иностранных студентов к численности местных
(2% от общего балла),
11.отношение защищенных диссертаций (Ph.D) в университете к
численности профессорскопреподавательского состава (6% от общего
балла),
12.отношение защищенных диссертаций (Ph.D) в университете к
численности бакалавров, идущих на звание магистра (2,25% от общего
балла),
13.средний размер вознаграждения представителя преподавательского
состава (показатель нормализуется по паритету покупательной
способности, исходя из экономики конкретной страны) (2,25% от
общего балла).
По итогам ежегодного исследования публикуется рейтинг 400 лучших
университетов мира.
Webometrics Ranking of World Universities
Рейтинг [16] формируется лабораторией «Cybermetrics», входящей в
исследовательскую
группу
Центра
информации
и
документации
Национального Исследовательского Совета Испании [5]. Концепция
рейтинга Webometrics основана на известном высказывании Б.Гейтса: «если
вас нет в интернете, значит, вас нет в бизнесе» [6]. Webometrics анализирует
не образовательную деятельность университетов в целом, а видимость вуза в
интернет пространстве. Лаборатория Cybermetrics разработала методологию,
10
в основе которой заложена гипотеза — рейтинг сайтов вузов соответствует
рейтингу самих вузов, и алгоритм ранжирования вебсайтов на основе
четырех показателей:
1. влияние (impact) — число уникальных внешних ссылок на сайт,
найденных спомощью Yahoo Search (50% от общего балла),
2. присутствие (presence) — количество проиндексированных страниц —
число страниц сайта вуза в поисковых системах Google, Yahoo, Live
Search и Exalead (20% от общего балла),
3. открытость (openness) — число ценных файлов – количество
доступных на сайте документов в форматах .pdf, .doc и .ppt (15% от
общего балла),
4. превосходство (excellence) — число публикаций и цитат, найденных с
помощью Google Scholar (15% от общего балла).
Впервые Webometrics был опубликован в 2004 году и обновляется дважды в
год, в январе и июле. На настоящее время оценивается 20 000 вузов, данные
публикуются по 12 000 вузов.
Методология рейтинга Webometrics отличается от других глобальных
рейтингов. В основе лежит гипотеза вебометрики, а информация об
университетах собирается с их вебсайтов. Популярность рейтинга привела к
появлению нового направления в вебометрике, в котором для оценки и
сравнения университетов данные берутся со страниц Википедии. У
большинства университетов, на сегодняшний момент, есть страницы в
Википедии. Состояние страницы говорит об интересе читателей к этому
университету.
11
1.2 Википедия
Большая многоязычная интерактивная энциклопедия, которая является
общедоступной и свободно распространяемой, функционирует и развивается
с 2001 года. Создается интерентэнциклопедия не профессиональными
редакторами, а всеми пользователями, которые имеют доступ в Интернет и
считают себя компетентными в соответствующих вопросах. Казалось бы, что
такой подход должен привести к полному краху, однако сейчас Википедия
насчитывает более трех миллионов статей более чем на 130 языках.
Википедия отстаивает «нейтральную точку зрения», т.е. автор статьи и ее
редакторы должны предоставить читателю возможность взглянуть на
спорные вопросы в статье со всех сторон. Еще один важный принцип статьи
— опора на авторитетные источники (ссылки на источники позволяют
провести проверку фактов, изложенных в статье).
У Википедии есть некоторые особенности, которые делают её ценным
источником информации:
1. размер и объем — Английская Википедия содержит более 5 млн.
статей (1е место), Русская Википедия — около 1,3 млн. статей (7е
место) на май 2016 г.
2. своевременное обновление информации [7].
3. метаданные — категории, ссылки, страницы перенаправлений и
инфобоксы2.
4. «мудрость толпы» (wisdom of the crowd) служит заменой знаний
экспертов, при этом каждый человек может внести свой вклад, что
позволяет создать полную качественную статью.
2
Инфобокс – это поле, содержащее структурированную информацию, расположено на правой стороне
(имеется не у всех статей).
12
Станицы в Википедии постоянно находятся в процессе «эволюции», на
смену одним редакторам приходят другие и продолжают добавлять
информацию, ссылки на источники, создают аналоги на других языках.
Качественными параметрами страницы Википедии являются:
1. Статус статьи
1) избранная статья (ИС) — статья высокого качества, которая
отвечает всем требованиям, применяемым к избранной статье,
служит ориентиром для других статей, имеет знак золотой звезды
в правом верхнем углу.
Рисунок 1.1. Избранная статья «Перцептрон» в Русской Википедии
Статья
«Перцептрон» является показательным примером статьи, которая за
первые полгода с момента создания “доросла” до статуса ХС, а затем, еще
через полгода, получила статус ИС. Тема статьи максимально раскрыта, а
текст статьи является оригинальным и соответствует нейтральной точке
зрения, все факты подкреплены ссылками на АИ, присутствуют яркие
иллюстрации, которые не перегружают статью.
13
2) хорошая статья (ХС) — статья так же высокого качества, но
которая по тем или иным причинам не удовлетворяет статусу
ИС, имеет знак синей звезды в правом верхнем углу (знак плюс
зеленого цвета в Английской Википедии).
Рисунок 1.2. Хорошая статья «Гауссовы целые числа» в Русской Википедии
Статус ХС для статьи
«Гауссовы целые числа» является результатом хорошо
проделанной работы. Статья наполнена структурированной информацией,
для пояснения имеются формулы и иллюстрации, факты подтверждены
ссылками на АИ.
3) статья без статуса — статья, которая по тем или иным причинам
не получила статус ИС или ХС. Например, если не показана
значимость статьи, информация в статье не структурирована,
носит рекламный характер или является противоречивой,
источники информации не являются авторитетными и т.д.
14
Рисунок 1.3. Статья без статуса «Томский государственный университет» в Русской Википедии
Томский государственный университет занимает высокое девятое место
среди лучших российских вузов и входит в 1000 первых вузов рейтига
Webometrics [17]. Однако статья
«ТГУ» не отличается высоким качеством,
много
сплошного
текста,
который
тяжело
читать,
имеются
неподтвержденные факты, и невзрачно оформленные списки, хотя по своему
объему статья могла бы претендовать, как минимум, на статус ХС.
2. Градация качества
1) Полная статья (I уровень) — статья полезна читателям, тема
практически раскрыта, нет пустых и незаконченных разделов,
для утверждений есть ссылки на внешние источники, может быть
плохо структурированной, но близкой к ХС.
2) Развитая статья (II уровень) — статья полезна, но не для всех
читателей,
имеются
существенные
пробелы,
требуются
значительные правки, отсутствуют ссылки на внешние
15
источники, какието разделы не обладают нейтральной точкой
зрения.
3) В развитии (III уровень) — статья, которая будет полезна
отдельным читателям, требуется сделать существенные правки,
должен быть полностью написан как минимум один раздел и
один из элементов: инфобокс, полезное изображение, категории,
интервики.
4) Заготовка
(IV
уровень)
—
слишком
короткая
либо
неструктурированная статья, информация может не иметь
отношение к теме статьи.
На такие параметры как статус статьи и градация качества влияет
человеческий фактор, тем не менее, не следует отказываться от этого
параметра при сравнении статей (см. Рис. 1.4). Статьи со статусом ИС и ХС
несут больше значимой информации, чем статьи без статуса.
Рисунок 1.4. Хорошая статья «Ехиднаэдр» в Русской Википедии
16
В статье
«Ехиднаэдр» максимально возможно раскрыта тема, сама статья
интересная, оформлена красиво и правильно, со ссылками на АИ, не
перегружена изображениями, и, несмотря на небольшое отклонение от
минимального размера, статья получила статус ХС.
Количественными параметрами страницы Википедии являются:
1. Объем статьи (page length) измеряется в байтах.
2. Количество редакторов.
Редактор (editor) — это человек, который вносит изменения в текст
статьи и публикует новую версию статьи нажатием кнопки «Записать
страницу».
3. Количество правок.
Правка (edit) — это изменение, которое вносит редактор.
4. Количество интервики.
Интервики (interlanguage link) — это число гиперссылок, ведущих на
статьи Википедии на других языках о данном объекте.
5. Количество просмотров (посещений) страницы (count of views).
6. Количество наблюдателей.
Наблюдатель (watchers) — это тот, кто добавил статью в список
наблюдения, и следит за всеми изменениями, которые происходят со статьей.
7. Количество перенаправлений.
Перенаправление (redirect)
— это обычная страница Википедии, текст
которой содержит команду перенаправления на статью с другим названием.
Пример: чтобы перенаправить пользователя, открывающего страницу
«
МГУ
»
, на страницу
«
Московский государственный университет
»
,
необходимо на странице
«
МГУ
» указать: #REDIRECT [[Московский
государственный университет]]. Теперь, если пользователь напишет в строке
поиска
«
МГУ
»
, то будет перенаправлен поисковой системой сайта
Википедии на страницу
«
Московский государственный университет
»
.
17
8. Количество входящих ссылок (input links).
9. Количество исходящих ссылок (output links).
Каждой исходящей ссылке соответствует входящая ссылка. Пример:
МГУ — один из старейших и крупнейших классических
университетов
России. Здесь [[университет]] является исходящей ссылкой для страницы
«
МГУ
» и входящей ссылкой для страницы «
Университет
»
.
10.Количество внешних ссылок (external links).
Внешняя ссылка — это ссылка на источники в Интернете, которая
содержит дополнительную информацию по теме, рассматриваемой в статье,
но которая по тем или иным причинам не была включена в текст статьи.
1.3 Особенности Википедии
В статье [8] приводятся доказательства эффекта совокупного роста3
статьи Википедии. Aaltonen и др. исключают действия ботов и вандалов, а
подсчитывают только действия людей. Число пользователей является
основной мерой редакторской активности.
Внесение небольшого количества информации в начале «жизни»
статьи может существенно изменить ее «траекторию роста»4 . Создание
заготовки статьи способно оказывать влияние на анонимных читателей со
стороны редакторов. Если влияние носит положительный характер, то в
дальнейшем это может инициировать значительный вклад в содержание
статьи. Существует несколько путей по увеличению объема статьи
(считается в килобайтах). В первую очередь, стимулировать редакторов,
например, предварительно заполняя содержимое базовой информацией
(например, расположение вуза, год основания, выдающиеся выпускники и
3
Совокупный рост – это повышение качества статьи и увеличение значений количественных показателей.
Траектория роста – это путь, по которому происходит изменение длины статьи в процессе внесения правок
[8, c.16].
4
18
т.д.). Кроме того, размер аудитории положительно влияет на процесс
внесения изменений в содержимое статьи, то есть редактирование. Опытные
редакторы становятся более активными, когда видят что неопытными
пользователями (новичками) активно вносятся изменения в содержание.
Оказывается, что популярность статьи систематически влияет на ее длину, то
есть темы, которые интересны большой аудитории, регулярно обсуждаются
и, соответственно, постоянно редактируются.
1) Статья «Россия» — это пример популярной статьи в Русской
Википедии. Это одна из самых объемных статей, с большим
количеством ссылок на дополнительные источники. В среднем эту
статью ежедневно просматривают около 17 тыс. раз.
Рисунок 1.5. Статистика посещений страницы «Россия» в Русской Википедии за 90 дней
2) Статья «Евровидение 2016» — это пример временно популярной
статьи. Эта статья, посвященная международному конкурсу эстрадной
песни, была создана в мае 2015 года, но начала набирать популярность
в начале мая 2016 года. Максимальное количество посещений (535 тыс.
раз) зафиксировано в день после проведения финала конкурса, через
день посещаемость сократилась в четыре раза.
19
Рисунок 1.6. Статистика посещений страницы «Евровидение 2016» в Русской Википедии
за 90 дней
3) Статья «Э (Франция)» о старинном городе на севере Франции — это
пример непопулярной статьи в Русской Википедии. Об этом можно
судить по статистике посещений — в среднем 8 раз за день.
Рисунок 1.7. Статистика посещений страницы «Э (Франция)» в Русской Википедии за 90 дней
Увеличение объёма статьи приводит к росту количества правок в самой
статье, и, как следствие, наблюдается рост редакторской активности [8, c. 15].
20
Для численной оценки качества статьи в [8] используются два
параметра: количество ссылок в статье (относительно длины статьи) и статус
статьи (см. Раздел 1.2).
В статье [8] для исследования эффекта роста используется мера
дистанции редактирования (edit distance) — разность между двумя
последовательными версиями содержания одной статьи, то есть
минимальное число операций вставки/удаления одного символа, замены
одного символа на другой, необходимых для превращения одной версии
статьи в другую. Эта мера нужна, чтобы оценить, насколько отличаются две
последовательные версии одной статьи.
Для каждой новой версии статьи мера «дистанция редактирования»
должна быть пересчитана, поскольку не является одним из параметров для
статьи в Википедии. В этом исследовании из 11 рассматриваемых
параметров 10 являются количественными, их можно получить напрямую без
дополнительных вычислений, один параметр — статус статьи, является
качественным (см. Раздел 1.2).
1.4 Новый этап академического ранжирования
В статье [3] представлено новое понятие — викиметрика (wikiometrics)
— это процесс построения рейтингов реальных объектов на основе метрик из
Википедии [3, c.2]. В своем исследовании Katz и Rokach занимаются
ранжированием мировых университетов и академических журналов с
использованием данных Википедии.
В статье [3] утверждается, что ранжирование объектов является
субъективной задачей, при этом авторы статьи высказывают свое
предположение о том, что
«
мудрость толпы
» эффективно отражает
усредненное восприятие
. Для доказательства своей гипотезы при построении
21
рейтинга Katz и Rokach используют три характеристики Википедии – данные
из инфобоксов, количество входящих ссылок и количество просмотров.
Метод, предложенный в [3], состоит из двух этапов — извлечение
информации и её ранжирование. Для извлечения данных был построен
простой запрос, позволяющий извлечь все объекты типа «University». Далее в
этом списке были оставлены только такие вузы, которые находятся как
минимум в двух из трёх мировых рейтингах: ARWU, THE, Webometrics.
После фильтрации осталось 389 университетов — достаточное число для
этапа ранжирования, для сравнения в рейтинге THE учитывается 400 вузов.
Для ранжирования Katz и Rokach предложили три различных подхода.
В каждом подходе используется свой тип данных:
1. Ссылки – число страниц, которые содержат ссылки на страницу
университета в Википедии; этот подход позволяет определить
важность объекта по числу других объектов в Википедии, которые
принимают решение процитировать его.
2. Число просмотров страницы университета за определенный период
времени; предполагается, что более важный/престижный объект будет
иметь больше просмотров по сравнению с другими объектами.
3. Данные инфобоксов содержат информацию об известных людях
(имеют страницы в Википедии), которые связаны с данным
университетом. Кроме того, для каждого университета извлекается
«индикатор видимости»: преподаватели, выпускники, другие и
видимость (число статей, в которых было упомянуто название
университета).
Эмпирическим путем Katz и Rokach вывели следующую формулу:
S core = 0.5•W orkInP lace + 0.3•AlmaM ater +
+ 0.1•T otalSearch + 0.1•AllRelation,
22
●
W orkInP lace —
количество людей, которые имеют по крайней мере
один из атрибутов в инфобоксе: workInstitution (работа в учреждении),
employer (работодатель), workplace (рабочее место).
● AlmaM ater — количество известных выпускников для каждого
учебного заведения, которые имеют по крайней мере один из
атрибутов: alumnus (выпускник), alumna (выпускниц), almamater,
education(образования), training (профессиональная подготовка).
●
T otalSearch —
количество человек, которые могут способствовать
репутации учебного заведения, имеют один из следующих атрибутов:
visitorSchool, publisher (издатель), coachTeams (тренер команды) и
college.
●
AllRelation — количество статей, в которых есть любое упоминание
вуза (учитываются не только ссылки, но и любое появление названия).
В результате получается, что метод, который применили Katz и Rokach,
может использоваться в качестве простого и эффективного инструмента для
ранжирования. Кроме того, подход с использованием инфобоксов показывает
более высокий коэффициент корреляции (см. Табл. 1.1) по сравнению с
использованием только ссылок или числа просмотров, или комбинации трёх
типов данных при сравнении рейтинга wikiometrics с мировыми рейтингами.
23
Таблица 1.1
Коэффициент корреляции Кендалла между рейтингом wikiometrics и глобальными
рейтингами. Используемые типы данных (на сером фоне) и каждый из компонент
(на белом фоне).
Все корреляции статистически значимы (р<0.001)
[3]
ARWU
THE
Webometrics
Ссылки
0.372
0.396
0.475
Входящие
0.375
0.474
0.396
Отношение входящих
ссылок к исходящим
0.295
0.387
0.295
Просмотр страниц
0.357
0.435
0.423
Инфобоксы (Score)
0.498
0.451
0.485
W orkInP lace
0.525
0.468
0.475
AlmaMater
0.402
0.45
0.427
T otalSearch
0.389
0.477
0.406
AllRelation
0.388
0.387
0.42
Комбинирование
0.501
0.468
0.477
1.5 Существующие проблемы ранжирования вузов
Рейтинги университетов составляются для различных аудиторий,
служат для достижения разных целей и имеют разнородные методологии.
Через несколько лет после появления первых глобальных рейтингов, с целью
повышения качества методологий, были разработаны и приняты Берлинские
принципы ранжирования высших учебных заведений [12]. Все 16 правил
можно разделить на четыре группы:
1) цели и задачи рейтингов,
2) разработка показателей и весовых коэффициентов для них,
3) сбор и обработка данных,
4) представление результатов рейтинга.
24
В основе каждого рейтинга лежит собственная методология, используемые
источники данных, определенные параметры и весовые коэффициенты (в
разных рейтингах для одного параметра могут отличаться). Можно выделить
несколько уровней рейтингов:
1. специализированные (рейтинги учебных заведений по конкретным
направлениям),
2. национальные (рейтинги учебных заведений в отдельных странах),
3. глобальные (рейтинги учебных заведений по всему миру).
Поэтому задача сравнения рейтингов не является тривиальной.
Сейчас не представляется возможным сравнить результаты новых
рейтингов на основе Википедии с рейтингом мировых университетов,
составленным российскими РА. Результаты глобальных рейтингов ставятся
под сомнение представителями МГУ и независимого РА «РейтОР»,
поскольку при ранжировании не учитывается главный параметр — качество
образования [11, с.2]. Однако «РейтОР» представило рейтинг мировых
университетов только один раз в 2008 году. Сейчас рейтинговые агентства
публикуют результаты ранжирования только российских университетов [13].
В этом исследовании для построения рейтинга вузов в качестве
источника данных используется Русская и Английская Википедия. Статьи
рассматриваются с точки зрения не качественного, а количественного
наполнения. В первую очередь, наполнение статьи информацией зависит от
редакторской активности, поскольку сами читатели вносят информацию в
Википедию. Заинтересованный в теме человек пойдет в библиотеку, будет
искать источники информации в Интернете, читать и углубляться в тему. Со
временем это может привести к работе над статьей, а в итоге к полной
хорошей статье. Именно поэтому статьи о российских вузах в Английской
Википедии неполные или совсем отсутствуют. И наоборот, можно вовсе не
найти статью о крупном зарубежном вузе в Русской Википедии.
25
Новосибирский государственный технический университет входит в 15
лучших университетов страны. Статья, посвященная
НГТУ в Русской
Википедии (рис. 1.8), имеет много интересной подтвержденной информации,
ярких иллюстраций и активно развивается в последнее время. Статья
«НГТУ» в Английской Википедии (рис. 1.9) напротив практически не
развивается, содержит краткую преамбулу, историю и список факультетов.
Рисунок 1.8. Статья
«Новосибирский государственный технический университет» в Русской
Википедии
Рисунок 1.9. Статья
«Новосибирский государственный технический университет» в Английской
Википедии
Калифорнийский университет в СантаКрузе (UCSC) входит в число
100 лучших университетов мира по версии трех глобальных рейтингов.
Статья, посвященная
UCSC
, имеет статус ХС в Английской Википедии. В
Русской Википедии статья «
UCSC
» была создана в 2016 году и является
26
лишь заготовкой, которая не несет никакой полезной информации для
читателя.
Рисунок 1.10. Статья
«Калифорнийский университет в СантаКрузе» в Английской Википедии
Рисунок 1.11. Статья
«Калифорнийский университет в СантаКрузе» в Русской Википедии
По всей видимости, в рейтинге, который будет построен на основе
Английской Википедии, российские вузы пока что не смогут занять ведущие
позиции, как и в существующих сейчас глобальных рейтингах. В Русской
Википедии ведущие вузы страны представлены весомо. Статьи об этих вузах
являются полными или развитыми, поэтому смогут составить конкуренцию
зарубежным вузам в рейтинге, построенном на основе Русской Википедии.
27
Для ранжирования статей Википедии в этом исследовании
используется 10 количественных параметров, которые не требуют
дополнительных
расчетов.
Однако,
поскольку
статьи
постоянно
редактируются, то извлеченная сегодня информация уже на следующий день
может быть неактуальной. В первую очередь это касается неполных статей,
то есть статей без статуса и статей III и IV уровней (см. Раздел 1.2).
28
Глава 2 Ранжирование вузов на основе Википедии
Объектом исследования для построения рейтингов вузов являются
статьи из Английской Википедии (
en.wikipedia.org
) и Русской Википедии
(
ru.wikipedia.org
). В этой главе будет рассмотрен принцип выбора статей для
исследования, инструменты для извлечения данных по параметрам, методы
построения рейтингов по данным и результаты сравнения рейтингов по
каждому методу.
2.1 Анализ данных и извлечение информации
В англоязычном разделе Википедии можно выбрать статьи с разным
статусом (ИС, ХС, статья без статуса). В Русской Википедии ни одна статья
об университетах на сегодняшний день не имеет статуса ИС или ХС, и не
являются кандидатами на его получение. Из Английской Википедии было
выбрано 59 статей об университетах следующим образом: вуз присутствует,
как минимум, в одном из трех глобальных рейтингах (ARWU, THE,
Webometrics) и занимает позицию в начале этого рейтинга. Из 59 выбранных
страниц о вузах статус ИС имеют 7 статей, статус ХС имеют 18 статей,
остальные 34 статьи не имеют статуса. Поскольку среди выбранных статей
не оказалось ни одной о российском вузе, то к выбранным статьям были
добавлены еще пять статьи о ведущих российских вузах и статья,
посвященная ПетрГУ, чтобы сравнить позиции отечественных вузов по
сравнению с зарубежными в рейтинге. Все выбранные статьи о российских
вузах являются статьями без статуса. Таким образом, количество выбранных
вузов составляет
N=65
.
Для построения рейтинга по
N
вузам из Английской Википедии
используется 10 количественных параметров, которые описаны в разделе 1.2.
29
По каждому вузу собрана статистика по состоянию на 2016 год. Большую
часть данных можно увидеть во вкладке «информация о странице» (page
information) на странице Википедии. Еще часть данных во вкладке «история»
(history). Для извлечения данных используются инструменты Wikimedia [18],
например, pageviews для анализа количества просмотров страниц.
Связь между параметрами показана на рис. 2.1. Максимальная
взаимосвязь наблюдается между четырьмя параметрами в следующих парах
«просмотрывходящие
ссылки»,
«входящие
ссылкиредакторы»
и
«редакторыправки».
Рисунок 2.1. Корреляция между параметрами
Для каждого вуза, статья о котором была выбрана в Английской
Википедии, есть интервики на Русскую Википедию. В Русской Википедии ни
одна из
N выбранных статей не имеет статуса ИС или ХС, тем не менее
можно разделить статьи используя градацию качества (см. Раздел 1.2). Среди
30
N статей качество I уровня имеют три статьи, II уровня — 11 статей, III
уровня — 29 статей, IV уровня — 22 статьи. Из этого можно заключить, что
больше 75% рассматриваемых статей находятся в развитии и, следовательно,
данные по параметрам для этих статей будут значительно меняться. Для
построения рейтинга по 65 вузам из Русской Википедии также используется
10 количественных параметров, которые описаны в разделе 1.2. Для каждого
вуза собрана статистика по состоянию на 2016 год.
2.2 Алгоритмы ранжирования
В этом разделе будут рассмотрены метод голосования и алгоритм
ссылочного ранжирования, и представлены результаты построения рейтингов
на основе данных методов.
2.2.1 Метод голосования
На первом этапе составлены два рейтинга вузов:
enWikipediaBord
— из
англоязычной (см. Приложение А) и
ruWikipediaBord —
из рускоязычной (см.
Приложение Б) версий Википедии с одинаковым весом для каждого из
параметров. Каждый из 10 параметров проранжирован на основе метода
Борда [9]. Упорядочиваем значения по каждому из параметров,
максимальное значение получит
(N1) баллов, следующее
(N2) баллов и так
далее, последнее значение получает ноль баллов (см. Табл. 2.1). Затем
суммируем баллы для каждого вуза. Итоговая сумма баллов является
рейтинговым баллом вуза.
31
Таблица 2.1
Фрагмент таблицы ранжирования с применением метода Борда. См. полную версию
таблицы [20, с.1]
Название вуза
Vстраницы
Балл Редакторы Балл ... Рейтинг
Moscow State
University
90 988
60
743
64
...
628
SaintPetersburg State
University
94 996
61
430
63
...
610
Petrozavodsk State
University
268 427
64
128
53
...
464
Согласно методу Борда [9], в этом исследовании вуз может получить
максимум
(N1)•10 «голосов» (первое место в рейтинге) или не получить ни
одного «голоса» (последнее место в рейтинге). В итоговом рейтинге
N вузов
расположены в порядке уменьшения суммы полученных «голосов».
2.2.2 Адаптированный алгоритм PageRank
На втором этапе составлены два рейтинга вузов:
enWikipediaPageRank
— из англоязычной (см. Приложение В) и
ruWikipediaPageRank —
из
рускоязычной (см. Приложение Г) версий Википедии по 10 параметрам по
адаптированному алгоритму PageRank.
Алгоритм ссылочного ранжирования PageRank — это метод для
определения «важности» страницы. Впервые алгоритм ранжирования с
использованием гиперссылок в Интернете был представлен Сергеем Брином
и Ларри Пейджем на седьмой международной конферненции World Wide
Web в 1998 году [10].
PageRank (PR) — это вес страницы, вычисленный на основании
алгоритма PageRank.
32
Алгоритм PageRank основан на следующих идеях:
1) Если страница А указывает на страницу В, то страница А считает
страницу В важной страницей, тем самым увеличивая значимость
страницы (увеличивает PR).
2) Страницы, указывающие на другие страницы, также имеют свою
собственную важность (свое значение PR).
На первом шаге все страницы равны между собой, P R = N1 . Рассмотрим
формулу подсчета PR на определенном шаге. Каждая страница отдает
равную долю своей важности другим страницам, на которые она ссылается:
n
P R(A) = (1 − d) + d( ∑
i=1
P R(Bi)
N(Bi) ) ,
где ᵄᵄ(ᵃ) — PageRank страницы ᵃ,
ᵅ — коэффициент затухания используется для уменьшения передаваемого
веса (величина непостоянная, обычно принимают 0.85 [10]) — это
вероятность того, что пользователь, открывший страницу, перейдет по одной
из ссылок, содержащейся на этой странице, а не закроет ее,
ᵄ — количество всех страниц,
ᵅ — количество страниц, ссылающихся на страницу,
ᵄ
— ᵅстраница, которая ссылается на страницу ᵃ,
ᵅ
ᵄᵄ(ᵄ
) — PageRank страницы ᵄ
,
ᵅ
ᵅ
ᵄ(ᵄ
) — количество исходящих ссылок со страницы ᵄ
.
ᵅ
ᵅ
Вычисления PR для каждой страницы производятся до тех пор, пока хотя бы
для одной страницы модуль разности между текущим и предыдущим
значениями PR не станет меньше порогового значения ε . Значение PR будет
точнее, чем меньше значение ε .
Адаптируем алгоритм PageRank для ранжирования страниц Википедии.
Пусть множество страниц об университетах — это множество вершин,
значение параметра определяет направление ребра, страница с меньшим
33
значением для параметра считает страницу с большим значением параметра
более важной (см. Рис. 2.2).
Рисунок 2.2. Фрагмент ориентированного графа
для параметра
«количество редакторов»
Адаптированный алгоритм PageRank (по одному параметру):
while
|oldPR(any_page)PR(any_page)| > ᵰ
do
for
page
= 1 to N do //
page
— старница, N — количество страниц
i
i
sumPR = 0;
for
link
= 1 to N1 do //
link
— страница с ссылкой на страницу page
j
j
i
if
link
== 1
then //
если ссылка есть, то
j
sumPR += PR(link
)/count(link
); //
добавляем значение — PR страницы, которая
j
j
ссылается, разделить на количество ссылок с этой страницы
end;
PR(page
) = sumPR;
i
PR(page
) *= d; //
ужножить на коэффициент затухания
i
PR(page
) += (1d); //
прибавить нормирующий фактор
i
end;
end.
34
Для выбранного параметра, при необходимости, следует указать
значение весового коэффициента. Получаем значения PR для каждого
объекта из списка по одному параметру. Итоговый рейтинг для каждого
объекта будет сформирован по сумме PR по каждому параметру, выбранного
для ранжирования.
Исходный код программы, реализующей адаптивный алгоритм
PageRank, и тестовая коллекция доступны на странице исследования на
платформе Github [19].
2.3 Результаты ранжирования
В ходе исследования построены рейтинги вузов по Английской и
Русской Википедии. Для построения рейтингов использовались метод
голосования
и
алгоритм
ссылочного
ранжирования.
Результаты
ранжирования по 10 параметрам расположены в Приложении.
Рассмотрим расположение российских вузов в каждом из построенных
рейтингов (см. Табл. 2.2). Предположение подтвердилось — российские вузы
занимают низкие позиции в рейтинге Английской Википедии и имеют более
высокие позиции (на несколько десятков) в рейтинге Русской Википедии.
35
Таблица 2.2
Расположение российских вузов в построенных рейтингах (из 65 вузов)
Название вуза
enWikipedia
Bord
enWikipedia
PageRank
ruWikipedia
Bord
ruWikipedia
PageRank
Moscow Institute of
Physics and
Technology (МФТИ)
61
32
7
4
Moscow State
University (МГУ)
45
13
1
1
National Nuclear
Research University
(МИФИ)
63
39
12
9
Novosibirsk State
University (НГУ)
64
53
17
14
Petrozavodsk State
University (ПетрГУ)
65
61
18
3
SaintPetersburg State
University (СПбГУ)
54
22
2
2
Сравним полученные рейтинги вузов, используя ранговую корреляцию
Кендалла. В результате получается, что метод ссылочного ранжирования
может быть использован в качестве простого инструмента для построения
рейтингов. Для ранжирования в Английской Википедии более высокий
коэффициент корреляции показал подход с использованием всех 10
параметров (см. Табл. 2.3) по сравнению с использованием только ссылок
или числа просмотров при сравнении с глобальными рейтингами. Для
ранжирования в Русской Википедии коэффициент корреляции подход с
использованием
четырех
взаимосвязанных
параметров
(количество
просмотров, входящих ссылок, редакторов и правок) и только количества
просмотров показал близкие высокие результаты. Подход с использованием
всех 10 параметров показал только третий результат (см. Табл. 2.4), но более
высокий по сравнению с использованием только ссылок при сравнении с
36
глобальными рейтингами. Следует расширить количество университетов в
рейтинге для получения более точных результатов.
Таблица 2.3
Коэффициент корреляции Кенделла между рейтингом enWikipediaPageRank,
глобальными рейтингами и рейтингами, построенными по методу Борда (по 65 вузов
в каждом).
Все корреляции статистически значимы (р<0.01)
ARWU
THE Webometrics
enWikipedia ruWikipedia
Bord
Bord
Ссылки
(входящие,
исходящие и внешние)
0,577
0,516
0,511
0,813
0,141
Отношение входящих
ссылок к исходящим
0,413
0,458
0,471
0,629
0,223
Количество просмотров
0,469
0,452
0,444
0,667
0,284
Количество просмотров,
0,569
редакторов, правок и
входящих ссылок
0,523
0,552
0,616
0,534
0,658
0,649
0,594
0,733
0,378
Все параметры
При построении рейтингов в Английской Википедии все статьи
оценивались одинаково, не смотря на статусность. Стоит отметить, что
статьи со статусом ИС не заняли самых высоких мест, но расположились в
первой половине итогового рейтинга.
37
Таблица 2.4
Коэффициент корреляции Кенделла между рейтингом ruWikipediaPageRank,
глобальными рейтингами и рейтингами, построенными по методу Борда (по 65 вузов
в каждом).
Все корреляции статистически значимы (р<0.01)
ARWU
THE Webometrics
enWikipedia ruWikipedia
Bord
Bord
Ссылки
(входящие,
исходящие и внешние)
0,474
0,412
0,375
0,219
0,769
Отношение входящих и
исходящих ссылок
0,277
0,234
0,428
0,381
0,136
Количество просмотров
0,614
0,622
0,513
0,228
0,785
Количество просмотров,
0,619
редакторов, правок и
входящих ссылок
0,648
0,495
0,233
0,844
0,558
0,517
0,426
0,167
0,876
Все параметры
При построении рейтингов в Русской Википедии все статьи
оценивались одинаково, не смотря на градацию качества. Тем не менее, как и
предполагалось, полные и развитые статьи (I и II уровень) заняли более
высокие места, чем статьи в развитии и заготовки (III и IV уровень).
38
Глава 3 Сравнение рейтингов
На сегодняшний день нет эталонного рейтинга, а существующие
рейтинги считаются несовершенными, поэтому нередко подвергаются
критике. Каждый из рейтингов использует свою методологию ранжирования,
собственные параметры и весовые коэффициенты. Итак, вопрос сравнения
рейтингов является актуальным.
3.1 Ошибка расстояния как мера
В этом исследовании для сравнения двух рейтингов предложено
вычислять ошибку расстояния между двумя списками путем попарного
сравнения. Если выбранная пара в первом списке имеет такой же порядок,
как и во втором списке, то ошибка равна нулю, иначе ошибка равна единице.
После сравнения двух упорядоченных списков получаем два значения:
E rr — сумма всех ошибок при парном сравнении двух списков.
U niq — количество уникальных объектов в каждом списке (в процентах).
Определение.
Ошибкой расстояния E rr
между двумя упорядоченными
списками вузов (рейтингами)
X=(x
Y=(y
1,x
2,...,x
n)
и
1,y
2,...,y
m)
называется
величина, удовлетворяющая условию:
(v = xi1 ) ∧ (v = y j1) ,
(w = xi2 ) ∧ (w = y j2) ,
(1)
i1 < i2 ,
v =/ w .
index —
это функция, которая возвращает номер элемента в списке.
i1 = index (X, v), i2 = index (X, w).
j 1 = index (Y , v), j 2 = index (Y , w).
39
v, w — различные вузы; xi1 , xi2 — вузы в первом рейтинге; y j1, y j2 — вузы
во втором рейтинге.
Ошибки зависят от того, как соотносятся индексы j 1, j 2 в списке
Y
.
Величина называется метрикой, если удовлетворяет следующим условиям
(аксиомам метрики):
1. Аксиома тождества: E rr(X, Y ) = 0 ⇔ X = Y очевидно из определения
E rr , см. (2) и (3).
2. Аксиома симметрии: E rr(X, Y ) = E rr(Y , X ) очевидно из определения
E rr , см. (2) и (3).
3. Аксиома треугольника: E rr(X, Y ) ≤ E rr(X, Z ) + E rr(Z, Y ) .
Доказательство.
Введем обозначение:
1. ΔX v,w = index(X, v) − index(X, w) — разность между позициями вузов v
и w в списке X ,
2. ΔY v,w = index(Y , v) − index(Y , w) —
разность между позициями вузов v
и w в списке Y ,
3. ΔZ v,w = index(Z, v) − index(Z, w) — разность между позициями вузов v и
w в списке Z .
Рассмотрим все варианты ΔY v,w , ΔZ v,w для ΔX v,w < 0 , см. (1), для пары
v, w в таблице 3.1.
40
Таблица 3.1
Выполнение аксиомы треугольника для ошибки расстояния в зависимости от
разницы позиций объектов в списке
ΔX v,w
ΔY v,w
ΔZ v,w
E rrv,w(X, Y ) ≤ E rrv,w(X, Z ) + E rrv,w(Z, Y )
ΔX v,w < 0 ΔY v,w < 0 ΔZ v,w < 0
0 ≤ 0+0
ΔZ v,w > 0
0 ≤ 1+1
ΔY v,w > 0 ΔZ v,w < 0
1 ≤ 0+1
ΔZ v,w > 0
1 ≤ 1+0
Из табл. 3.1 видно, что аксиома треугольника будет выполняться для
каждой пары v, w и аксиома доказана.
Errv,w(X, Y ) ≤ Errv,w(X, Z ) + Errv,w(Z, Y ) ⇔ Err(X, Y ) ≤ Err (X, Z ) + Err (Z, Y ) .
Покажем выполнение аксиомы треугольника на примере.
41
Таблица 3.2
Пример выполнения аксиомы треугольника для четырех рассматриваемых
рейтингов (ARWU, THE, Webometrics, Wikipedia)
Рейтинги
Err(X, Y )
Err (X, Z )
Err (Z, Y )
Аксиома
X = ARW U,
Y = W ebometrics,
Z = T HE
216
216
242
216 < 458
X = ARW U,
Y = T HE,
Z = W ebometrics
216
216
242
216 < 458
X = T HE,
Y = W ebometrics,
Z = ARW U
242
216
216
242 < 432
X = T HE,
Y = W ebometrics,
Z = W ikipedia
242
125
129
242 < 254
X = ARW U,
Y = W ebometrics,
Z = W ikipedia
216
116
129
216 < 245
X = ARW U,
Y = T HE,
Z = W ikipedia
216
116
125
216 < 241
Поскольку все три условия выполняются, следовательно, величина E rr
является метрикой.
Покажем подсчет метрики E rr на простом примере. Сравним два
тестовых рейтинга: первый список обозначим
ξ , второй список —
ψ (см.
Табл. 3.3). Пусть в каждом из них будет по 5 вузов. Списки различаются на
один объект: в первом есть Petrozavodsk State University, а во втором — Yale
University.
42
Таблица 3.3
Тестовые рейтинги
ξ
и
ψ
Rank
ξ
ψ
1
MIT
Stanford University
2
Stanford University
MIT
3
University of Oxford
Columbia University
4
Columbia University
Petrozavodsk State University
5
Petrozavodsk State University
University of Oxford
Выбираем пару вузов из списка
ξ
. Рассмотрим первую пару v =
MIT
,
w = Stanford
.
В списке
ξ
: объект v занимает позицию 1 ( i1 = 1 ), w занимает
позицию 2 ( i2 = 2 ). В списке
ψ
: объект v занимает позицию 2 ( j 1 = 2 ), w
занимает позицию 1 ( j 2 = 1 ). Получается, что для пары объектов (v, w) =
(
MIT
,
Stanford
)
порядок в списке
ψ не сохраняется, соответственно
E rrMIT,Stanford = 1. Сравнивая попарно все вузы, находим еще одну пару
(v, w) = (
Oxford
,
Columbia
),
для
которой
порядок
не
совпадает
(Δξv,w < 0, Δψv,w > 0), следовательно
E rrOxford,Columbia = 1. Итоговая ошибка
расстояния
для
двух
тестовых
рейтингов
равна
E rr( ξ,ψ)=
E rrMIT,Stanford + E rrOxford,Columbia = 2.
Для двух списков длинны M и N максимальное значение ошибки
расстояния равно E rr =
L*(L−1)
, где L
2
= min(M , N ).
Исходный код программны, реализующей вычисление ошибки
расстояния и уникальных объектов, а также тестовая коллекция доступны на
странице исследования на платформе Github [19].
43
3.2 Применение меры ошибка расстояния к сравнению рейтингов
Сравнивая попарно все исследуемые рейтинги, получаем следующие
значения ошибки расстояния и количество уникальных вузов в каждом из
рейтингов (см. Рис. 3.1
–
3.4). Во всех рейтингах каждый вуз строго
упорядочен относительно других. Каждый рейтинг содержит по 65 вузов,
общее число уникальных вузов во всех списках составляет 72 вуза.
Сравним расположение рейтингов друг относительно друга для
Английской и Русской Википедии. На рисунках 3.1
–
3.5 толщина линии
обозначает расстояние между парой рейтингов. Чем толще линия, тем
расстояние меньше, по сравнению с другими рейтингами, и наоборот. На рис.
3.1 википедийный рейтинг по методу Борда (Английская Википедия)
занимает «центральное» место, тем самым показывая близость к
рассматриваемым глобальным рейтингам — ARWU, THE и Webometrics,
которые, в свою очередь, находятся друг от друга на расстоянии вдвое
больше.
Рисунок 3.1. Значение ошибки расстояния для четырех рейтингов
(ARWU, THE, Webometrics, википедийныйenWikipediaBord)
44
На рис. 3.2 википедийный рейтинг по методу PageRank (Английская
Википедия) занимает «центральное» место, приблизившись к рейтингам
ARWU и THE, и, не изменив своего положения относительно рейтинга
Webometrics.
Рисунок 3.2. Значение ошибки расстояния для четырех рейтингов
(ARWU, THE, Webometrics, википедийныйenWikipediaPageRank)
На рис. 3.3 википедийный рейтинг по методу Борда (Русская
Википедия) занимает «центральное» место, незначительно отдалившись от
рейтингов ARWU и THE, и существенно отдалившись от рейтинга
Webometrics по сравнению с рейтингом по методу Борда (см. Рис. 3.1).
45
Рисунок 3.3. Значение ошибки расстояния для четырех рейтингов
(ARWU, THE, Webometrics, википедийныйruWikipediaBord)
На рис. 3.4 википедийный рейтинг по методу PageRank (Русская
Википедия) занимает «центральное» место, незначительно отдалившись от
рейтинга ARWU и Webometrics, и, изменив свое положение относительно
THE только на один пункт. Если сравнивать с рейтингом по методу PageRank
(см. Рис. 3.2), то википедийный рейтинг значительно отдалился от рейтинга
Webometrics.
46
Рисунок 3.4. Значение ошибки расстояния для четырех рейтингов (ARWU, THE, Webometrics,
википедийныйruWikipediaPageRank)
В результате получается, что построенные в ходе исследования
википедийные рейтинги ближе (с точки зрения порядка следования вузов) к
глобальным рейтингам ARWU и THE. Если сравнивать рейтинги по
количеству уникальных вузов U niq , то стоит отметить, что между
википедийными рейтингами и вебометрическим рейтином Webometrics
больше одинаковых вузов среди выбранного ранее ограниченного числа.
Сравним все википедийные рейтинги, используя метрику ошибка
расстояния E rr. На рис. 3.5 отображены четыре википедийные рейтинга
построенные в Английской и Русской Википедии по методу Борда и
алгоритму PageRank. Рейтинг
enWikipediaBord отдалился больше всего от
других рейтингов. Рейтинги в Английской Википедии сильнее отличаются
друг от друга по сравнению с рейтингами в Русской Википедии. Однако,
если сравнить рейтинги, построенные по одному методу, но для разных
языковых версий Википедии, о можно увидеть еще более существенные
47
различия. Эти различия были видны и при сравнении позиций российских
вузов в википедийных рейтингах (см. Табл. 2.2).
Рисунок 3.5. Значение ошибки расстояния для четырех википедийных рейтингов
Все это еще раз доказывает тот факт, что разные версии Википедии
существенно отличаются друг от друга.
3.3 Метод искусственных шевелений
Проверим устойчивость метода вычисления ошибки расстояния E rr
путем создания «искусственных шевелений» в списке следующим образом.
Сравнивая два списка (рейтинга), на каждом шаге совершается «шевеление»
— многократное число перестановок (в данном случае 1000 раз) двух
объектов (вузов) во втором рейтинге, выбранных случайным образом,
первый рейтинг остается без изменений. Для каждого «шевеления»
вычисляется среднее значение E rr
.
48
Четыре рейтинга сравниваются со следующими списками:
1) Byhand – список, составленный вручную путем выбора вузов из общего
списка (вузы, которые встречаются в любом из четырех
рассматриваемых
рейтингах
—
ARWU,
THE,
Webometrics,
enWikipediaBord).
2) Rand – список, сгенерированный с использованием функции
rand
.
Функция
rand()
без параметров возвращает псевдослучайные целые
числа в диапазоне от 0 до 32767, имеет равномерный закон
распределения.
Результаты «искусственных шевелений» показаны на рис. 3.6 между
Byhand и четырьмя рейтингами, рассматриваемыми в статье. Стоит отметить,
что для глобальных рейтингов количество уникальных вузов
Uniq=45%
, а
для Википедийного рейтинга
Uniq=22%
, именно по этой причине зеленая
ломаная, соответствующая ошибке расстояния между списком
Byhand и
википедийным рейтингом находится выше других. Чем меньше уникальных
вузов в двух списках, тем больше пар можно сравнить, соответственно, если
имеют место различия в порядке следования вузов (различные позиции в
рейтинге), то значение ошибки расстояния
Err будет больше. Рис. 3.6
отображает человеческий фактор при составлении рейтинга — отдать
«любимым» вузам более высокие позиции.
49
Рисунок 3.6. Зависимость ошибки расстояния
Err
от количества перестановок внутри списка
ByHand
(номер
«шевеления», умноженный на 1000). Четыре ломанные линии соответствуют изменению
Err
при сравнении
списка
ByHand
с рейтингом ARWU (синяя линия), с рейтингом THE (красная линия), с рейтингом
Webometrics (желтая линия), с Википедийным рейнгом (зеленая линия)
Усредненные результаты «искусственных шевелений» между списками
Rand и четырьмя исследуемыми рейтингами показаны на рис. 3.7. Среднее
значение
Uniq=48%
для всех рейтингов. Стоит отметить, что здесь зеленая
ломаная (википедийный рейтинг) находится ниже других, то есть
википедийный рейтинг находится ближе к случайным спискам
Rand
, чем
другие рейтинги.
Рисунок 3.7. Зависимость усредненной ошибки расстояния
Err
от количества перестановок (номер
«шевеления», умноженный на 1000) по 10 спискам
Rand
. Четыре ломанные линии соответствуют изменению
Err
при сравнении списка
Rand
с рейтингом ARWU (синяя линия), с рейтингом THE (красная линия), с
рейтингом Webometrics (желтая линия), с Википедийным рейнгом (зеленая линия)
50
Графики на рис. 3.6 и 3.7 показывают, что значение Err меняется
(возрастает) после совершения первого «шевеления», при последующих —
существенных изменений не наблюдается.
51
Заключение
В ходе исследования были рассмотрены существующие модели
глобальных университетских рейтингов высших учебных заведений, а
именно Academic Ranking of World Universities (ARWU), рейтинг
британского издания Times Higher Education (THE) и вебометричеcкий
рейтинг (Webometrics), и вопрос о возможности создания «идеального»
рейтинга, который станет единственным взамен существующих.
В исследовании предметной областью стали статьи в Английской и
Русской Википедии о высших учебных заведениях в России и за рубежом.
Используя метод голосования и адаптированный алгоритм ссылочного
ранжирования, составлены википедийный рейтинги по данным десяти
количественных параметров статей Википедии для выбранных 65 вузов. В
ходе исследования было показано, что рейтинги, построенные в разных
версиях Википедии, существенно отличаются друг от друга. Полученные
рейтинги сравнивались с глобальными при помощи ранговой корреляции.
Так же для сравнения рейтингов предложен метод вычисления «ошибки
расстояния» (edit distance). В результате было наглядно показано, что
википедийными рейтингами было занято «центральное» (промежуточное)
положение между тремя глобальными рейтингами, Википедийный рейтинг
находится ближе к каждому из глобальному рейтингу, чем они друг к другу.
Самое близкое положение ко всем глобальным рейтингам занял
википедийный рейтинг, построенный в Английской Википедии по алгоритму
ссылочного ранжирования. Для подтверждения полученных результатов в
будущем
исследовании
следует
охватить
большее
количество
рассматриваемых вузов, поскольку сейчас рассматривалась часть глобальных
рейтингов, ограниченная 65 позициями.
52
В используемых методах построения рейтинга не применялись весовые
коэффициенты — все параметры равнозначны. Выбирая различные весовые
коэффициенты для параметров при построении рейтинга можно получить
итоговый рейтинг максимально приближенный к глобальному. Таким
образом, можно выяснить какие из параметров Википедии являются
наиболее важными для каждого из трех глобальных рейтингов, а от каких
параметров можно вовсе отказаться.
В будущей работе планируется охватить максимально возможное
количество вузов, определить самые значимые параметры статей и
воспользоваться данными от инфобоксов. Также следует расширить метод
вычисления «ошибки расстояния», например, учитывая расстояние между
элементами пары объектов в рейтинге. То есть чем больше расстояние между
элементами, тем больше ошибка, следовательно, расхождение между
рейтингами.
53
Литература
1. Webster, D. S. Academic Quality Rankings of American Colleges and
Universities. Springfield, Illinois: Charles C. Thomas, 1986
2. Clarke M. Some Guidelines for Academic Quality Rankings, Higher
Education in Europe, Vol. XXVII, No. 4, 2002 URL:
http://siteresources.worldbank.org/INTAFRREGTOPTEIA/Resources/acad_
qual_rank_guide.pdf
3. Gilad Katz, Lior Rokach Wikiometrics: A Wikipedia Based Ranking
System. 2016 URL:
http://arxiv.org/abs/1601.01058
4. А. Кинчарова Мировые рейтинги университетов: методология,
эффекты и критика // Европейский университет в СанктПетербурге —
Препринт: Томск, 2013
URL:
http://pastcentre.ru/wpcontent
/uploads/2013/04/Metodologiya_mirovyh_reitingov_universitetov.pdf
5. А.А. Печников, О.Г. Илюкевич Рейтинг официальных webсайтов
университетов России и Финляндии: сравнительный анализ (рус.) //
Информационные ресурсы России. — Москва: Российское
энергетическое агентство Министерства энергетики Российской
Федерации, 2008. — № 3. — С. 25—28. — ISSN 02043653
URL:
http://www.aselibrary.ru/datadocs/doc_792bo.pdf
6. А.Г. Дубинский Первоочередные меры для повышения позиции вуза в
рейтинге Webometrics // ВосточноЕвропейский журнал передовых
технологий — 2012. — № 6/2 (60). — С. 52‒
56. — ISSN 17293774
URL:
http://repo.dma.dp.ua/6/1/dubinsky_webometrics1.pdf
7. И.Я Алекперова Анализ факторов, влияющих на рейтинг статей в
викисреде. // Институт Информационных Технологий НАНА, Баку,
Азербайджан, 2012
—
№2(6),
— С.
2732 URL:
http://jpis.az/storage/files/article/df4f60b58e045bb1e87221ea738257de.pdf
8. Aleksi Aaltonen, Stephan Seiler Cumulative Growth in UserGenerated
Content Production: Evidence from Wikipedia. 2015
54
9. О.Д. Кичмаренко, А.П. Огуленко Теория принятия решений. Раздел:
Теория голосования // ОНУ им. Мечникова, 2012 — С. 1722
10.Крис Райдингс, Джилл Вэйлен Растолкованный PageRank, или все что
вы хотели знать о PageRank: пер. с англ. А. Садовский — 2002. URL:
http://digits.ru/articles/promotion/pagerank.html
11.С.С. Донецкая Российский подход к ранжированию ведущих
университетов мира // ЭКО. — 2009. — № 8. — C. 137–150 URL:
http://old.kpfu.ru/capr/bin_files/reitor!46.pdf
12.Berlin Principles on Ranking of Higher Education Institutions
URL:
http://200.6.99.248/~bru487cl/files/Berlin_Principles_Release.pdf
13.Международная информационная группа «Интерфакс» Независимая
оценка вузов. Национальный рейтинг университетов — 2009.
URL:
http://www.univerrating.ru/httproot/Files/Reiting_1.pdf
14.Академический рейтинг университетов мира — 2015 [Электронный
ресурс] URL:
http://www.shanghairanking.com/ru/ARWU2015.html
15.Times Higher Education. World University Rankings 20152016
[Электронный
ресурс]
URL:
www.timeshighereducation.com/
worlduniversityrankings/2016/worldranking#!/page/0/length/25/sort_by/r
ank_label/sort_order/asc/cols/rank_only
16.Ranking Web of University. World
[Электронный ресурс]
URL:
www.webometrics.info/en/world
17.Российские университеты улучшили свои позиции в рейтинге
Webometrics. URL:
http://unirating.ru/news.asp?lnt=7&id=464
18.Wikimedia Tool Labs. URL:
https://tools.wmflabs.org/?list
19.Univerating [проект] URL:
https://github.com/katerysh/univerating
20.Ранжирование
вузов.
Метод
Борда
[Электронный
ресурс]
URL:
https://goo.gl/PLs9UJ
55
Приложение
Приложение А
Википедийный рейтинг за 2015 год, построенный по методу Борда для 65 вузов, выбранных из
Википедии (статьи из Английской Википедии) — enWikipediaBord
№
Название вуза
Страна
Рейтинг
1
MIT
США
597
2
Stanford University
США
589
3
Columbia University
США
575
4
University of California, LA
США
553
5
Cornell University
США
552
6
University of Oxford
Великобритания
544
7
University of Michigan
США
539
8
Yale University
США
531
9
Harvard University
США
530
10
University of California, Berkeley
США
525
11
University of Cambridge
Великобритания
511
12
Duke University
США
497
13
University of Pennsylvania
США
485
14
University of Chicago
США
476
15
Princeton University
США
475
16
Texas A&M University
США
469
17
University of Florida
США
457
18
University of Toronto
Канада
444
19
McGill University
Канада
435
20
University of North Carolina, Chapel Hill
США
426
21
Michigan State University
США
422
22
Florida State University
США
421
23
New York University
США
420
24
Dartmouth College
США
419
25
Georgia Institute of Technology
США
410
26
University of Illinois, UrbanaChampaign
США
376
27
University of Georgia
США
368
28
University of Washington
США
364
29
University of Central Florida
США
357
56
Продолжение приложения А
30
Brigham Young University
США
353
31
University of California, San Diego
США
352
32
University of British Columbia
Канада
347
33
Syracuse University
США
344
34
University of Minnesota
США
323
35
University of Miami
США
321
36
University of California, Riverside
США
310
37
University of California, Davis
США
285
38
University of Edinburgh
Великобритания
276
39
University of Manchester
Великобритания
275
40
McMaster University
Канада
260
41
Australian National University
Австралия
258
42
Queen’s University Kingston
Канада
257
43
University of Bristol
Великобритания
251
44
University of Melbourne
Австралия
247
45
Moscow State University
Россия
232
46
University of Tokyo
Япония
230
47
University of California, Santa Cruz
США
221
48
Universidad Nacional Autonoma de Mexico
Мексика
211
49
ETH Zurich
Швейцария
209
50
Peking University
Китай
207
51
Florida Atlantic University
США
193
52
Seoul National University
Южная Корея
189
53
University of Helsinki
Финляндия
169
54
SaintPetersburg State University
Россия
168
55
Universita di Bologna
Италия
167
56
Technische Universitat Munchen
Германия
162
57
University of Oslo
Норвегия
157
58
National Taiwan University
Китай
134
59
Universidade de Sao Paulo USP
Бразилия
124
60
Utrecht University
Нидерланды
92
61
Moscow Institute of Physics and Technology
Россия
81
62
Universitat Hamburg
Германия
66
63
National Nuclear Research University
Россия
44
64
Novosibirsk State University
Россия
38
65
Petrozavodsk State University
Россия
36
57
Приложение Б
Википедийный рейтинг за 2015 год, построенный по методу Борда для 65 вузов, выбранных из
Википедии (статьи из Русской Википедии) — ruWikipediaBord
№ Название вуза
Страна
Рейтинг
1 Moscow State University
Россия
628
2 SaintPetersburg State University
Россия
610
3 Harvard University
США
577
4 MIT
США
576
Великобритания
561
США
555
Россия
546
8 Princeton University
США
526
9 Cornell University
США
506
Великобритания
498
США
491
Россия
490
13 University of California, Berkeley
США
489
14 Duke University
США
483
15 University of Chicago
США
479
16 Stanford University
США
475
17 Novosibirsk State University
Россия
465
18 Petrozavodsk State University
Россия
464
19 University of Michigan
США
429
20 New York University
США
425
21 Universita di Bologna
Италия
399
22 University of Tokyo
Япония
396
Финляндия
392
Великобритания
384
Германия
377
26 Dartmouth College
США
369
27 University of Pennsylvania
США
367
Канада
362
США
358
Швейцария
355
5 University of Oxford
6 Yale University
7 Moscow Institute of Physics and Technology
10 University of Cambridge
11 Columbia University
12 National Nuclear Research University
23 University of Helsinki
24 University of Edinburgh
25 Technical University of Munich
28 McGill University
29 University of California, San Diego
30 ETH Zurich
58
Продолжение приложения Б
31 Syracuse University
США
344
32 University of California, LA
США
339
33 University of Illinois, UrbanaChampaign
США
329
34 University of North Carolina, Chapel Hill
США
321
35 University of Toronto
Канада
313
36 Universitat Hamburg
Германия
287
Австралия
280
Китай
279
Канада
266
Великобритания
264
США
261
Нидерланды
260
43 University of Washington
США
257
44 Michigan State University
США
248
45 Brigham Young University
США
247
Мексика
244
Южная Корея
232
Норвегия
222
Австралия
208
США
207
Канада
206
52 University of California, Davis
США
202
53 University of Minnesota, Twin Cities
США
198
Великобритания
194
Канада
189
56 University of California, Riverside
США
182
57 Texas A&M University
США
180
58 University of Georgia
США
175
59 Florida State University
США
173
Бразилия
150
61 University of Miami
США
147
62 Florida Atlantic University
США
146
63 National Taiwan University
Китай
78
64 University of Central Florida
США
61
65 University of California, Santa Cruz
США
59
37 Australian National University
38 Peking University
39 McMaster University
40 University of Manchester
41 University of Florida
42 Utrecht University
46 Universidad Nacional Autonoma de Mexico
47 Seoul National University
48 University of Oslo
49 University of Melbourne
50 Georgia Institute of Technology
51 Queen's University Kingston
54 University of Bristol
55 University of British Columbia
60 Universidade de Sao Paulo USP
59
Приложение В
Википедийный рейтинг за 2015 год, построенный с помощью алгоритма PageRank (по 10
параметрам) для 65 вузов, выбранных из Википедии (статьи из Английской Википедии) —
enWikipediaPageRank
№
Название вуза PageRank
1 Harvard University
32,536
2 MIT
21,914
3 Stanford University
19,060
4 University of Oxford
18,646
5 Columbia University
11,810
6 University of Chicago
11,241
7 University of California, Berkeley
11,174
8 Cornell University
10,947
9 University of Michigan
9,878
10 University of Cambridge
9,575
11 University of California, LA
8,829
12 Yale University
8,618
13 Moscow State University
8,233
14 University of Pennsylvania
7,161
15 Princeton University
6,845
16 Duke University
6,825
17 Dartmouth College
6,724
18 Georgia Institute of Technology
5,771
19 New York University
5,631
20 Florida State University
5,629
21 Texas A&M University
5,075
22 SaintPetersburg State University
5,019
23 University of Illinois, UrbanaChampaign
4,974
24 University of North Carolina, Chapel Hill
4,863
25 McGill University
4,669
26 University of Florida
4,502
27 University of Toronto
4,433
28 Michigan State University
4,422
29 University of Minnesota, Twin Cities
3,953
30 University of Georgia
3,887
60
Продолжение приложения В
31 ETH Zurich
3,750
32 Moscow Institute of Physics and Technology
3,747
33 Brigham Young University
3,654
34 University of California, Riverside
3,653
35 University of Washington
3,634
36 University of Central Florida
3,550
37 Syracuse University
3,302
38 University of California, San Diego
3,259
39 National Nuclear Research University
3,212
40 University of Edinburgh
3,147
41 University of British Columbia
3,095
42 University of Miami
2,992
43 University of California, Davis
2,960
44 University of Tokyo
2,813
45 University of Manchester
2,777
46 Universita di Bologna
2,751
47 Australian National University
2,695
48 McMaster University
2,660
49 University of California, Santa Cruz
2,658
50 Queen's University Kingston
2,601
51 University of Melbourne
2,518
52 University of Bristol
2,460
53 Novosibirsk State University
2,454
54 University of Oslo
2,440
55 Peking University
2,407
56 University of Helsinki
2,372
57 Technical University of Munich
2,332
58 Universidad Nacional Autonoma de Mexico
2,241
59 Florida Atlantic University
2,194
60 Seoul National University
2,170
61 Petrozavodsk State University
2,156
62 Utrecht University
1,990
63 National Taiwan University
1,949
64 Universidade de Sao Paulo USP
1,922
65 Universitat Hamburg
1,882
61
Приложение Г
Википедийный рейтинг за 2015 год, построенный с помощью алгоритма PageRank (по 10
параметрам) для 65 вузов, выбранных из Википедии (статьи из Русской Википедии) —
ruWikipediaPageRank
№
Название вуза
PageRank
1 Moscow State University
36,396
2 SaintPetersburg State University
24,627
3 Petrozavodsk State University
20,083
4 Moscow Institute of Physics and Technology
14,737
5 University of Oxford
14,344
6 Harvard University
14,045
7 Princeton University
12,378
8 MIT
10,494
9 National Nuclear Research University
9,684
10 Yale University
8,131
11 University of Cambridge
7,821
12 Duke University
6,345
13 Stanford University
6,125
14 Novosibirsk State University
6,109
15 Columbia University
5,885
16 Cornell University
5,782
17 University of California, Berkeley
4,985
18 University of Chicago
4,928
19 Technical University of Munich
4,303
20 New York University
3,931
21 Universita di Bologna
3,869
22 University of California, San Diego
3,802
23 University of Tokyo
3,623
24 University of Michigan
3,620
25 Syracuse University
3,596
26 ETH Zurich
3,511
27 University of Illinois, UrbanaChampaign
3,343
28 University of Edinburgh
3,313
29 University of Pennsylvania
3,200
30 University of California, LA
3,153
62
Продолжение приложения Г
31 University of Helsinki
3,128
32 Dartmouth College
2,877
33 McGill University
2,807
34 University of Toronto
2,666
35 University of North Carolina, Chapel Hill
2,508
36 McMaster University
2,449
37 Peking University
2,432
38 Universitat Hamburg
2,341
39 University of Manchester
2,288
40 Australian National University
2,252
41 University of Florida
2,217
42 University of Washington
2,213
43 Universidad Nacional Autonoma de Mexico
2,179
44 Brigham Young University
2,151
45 Utrecht University
2,126
46 University of California, Riverside
2,107
47 Seoul National University
2,052
48 Michigan State University
2,050
49 Queen's University Kingston
2,021
50 University of Oslo
1,995
51 University of Bristol
1,965
52 University of Melbourne
1,951
53 University of Minnesota, Twin Cities
1,931
54 University of California, Davis
1,912
55 Florida State University
1,897
56 Georgia Institute of Technology
1,893
57 University of British Columbia
1,887
58 Texas A&M University
1,882
59 University of Georgia
1,836
60 Florida Atlantic University
1,802
61 Universidade de Sao Paulo USP
1,795
62 University of Miami
1,714
63 National Taiwan University
1,596
64 University of California, Santa Cruz
1,534
65 University of Central Florida
1,532
63
Отзывы:
Авторизуйтесь, чтобы оставить отзыв