Санкт-Петербургский государственный университет
Прикладная математика и информатика
Вычислительная стохастика и статистические модели
Коврыга Валерия Валерьевна
Задачи оценивания параметров модели IRT
Бакалаврская работа
Научный руководитель:
к.ф.-м.н., доцент А. И. Коробейников
Рецензент:
ассистент А. Ю. Шлемов
Санкт-Петербург
2016
Saint Petersburg State University
Applied Mathematics and Computer Science
Computational Stochastics and Statistical Models
Kovryga Veleriia
Problems of parameter estimation in IRT model
Bachelor’s Thesis
Scientific Supervisor:
Associate Professor A. I. Korobeynikov
Reviewer:
Assistant Professor A. Yu. Shlemov
Saint Petersburg
2016
3
Оглавление
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
. . . . . . . . . . . . . . . .
6
1.1.
Rasch Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
1.2.
Вероятностная модель. Оценивание неизвестных параметров . . . . . . .
7
1.3.
CML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.4.
Сложности вычисления CML-оценок . . . . . . . . . . . . . . . . . . . . .
9
1.5.
Вычисление функции 𝛾 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
. . . . . . . . . . . . . . . . . . . .
11
2.1.
Доверительные интервалы . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.2.
Состоятельность и асимптотическая несмещенность . . . . . . . . . . . .
11
2.3.
Сравнение CML-оценок и оценок, полученных одним из стандартных ме
Введение
Глава 1.
Глава 2.
Описание модели. Постановка задачи
Проверка свойств CML-оценок.
тодов оценивания . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
. . . . . . . . . . . . . . . . . . . . . . .
16
3.1.
Постановка задачи . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
3.2.
Оценивание неизвестных параметров, CML . . . . . . . . . . . . . . . . .
17
3.3.
Свойства CML-оценок для случая неполного дизайна . . . . . . . . . . .
18
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
Глава 3.
Случай неполного дизайна
Заключение
Список литературы
4
Введение
В психологии, образовании и других прикладных научных областях часто возни
кает необходимость измерить некоторые «скрытые» человеческие качества, то есть ка
чества, не характеризующиеся специфическим видом деятельности. Например, в пси
хологии и психиатрии может стоять задача определить предрасположенность человека
к психическим заболеваниям, в образовании может потребоваться определить уровень
знания иностранного языка или другого предмета и т.д. Существует общепринятый
термин для обозначения таких качеств —
способность
(англ. ability).
Несмотря на то, что способности не поддаются непосредственному измерению, их
можно оценивать. Существует специальный подход — Item Response Theory (IRT), од
ной из рассматриваемых задач которого является оценивание способностей людей. В
рамках этого подхода для оценивания способностей люди отвечают на вопросы, из по
лученных ответов делается вывод о способностях отвечавших людей. Каждому вопросу
сопоставляется понятие
. Существуют различные математические модели,
сложность
которые позволяют оценить вероятность правильного ответа человека на вопрос в за
висимости от способности человека и сложности вопроса.
Примером использования подхода IRT может послужить тестирование СПбГУ по
английскому языку, целью которого является проверить, обладают ли студенты уров
нем знания языка B2 или нет. Студентам предлагается ответить на вопросы разной
сложности. Ответы на вопросы позволяют оценить способности студентов.
В данной работе рассматриваются некоторые из возможных решений задачи оце
нивания способностей людей и сложностей вопросов, проблемы, возникающие по хо
ду решения данной задачи, способы их устранения, а также некоторые естественные
усложнения этой задачи.
В главе 1 рассматривается простейшая вероятностная модель (Rasch model, [1]),
в которой способности человека и сложности вопроса сопоставляются числовые пара
метры. Вводится дискретная случайная величина, которая принимает значения {0, 1}
в зависимости от ответа человека на вопрос. В рамках данной модели ставится зада
ча оценивания неизвестных параметров и обсуждается главная проблема, состоящая в
том, что с увеличением объема выборки растет число неизвестных параметров.
Один из возможных способов решения проблемы состоит в том, чтобы считать
5
параметры способностей людей мешающими и оценивать только сложности вопросов.
Оказывается, для этих мешающих параметров существуют достаточные статистики, а
условная функция правдоподобия не зависит от параметров способностей людей. Это
позволяет избежать проблемы оценивания мешающих параметров, и оценки сложно
стей вопросов строятся как точка максимума функции условного правдоподобия. Дан
ный метод построения оценок называется методом Conditional Maximum Likelihood
(CML) [2]. Несмотря на то, что метод CML позволяет решить проблему оценивания
мешающих параметров, численная реализация метода оказывается трудоемкой, и проис
ходит накопление ошибок. Для того чтобы уменьшить трудоемкость и вычислительные
ошибки, при реализации метода CML были использованы рекуррентные соотношения,
предложенные в работе [2].
Известно [3], что CML-оценки асимптотически несмещенные. Однако, для состоя
тельности построенных оценок параметры сложностей и способностей должны удовле
творять некоторым ограничениям, которые описываются в работе [4]. Эти ограничения
накладывают дополнительные условия на рассматриваемую модель.
Для того, чтобы продемонстрировать устойчивость реализованного алгоритма оце
нивания, были проверены некоторые свойства CML-оценок. Для фиксированных значе
ний параметров способностей и сложностей были промоделированы результаты тести
рования, по которым были построены выборки CML-оценок параметров сложностей
вопросов, и было исследовано поведение оценок при увеличении объема выборки.
В главе 3 на примере тестирования СПбГУ по английскому языку рассматривается
естественное расширение задачи оценивания сложностей вопросов, а именно ситуация,
когда составляется несколько вариантов тестирования, и каждому студенту предлагает
ся ответить на вопросы только одного теста. В случае, когда тесты независимы, и для
каждого теста оценки сложностей вопросов строятся отдельно, построенные оценки
будут несравнимы между собой. Один из возможных способов решения этой пробле
мы состоит в том, чтобы рассматривать тесты с «общими» вопросами, и строить для
них оценки методом, аналогичным методу CML. В главе 3 исследуется поведение по
строенных оценок при изменяющемся числе «общих» вопросов, числе вопросов теста и
увеличивающемся объеме выборки.
6
Глава 1
Описание модели. Постановка задачи
Для оценивания способностей людей и сложностей вопросов необходимо ввести
математическую модель, которая позволит вычислять вероятность правильного отве
та человека на вопрос, в зависимости от сложности вопроса и способности человека.
Рассмотрим простейшую модель, которая удовлетворяет условиям:
1. ответы на вопросы тестирования могут быть только «Да» и «Нет»
(для удобства будем считать, что на каждый вопрос существует только «правиль
ный» и «неправильный» ответы);
2. способность человека — это число, которое не зависит от сложности вопроса;
3. вопросы не связаны друг с другом, т. е. правильный ответ на один вопрос не дает
подсказки к правильному ответу на любой другой вопрос;
4. вероятность правильного ответа зависит только от способности человека и слож
ности вопроса;
5. чем выше способность, тем больше вероятность правильного ответа;
6. чем сложнее вопрос, тем меньше вероятность правильного ответа.
1.1. Rasch Model
В 1960 году Георгом Рашем была предложена вероятностная модель, описанная в
статье [1], для которой выполняются условия 1 – 6. Способности человека и сложности
вопроса сопоставляются числовые параметры 𝜃 и 𝛽 соответственно, и рассматривается
бернуллиевская случайная величина 𝜉 , которая принимает значение 1, если человек со
значением параметра способности 𝜃 правильно ответил на вопрос сложности 𝛽 . Распре
деление случайной величины 𝜉 задается функцией
P (𝜉 = 1) =
exp (𝜃 − 𝛽)
,
1 + exp (𝜃 − 𝛽)
(1.1)
причем из работы [1] известно, что при введении определенных дополнительных огра
ничений функция (1.1) единственная, с точностью до перепараметризации, которая
удовлетворяет всему набору условий 1 – 6.
7
1.2. Вероятностная модель. Оценивание неизвестных
параметров
В случае, когда необходимо оценить способности 𝑛 человек и сложности 𝑘 вопросов,
которым соответствуют параметры 𝜃1 , . . . , 𝜃𝑛 и 𝛽1 , . . . , 𝛽𝑘 соответственно, рассматрива
ется набор совместно независимых бернуллиевских случайных величин
𝑥𝑖𝑗 ,
𝑖 = 1 . . . 𝑛,
𝑗 = 1 . . . 𝑘.
(1.2)
Случайная величина 𝑥𝑖𝑗 = 1, если человек со способностью 𝜃𝑖 правильно ответил на
вопрос сложности 𝛽𝑗 , и вероятность правильного ответа вычисляется по формуле
P (𝑥𝑖𝑗 = 1) =
exp(𝜃𝑖 − 𝛽𝑗 )
.
1 + exp(𝜃𝑖 − 𝛽𝑗 )
Требуется оценить значения неизвестных параметров 𝛽𝑗 и 𝜃𝑖 .
Проблема рассматриваемой задачи заключается в том, что при увеличении объема
выборки 𝑛 растет число неизвестных параметров 𝜃𝑖 , вследствие чего оценки, получае
мые с помощью стандартных методов оценивания параметров, оказываются несостоя
тельными. Один из способов решения этой проблемы — оценить 𝛽𝑗 , затем по оценкам
𝛽̂︀𝑗 и известной функции правдоподобия оценить 𝜃𝑖 . Таким образом, первичный интерес
задачи представляет оценка 𝛽𝑗 при мешающих параметрах 𝜃𝑖 , число которых растет с
увеличением объема выборки 𝑛.
1.3. CML
Одним из методов оценивания, с помощью которых можно построить оценки слож
ности вопросов 𝛽̂︀𝑗 без вычисления оценок значений мешающих параметров 𝜃𝑖 , является
метод Conditional Maximum Likelihood (CML), описанный в работе [2]. Данный метод
использует тот факт, что для мешающих параметров 𝜃𝑖 существуют достаточные ста
тистики. Это позволяет избежать проблемы оценивания значений параметров способ
ностей людей 𝜃𝑖 .
Рассмотрим выборку 𝑥𝑖𝑗 из (1.2) как независимую выборку случайных векторов
𝑋𝑖 = (𝑥𝑖1 , . . . , 𝑥𝑖𝑘 ) из X = {0, 1}𝑘 . Для одного наблюдения (𝑛 = 1, 𝜃1 = 𝜃) и выборки
∑︀
𝑋 = (𝑥1 , . . . , 𝑥𝑘 ) рассмотрим функцию r = r(𝑋) = 𝑘𝑗=1 𝑥𝑗 — количество правильных
8
ответов человека на вопросы. Заметим, что
∑︀ ∏︀
(︀
)︀
𝑘
exp(𝜃 · r0 ) 𝑦|r0 𝑘𝑗=1 exp(−𝛽𝑗 𝑦𝑗 )
(︀
)︀ ∑︁ ∏︁
exp (𝜃 − 𝛽𝑗 )𝑦𝑗
,
P r = r0 =
=
∏︀𝑘
1 + exp(𝜃 − 𝛽𝑗 )
𝑗=1 (1 + exp(𝜃 − 𝛽𝑗 ))
𝑗=1
𝑦|r0
где 𝑦|r0 означает суммирование по всем 𝑦 = (𝑦1 , . . . , 𝑦𝑘 ) ∈ {0, 1}𝑘 таким, что
∑︀𝑘
𝑗=1
𝑦𝑗 = r0 .
Тогда по формуле полной вероятности функция правдоподобия
(︀
)︀
𝑘
∏︁
exp (𝜃 − 𝛽𝑗 )𝑥𝑗
L(𝑋, 𝜃, 𝛽) =
1 + exp(𝜃 − 𝛽𝑗 )
𝑗=1
раскладывается в произведение
L(𝑋, 𝜃, 𝛽) = L(𝑋, 𝜃, 𝛽 | r = r0 ) · P(r = r0 ),
то есть
(︀ ∑︀
)︀ ∑︀
(︀ ∑︀
)︀
(︀ ∑︀
)︀
exp 𝜃 𝑘𝑗=1 𝑥𝑗 · 𝑦|r exp − 𝑘𝑗=1 𝛽𝑗 𝑦𝑗
exp − 𝑘𝑗=1 𝛽𝑗 𝑥𝑗
L(𝑋, 𝜃, 𝛽) = ∑︀
,
(︀ ∑︀𝑘
)︀ ·
)︀
∏︀𝑘 (︀
𝑗=1 𝛽𝑗 𝑦𝑗
𝑗=1 1 + exp(𝜃 − 𝛽𝑗 )
𝑦|r exp −
и
(︀ ∑︀
)︀
exp − 𝑘𝑗=1 𝛽𝑗 𝑥𝑗
L(𝑋, 𝜃, 𝛽 | r = r0 ) = ∑︀
(︀ ∑︀𝑘
)︀ .
𝛽
𝑦
exp
−
𝑗
𝑗
𝑦|r0
𝑗=1
(1.3)
Видно, что функция (1.3) не зависит от параметра 𝜃, что означает, что r(𝑋) =
∑︀𝑘
𝑗=1
𝑥𝑗 является достаточной статистикой для параметра 𝜃. Введем вектор оценок
̂︀
̂︀
̂︀
𝛽
CML = (𝛽1 , . . . , 𝛽𝑘 ) как точку максимума функции (1.3),
(︀ ∑︀
)︀
exp − 𝑘𝑗=1 𝛽𝑗 𝑥𝑗
̂︀
𝛽
)︀ .
(︀ ∑︀𝑘
CML = argmax ∑︀
𝛽
𝛽
𝑦
exp
−
𝑗
𝑗
𝑦|r0
𝑗=1
Тогда для выборки объема 𝑛 оценки будут вычисляться по формуле
(︀ ∑︀
)︀
𝑛
∏︁
exp − 𝑘𝑗=1 𝛽𝑗 𝑥𝑖𝑗
̂︀
𝛽
(︀ ∑︀𝑘
)︀ ,
∑︀
CML = argmax
𝛽
𝑗=1 𝛽𝑗 𝑦𝑗
𝑦|r𝑖 exp −
𝑖=1
где r𝑖 =
∑︀𝑘
𝑗=1
(1.4)
𝑥𝑖𝑗 .
Введем обозначение
𝛾r (𝛽) :=
∑︁
𝑦|r
(︀
exp −
𝑘
∑︁
𝛽𝑗 𝑦 𝑗
)︀
𝑗=1
, где суммирование ведется по всем 𝑦 = (𝑦1 , . . . , 𝑦𝑘 ) ∈ {0, 1}𝑘 таким, что
При таком обозначении формула (1.4) примет вид
(︀ ∑︀
)︀
𝑛
∏︁
exp − 𝑘𝑗=1 𝛽𝑗 𝑥𝑖𝑗
̂︀
𝛽
.
CML = argmax
𝛾
(𝛽)
𝛽
r
𝑖
𝑖=1
∑︀𝑘
𝑗=1
𝑦𝑗 = r.
9
Заметим, что в данной задаче поиска точки максимума (1.4) решение не един
ственное, так как при сдвиге 𝛽𝑗 + 𝑐, где 𝑐 = 𝑐𝑜𝑛𝑠𝑡, точка максимума функции (1.3) не
изменится:
(︀ ∑︀
)︀
exp − 𝑘𝑗=1 (𝛽𝑗 + 𝑐)𝑥𝑖𝑗
argmax L(𝑋, 𝜃, 𝛽 + 𝑐 | r) = argmax
(︀ ∑︀𝑘
)︀ =
∑︀
𝛽
𝛽
𝑦|ri exp −
𝑗=1 (𝛽𝑗 + 𝑐)𝑦𝑗
𝑖=1
(︀ ∑︀
)︀
𝑛
∏︁
exp(−𝑐 · ri ) exp − 𝑘𝑗=1 𝛽𝑗 𝑥𝑖𝑗
= argmax
(︀ ∑︀𝑘
)︀ = argmax L(𝑋, 𝜃, 𝛽 | r).
∑︀
𝛽
𝛽
exp(−𝑐
·
r
)
exp
−
𝛽
𝑦
𝑖
𝑗
𝑗
𝑦|ri
𝑗=1
𝑖=1
𝑛
∏︁
Для того чтобы идентифицировать набор параметров сложности вопросов, достаточно
ввести линейное ограничение на значения параметров 𝛽𝑗 , например,
𝑘
∑︁
(1.5)
𝛽𝑗 = 0.
𝑗=1
Существует еще одно условие на параметры рассматриваемой вероятностной мо
дели. В работе [4] были сформулированы условия состоятельности CML-оценок.
Утверждение 1.
Для любого набора
+∞
∑︁
𝜃𝑖 ∈ R, 𝑖 = 1, . . . , +∞
такого, что
exp(−𝜃𝑖 ) = ∞
(1.6)
𝑖=1
оценки
̂︀
𝛽
CML
существуют и состоятельны.
Далее вероятностная модель рассматривается с учетом введенных ограничений (1.5), (1.6)
на значения параметров 𝜃𝑖 , 𝛽𝑗 .
1.4. Сложности вычисления CML-оценок
При реализации метода CML возникает проблема вычисления функции 𝛾r (𝛽), зна
чения которой находятся по формуле
𝛾r (𝛽) =
𝑘
∑︁ ∏︁
exp(−𝛽𝑗 𝑦𝑗 ),
(1.7)
𝑦|𝑟 𝑗=1
где суммирование ведется по всем возможным комбинациям 𝑦𝑗 ∈ {0, 1} таким, что
∑︀𝑘
𝑗=1 𝑦𝑗 = r.
Так при увеличении числа параметров 𝛽𝑗 растет число слагаемых в формуле (1.7),
∏︀
которое равно 𝐶𝑛𝑘 . Более того, при большом числе параметров 𝛽𝑗 значение 𝑘𝑗=1 exp(−𝛽𝑗 𝑦𝑗 )
может быть очень мало, что приводит к потери точности. Например, если
𝛽2 = . . . = 𝛽𝑘 = −1, 𝛽1 = 𝑘 − 1 и 𝑦1 = 0,
10
то при больших 𝑘 возможно
𝑘
∏︁
exp(−𝛽𝑗 𝑦𝑗 ) =
𝑗=1
𝑘
∏︁
exp(−𝑦𝑗 ) ≪ 1.
𝑗=2
Помимо этого, многие методы численного нахождения точки максимума функции тре
буют вычисления значений grad𝛾r (𝛽).
Таким образом, при вычислении 𝛾r по формуле (1.7) алгоритм имеет большую
трудоемкость вычислений и происходит накопление ошибок.
1.5. Вычисление функции
𝛾
В работе [2] были предложены рекуррентные соотношения, позволяющие вычис
лять значения функции 𝛾r (𝛽) и ее частных производных с меньшей трудоемкостью и
большей точностью.
Обозначим exp(𝛽𝑖 ) через 𝛿𝑖 , а значение функции 𝛾r (𝛽), вычисленной по вектору
𝛿 (𝑝) = (𝛿1 , . . . , 𝛿𝑝−1 , 𝛿𝑝+1 , . . . , 𝛿𝑘 ),
(−𝑝)
обозначим как 𝛾r
. Тогда формула (1.7) примет вид
𝛾r (𝛿1 , . . . , 𝛿𝑘 ) =
𝑘
∑︁ ∏︁
𝑦
(1.8)
𝛿𝑗 𝑗 .
𝑦|r 𝑗=1
Согласно [2], имеет место следующее рекуррентное соотношение:
(−𝑝)
𝛾r (𝛿1 , . . . , 𝛿𝑘 ) = 𝛾r(−𝑝) (𝛿1 , . . . , 𝛿𝑝−1 , 𝛿𝑝+1 , . . . , 𝛿𝑘 ) + 𝛿𝑝 𝛾r−1 (𝛿1 , . . . , 𝛿𝑘 ),
(1.9)
где 𝑝 = 1, . . . , 𝑘 .
При вычислении 𝛾r (𝛽) по рекуррентным соотношениям (1.9) при r = 𝑘 трудоем
кость вычислений равна 𝑂(𝑘), при 0 < r < 𝑘 трудоемкость равна 𝑂(r · 𝑘), и при r = 0,
соответственно, 𝑂(1), тогда как вычисление значений функции 𝛾r (𝛽) по формуле (1.8)
имеет экспоненциальную трудоемкость, так как при суммировании осуществляется пе
ребор 𝐶𝑛𝑘 комбинаций 𝑦𝑗 ∈ {0, 1}. Следовательно, вычисление функции 𝛾r (𝛽) по рекур
рентным соотношениям (1.9) уменьшает трудоемкость вычислений.
11
Глава 2
Проверка свойств CML-оценок.
Вычислительные процедуры, подобные процедуре метода CML, описанной в рабо
те [2], зачастую корректны в теоретическом изложении, однако, по причине сложности
алгоритма и используемых рекурсивных соотношений, они могут быть не применимы
на практике из-за возможного накопления ошибок и потери точности. Для того, чтобы
проверить устойчивость предложенного в статье [2] алгоритма и убедиться в правиль
ности его реализации, потому как в оригинальной статье изложение осуществлено кон
спективно и часть переходов опущена, были проверены свойства CML-оценок, а именно
состоятельность и асимптотическая несмещенность.
Для фиксированных значений параметров 𝜃𝑖 и 𝛽𝑗 , удовлетворяющих условию (1.5),
были промоделированы данные, по которым были построены выборки оценок парамет
̂︀ (𝑑) = (𝛽̂︀(𝑑) , . . . , 𝛽̂︀(𝑑) ), 𝑑 ∈ {1, . . . , 100}. Были построены оценки
ров сложности вопросов 𝛽
1
𝑘
̂︀ CML и cреднеквадратического отклонения E‖𝛽 − 𝛽
̂︀ CML ‖2 при количестве
среднего E𝛽
вопросов 𝑘 = 2 и 𝑘 = 5 и увеличивающемся объеме выборки 𝑛.
2.1. Доверительные интервалы
Было произведено моделирование для числа вопросов 𝑘 = 5 и фиксированных
значений 𝛽1 = −0.4, 𝛽2 = −0.2, 𝛽3 = 0.00, 𝛽4 = 0.2, 𝛽5 = 0.4.
На рисунке 2.1 изображены 95% доверительные интервалы для истинных значений
параметров сложности вопросов 𝛽𝑗 при объеме выборки 𝑛 = 500, 1000, 1500, . . . , 10000.
Из рисунка видно, что с ростом объема выборки 𝑛 истинные значения параметров 𝛽𝑗
попадают в построенные 95% доверительные интервалы и близки к их середине.
2.2. Состоятельность и асимптотическая несмещенность
Для проверки свойств состоятельности и асимптотической несмещенности для фик
сированного числа параметров сложности 𝑘 = 5 и фиксированных значений параметров
𝛽1 = −0.4, 𝛽2 = −0.2, 𝛽3 = 0.00, 𝛽4 = 0.2, 𝛽5 = 0.4 была построена выборка CML-оценок
и вычислены оценки среднеквадратического отклонения для увеличивающегося объема
12
0.5547956
●
●
●
●
β5
●
0.3622728
●
●
0.2722793
●
●
●
●
●
●
●
β2
Confidence_Bounds
0.1185493
beta 1
0.05932146
beta 2
β3
beta 3
beta 4
−0.08107512
beta 5
−0.1405457
β4
−0.2448153
−0.3468338
β1
−0.5539486
500
1000
1500
2500
5000
750010000
Sample size, n
Рис. 2.1. 95% доверительные интервалы для значений 𝛽1, . . . , 𝛽5.
выборки. По рисунку 2.2, на котором изображена зависимость оценок среднеквадратич
ного отклонения от объема выборки, можно видеть, что с ростом объема выборки 𝑛
среднеквадратическое отклонение убывает к 0.
2.3. Сравнение CML-оценок и оценок, полученных одним из
стандартных методов оценивания
Ранее, в главе 1, упоминалось, что проблема рассматриваемой задачи заключает
ся в том, что число мешающих параметров увеличивается с ростом объема выборки.
По этой причине оценки, построенные с помощью стандартных методов оценивания,
оказываются несостоятельными. Для того чтобы проиллюстрировать недостатки стан
дартных методов и преимущества оценивания методом CML был реализован один из
13
0.0364
●
0.0123
MSE
●
0.0078
●
0.0044
●
0.0026
●
0.0021
●
500
1500
2500
5000
7500
10000
Sample size, n
Рис. 2.2. Зависимость оценки E‖𝛽 − 𝛽̂︀ 𝑐𝑚𝑙 ‖2 от объема выборки 𝑛.
стандартных методов оценивания, а именно метод максимального правдоподобия (Joint
Maximum Likelihood, JML), [1]. Идея метода JML заключается в том, что рассматрива
ется функция правдоподобия L(𝑥𝑖𝑗 , 𝜃, 𝛽) для выборки (1.2), записываемая как
L(𝑥𝑖𝑗 , 𝜃, 𝛽) =
𝑛 ∏︁
𝑘
∏︁
exp((𝜃𝑖 + 𝛽𝑗 )𝑥𝑖𝑗 )
𝑖=1 𝑗=1
1 + exp(𝜃𝑖 + 𝛽𝑗 )
,
(2.1)
̂︀JML , 𝛽
̂︀
и оценки 𝜃
JML вычисляются как точка максимума функции правдоподобия
̂︀JML , 𝛽
̂︀
(𝜃
JML ) = argmax L(𝑥𝑖𝑗 , 𝜃, 𝛽).
(2.2)
𝜃,𝛽
Потому как функция правдоподобия (2.1) инвариантна относительно сдвига пара
метров 𝜃𝑖 , 𝛽𝑗 на константу, то есть
L(𝑥𝑖𝑗 , 𝜃 + 𝑐, 𝛽 − 𝑐) =
𝑘
𝑛 ∏︁
∏︁
(exp(𝜃𝑖 + 𝑐 + 𝛽𝑗 − 𝑐)𝑥𝑖𝑗 )
= L(𝑥𝑖𝑗 , 𝜃, 𝛽),
1
+
exp(𝜃
+
𝑐
+
𝛽
−
𝑐)
𝑖
𝑗
𝑖=1 𝑗=1
решение задачи поиска точки максимума (2.2) не единственное. Для того чтобы из мно
жества возможных решений выбрать одно, вводится линейное ограничение на значения
14
параметров 𝛽𝑗 , а именно
𝑘
∑︁
𝛽𝑗 = 0.
𝑗=1
Таким образом, для фиксированного числа 𝑘 и фиксированных значений пара
метров сложности вопросов 𝛽𝑗 были промоделированные данные, по которым были
построены выборки JML- и CML-оценок и было осуществлено сравнение поведения по
строенных оценок при увеличивающемся объеме выборки.
На рисунке 2.3 изображена зависимость 95% доверительных интервалов истинных
значений параметров 𝛽𝑗 , построенных по выборкам CML- и JML-оценок, от объема
выборки 𝑛. Из рисунка видно, что значения параметров 𝛽𝑗 не попадают в доверитель
ные интервалы, построенные по JML-оценкам, и, наоборот, доверительные интервалы,
построенные по выборкам CML-оценок, содержат истинные значения параметров слож
ности вопросов.
0.37
0.35
0.33
●
●
●
●
●
●
●
●
β2
Method
●
0.00
jml
cml
β1
−0.33
−0.35
−0.37
●
●
●
●
500
750
●
●
1000
●
●
2000
Sample size, n
Рис. 2.3. Доверительные интервалы с уровнем доверия 95% для параметров 𝛽1, 𝛽2, построенные
по JML- и CML-оценкам.
Из рисунка 2.4 видно, что оценка среднеквадратического отклонения для CML
15
оценок расположена к 0 ближе, чем оценка cреднеквадратичного отклонения для JML
оценок.
Таким образом, видно, что для данной модели метод оценивания значений пара
метров сложности вопросов CML является более подходящим чем метод максимального
правдоподобия.
0.19
●
0.17
0.16
●
●
0.14
●
MSE
factor(Method)
●
jml
cml
500
750
1000
2000
Sample size, n
Рис. 2.4. Сравнение оценок среднеквадратического отклонения для JML- и CML-оценок пара
метров 𝛽1, 𝛽2.
16
Глава 3
Случай неполного дизайна
3.1. Постановка задачи
Вернемся к примеру тестирования СПбГУ по английскому языку. Для определе
ния уровня владения языком студентам предлагается ответить на вопросы разной слож
ности. Чтобы исключить списывание составляется несколько вариантов тестирования.
Каждый студент отвечает на вопросы только одного варианта. Иными словами, непе
ресекающиеся группы студентов пишут независимые тесты. В таком случае возникает
необходимость уметь сравнивать результаты тестирований среди студентов всех групп,
и, что более важно, необходимо проверить одинаковую сложность различных вариан
тов тестирования, то есть убедиться в отсутствии вариантов, более простых или более
сложных чем все остальные.
Несмотря на то, что логичным представляется оценивать способности студентов
и сложности вопросов для каждого теста по отдельности, такие оценки параметров
оказываются несравнимыми между собой. Это происходит, потому что функция услов
ного правдоподобия из формулы (1.3) инвариантна относительно сдвига 𝛽𝑗 на 𝑐𝑜𝑛𝑠𝑡,
и, следовательно, решение задачи поиска точки максимума (1.4) не единственное. Для
того чтобы выделить одно из решений, вводилось линейное ограничение на значения
параметров 𝛽𝑗 (1.5). Однако, значения параметров сложности вопросов для реальных
данных могут не удовлетворять этому условию, и, значит, сравнение оценок, построен
ных для независимых тестов по отдельности, некорректно.
Один из способов получения сравнимых оценок заключается в том, чтобы рас
сматривать тесты с некоторым количеством «общих» вопросов. Рассмотрим простей
ший случай: пусть есть два теста, в которых, соответственно, по 𝑘1 и 𝑘2 уникальных
вопросов, то есть вопросов, которые присутствуют только в одном тесте, и 𝑘3 совпада
ющих вопросов. Рассмотрим эти тесты как один тест с 𝑘 = 𝑘1 + 𝑘2 + 𝑘3 независимыми
вопросами, в котором половина студентов (для каждого теста одинаковое количество
студентов) ответила на вопросы только первого теста, другая половина — на вопросы
только второго теста. «Общими» вопросами назовем пересекающиеся вопросы, число
этих вопросов было обозначено как 𝑘3 , то есть те вопросы, которые присутствуют в
17
обоих тестах, и на которые отвечали все студенты.
В работе [3] был предложен метод построения оценок значений параметров слож
ности вопросов для случая неполного дизайна, аналогичный методу CML. Однако, неиз
вестно, как ведут себя такие оценки при изменяющемся числе вопросов 𝑘 и разном числе
«общих вопросов» 𝑘3 . Требуется исследовать поведение CML-оценок для случая непол
ного дизайна при увеличивающемся числе параметров способностей 𝜃𝑖 и сложностей 𝛽𝑗
и меняющемся числе «общих» вопросов.
3.2. Оценивание неизвестных параметров, CML
В качестве метода оценивания параметров сложности вопросов для случая непол
ного дизайна был выбран метод, предложенный в статье [3], аналогичный методу CML,
описанному в главе 1.
Как и прежде, для случая одного наблюдения (𝑛 = 1, 𝜃1 = 𝜃) и выборки 𝑋 =
∑︀
(𝑥1 , . . . , 𝑥𝑘 ) рассматривается статистика r(𝑋) = 𝑘𝑗=1 𝑏𝑗 𝑥𝑗 , для которой
∑︀ ∏︀
(︀
)︀
𝑘
exp(𝜃 · r0 ) 𝑦|r0 𝑘𝑗=1 exp(−𝑏𝑗 𝛽𝑗 𝑦𝑗 )
(︀
)︀ ∑︁ ∏︁
exp (𝜃 − 𝛽𝑗 )𝑏𝑗 𝑦𝑗
P r = r0 =
,
=
∏︀𝑘
𝑏𝑗
𝑏𝑗
(1
+
exp(𝜃
−
𝛽
))
𝑗
(1
+
exp(𝜃
−
𝛽
))
𝑗
𝑗=1
𝑦|r0 𝑗=1
где 𝑏𝑗 является индикатором ответа студентом на 𝑗 -й вопрос, то есть
⎧
⎪
⎨1, если есть ответ на 𝑗 -й вопрос,
𝑏𝑗 :=
⎪
⎩0, если ответа нет,
и суммирование ведется по всем y = (𝑦1 , . . . , 𝑦𝑘 ) ∈ {0, 1}𝑘 таким, что
(3.1)
∑︀𝑘
𝑗=1
𝑦 𝑗 𝑏𝑗 = r 0 .
Тогда по формуле полной вероятности совместное правдоподобие для выборки 𝑋 =
(𝑥1 , . . . , 𝑥𝑘 )
запишется в виде
(︀ ∑︀
)︀
(︀ ∑︀
)︀
exp − 𝑘𝑗=1 𝛽𝑗 𝑥𝑗 𝑏𝑗 exp 𝜃 𝑘𝑗=1 𝑥𝑗 𝑏𝑗
L(𝑋, 𝜃, 𝛽) =
,
)︀𝑏𝑗
∏︀𝑘 (︀
𝑗=1 1 + exp(𝜃 − 𝛽𝑗 )
(︀ ∑︀
)︀ ∑︀ ∏︀
(︀ ∑︀
)︀
exp 𝜃 𝑘𝑗=1 𝑥𝑗 𝑏𝑗 · 𝑦|r0 𝑘𝑗=1 exp(−𝑏𝑗 𝛽𝑗 𝑦𝑗 )
exp − 𝑘𝑗=1 𝛽𝑗 𝑥𝑗 𝑏𝑗
L(𝑋, 𝜃, 𝛽) = ∑︀ ∏︀𝑘
·
,
)︀𝑏𝑗
∏︀𝑘 (︀
exp(−𝑏
𝛽
𝑦
)
1
+
exp(𝜃
−
𝛽
)
𝑗
𝑗
𝑗
𝑗
𝑦|r0
𝑗=1
𝑗=1
и
(︀ ∑︀
)︀
exp − 𝑘𝑗=1 𝛽𝑗 𝑥𝑗 𝑏𝑗
L(𝑋, 𝜃, 𝛽|r = r0 ) =
,
𝛾r0 (𝛽)
где
𝛾r0 (𝛽) :=
𝑘
∑︁ ∏︁
𝑦|r0 𝑗=1
exp(−𝑏𝑗 𝛽𝑗 𝑦𝑗 ),
(3.2)
18
и суммирование ведется по всем y = (𝑦1 , . . . , 𝑦𝑘 ) ∈ {0, 1}𝑘 таким, что
∑︀𝑘
𝑗=1
𝑦𝑗 𝑏𝑗 = r0 .
Заметим, что функция L(𝑋, 𝜃, 𝛽|r = r0 ) не зависит от 𝜃𝑖 . Тогда CML-оценка нахо
дится как точка максимума функции (3.2), то есть
𝛽^CML
(︀ ∑︀
)︀
exp − 𝑘𝑗=1 𝛽𝑗 𝑥𝑗 𝑏𝑗
.
= argmax
𝛾r0 (𝛽)
𝛽
Соответственно, для объема выборки 𝑛 > 1 CML-оценки параметров сложностей вопро
сов вычисляются по формуле
𝛽^CML
(︀ ∑︀
)︀
𝑛
∏︁
exp − 𝑘𝑗=1 𝛽𝑗 𝑥𝑖𝑗 𝑏𝑖𝑗
= argmax
.
𝛾r𝑖 (𝛽)
𝛽
𝑖=1
Таким образом, отличие реализации метода оценивания CML для случая непол
ного дизайна от метода CML, описанного в главе 1, состоит в том, что если 𝑏𝑖𝑗 = 0,
соответствующий множитель функции правдоподобия (3.2), записанной для 𝑛 >1 на
блюдений, обращается в 1, то есть
(︀
)︀
(︀
)︀
exp − 𝛽𝑗 𝑥𝑖𝑗 𝑏𝑖𝑗 exp 𝜃𝑖 𝑥𝑖𝑗 𝑏𝑖𝑗
1
= (︀
)︀0 = 1.
(︀
)︀𝑏𝑖𝑗
1 + exp(𝜃𝑖 − 𝛽𝑗 )
1 + exp(𝜃𝑖 − 𝛽𝑗 )
При этом оценки значений параметров сложностей вопросов вычисляются, как и в
случае полного дизайна, как точка максимума функции условного правдоподобия для
неполного дизайна (3.2).
3.3. Свойства CML-оценок для случая неполного дизайна
Потому как реализация метода оценивания CML для случая неполного дизайна
аналогична методу CML для полного дизайна, логично предположить, что получаемые
оценки будут обладать теми же свойствами, то есть будут асимптотически несмещен
ными и состоятельными. Для проверки этих свойств был рассмотрен случай двух вари
антов тестирования с совпадающим числом вопросов в обоих тестах, при условии, что
каждый вариант тестирования проходит одинаковое число студентов, при этом каж
дый студент отвечает на вопросы только одного теста. Были промоделированы выбор
ки CML-оценок для разного числа вопросов 𝑘 , «общих» вопросов 𝑟 и числа параметров
способностей 𝑛 и исследовано поведение построенных оценок при увеличивающемся
объеме выборки 𝑛.
19
3.3.1. Моделирование. Число вопросов
𝑘=9
Была рассмотрена ситуация, когда каждый из тестов состоит из 𝑘𝑖 = 5, 𝑖 = 1, 2
вопросов, и число «общих» вопросов 𝑟 = 1. Согласно рассматриваемому методу реше
ния задачи оценивания параметров сложности вопросов для случая неполного дизайна,
вместо двух рассматривался один общий тест из 𝑘 = 9 вопросов. Параметры сложности
этих вопросов обозначим как 𝛽1 , . . . , 𝛽9 .
Были зафиксированы значения параметров 𝛽𝑗 , 𝑗 = 1, . . . , 9, указанные в табли
це 3.1, и «общий» вопрос с параметром сложности 𝛽7 . Вопросы, со значениями па
𝛽1
𝛽2
𝛽3
𝛽4
𝛽5
𝛽6
𝛽7
𝛽8
𝛽9
-1.05
-0.85
-0.50
0.60
1.80
-0.05
0.00
0.01
0.04
Таблица 3.1. Значения параметров сложности вопросов 𝛽𝑗 , 𝑘 = 9.
раметров сложности 𝛽1 , . . . , 𝛽4 , 𝛽7 , составили список вопросов первого теста, вопросы
сложности 𝛽5 , 𝛽6 , . . . , 𝛽9 — второго.
Для объемов выборки 𝑛 = 500, . . . , 2000 были промоделированы результаты те
стирования 𝑥𝑖𝑗 , по которым были построены выборки CML-оценок. Из рисунка 3.1,
на котором изображена зависимость среднеквадратичного отклонения от объема вы
борки 𝑛, можно видеть, что среднеквадратичное отклонение убывает к нулю. Можно
√
приблизительно оценить порядок сходимости как 𝑛. Из рисунка видно, что средне
квадратичное отклонение для параметра «общего» вопроса 𝛽7 меньше, чем для других
параметров, что закономерно, так как объем выборки для параметра 𝛽7 равен 𝑛, тогда
как для параметров сложности других вопросов он равен 𝑛/2, потому что «общий»
вопрос встречается в обоих тестах. При моделировании также было проверено, что сме
щение оценок мало и не превышает 0.01.
При увеличении числа «общих» вопросов 𝑟 = 3, вопросы, соответствующие па
раметрам 𝛽7 , 𝛽4 , 𝛽5 были зафиксированы как «общие». По рисунку 3.2, на котором
изображена зависимость среднеквадратичного отклонения от объемов выборки 𝑛 =
500, 750, . . . , 2000, видно, что среднеквадратичное отклонение CML-оценок уменьши
лось по сравнению со случаем 𝑟 = 1, и убывает к 0.
20
0.19
0.18
0.17
0.16
0.15
0.14
0.13
Item
0.12
beta 1
beta 2
0.11
MSE
beta 3
beta 4
0.10
beta 5
0.09
beta 6
beta 7
0.08
beta 8
beta 9
0.07
0.06
0.05
500
750
1000
1250
1500
1750
2000
Sample size, n
Рис. 3.1. Зависимость среднеквадратичного отклонения от объема выборки 𝑛, 𝑘 = 9, 𝑟 = 1. 𝛽7
— «общий» вопрос.
21
0.18
0.17
0.16
0.15
0.14
0.13
0.12
Item
0.11
beta 1
beta 2
0.10
MSE
beta 3
beta 4
0.09
beta 5
beta 6
0.08
beta 7
beta 8
beta 9
0.07
0.06
0.05
500
750
1000
1250
1500
1750
2000
Sample size, n
Рис. 3.2. Зависимость оценки среднеквадратичного отклонения от объема выборки 𝑛, 𝑘 = 9,
𝑟 = 3. 𝛽4 , 𝛽5 , 𝛽7 — «общие» вопросы.
3.3.2. Моделирование. Число вопросов
𝑘 = 15
Далее был рассмотрен случай двух тестов, содержащих по 𝑘𝑖 = 8, 𝑖 = 1, 2 во
просов, при числе «общих» вопросов 𝑟 = 1. Был рассмотрен общий тест, состоящий
из 𝑘 = 15 вопросов c фиксированными параметрами сложности, указанными в Табли
це 3.2. В качестве «общего» вопроса был зафиксирован вопрос с параметром сложности
𝛽8 . В список вопросов первого теста были включены вопросы, соответствующие пара
метрам 𝛽1 , . . . , 𝛽8 , в список вопросов второго теста — вопросы со значениями параметров
𝛽8 , . . . , 𝛽15 .
Также при моделировании было проверено, что смещение построенных оценок ма
ло и не превышает 0.02.
22
0.19
Item
0.18
beta 1
0.17
beta 2
MSE
0.16
beta 3
0.15
beta 4
0.14
beta 5
0.13
beta 6
beta 7
0.12
beta 8
beta 9
0.11
beta 10
0.10
beta 11
beta 12
0.09
beta 13
beta 14
0.08
beta 15
0.07
0.06
500
750
1000
1500
Sample size, n
Рис. 3.3. Зависимость среднеквадратичного отклонения от объема выборки 𝑛, 𝑘 = 9, 𝑟 = 1.
«Общий» вопрос 𝛽8.
23
𝛽1
𝛽2
𝛽3
𝛽4
𝛽5
𝛽6
𝛽7
𝛽8
-2.00
-1.30
-1.05
-0.85
-0.50
-0.30
-0.05
0.00
𝛽9
𝛽10
𝛽11
𝛽12
𝛽13
𝛽14
𝛽15
0.01
0.04
0.40
0.60
0.80
1.80
2.40
Таблица 3.2. Значения параметров сложности вопросов 𝛽𝑗 , 𝑘 = 9.
На рисунке 3.3 изображена зависимость среднеквадратичного отклонения от объ
ема выборки 𝑛. Видно, что с увеличением объема выборки среднеквадратичное откло
√
нение убывает к 0, скорость сходимости можно оценить как 𝑛.
В результате моделирования для числа параметров сложностей вопросов 𝑘 = 9, 𝑘 =
15 и различного числа общих вопросов 𝑟 было проверено, что CML-оценки в случае
неполного дизайна асимтотически несмещенные, состоятельные, при этом скорость схо
√
димости среднеквадратичного отклонения к нулю можно оценить как 𝑛.
24
Заключение
В рамках данной работы в математической среде R был реализован метод оцени
вания значений параметров сложностей вопросов CML, где значения функции 𝛾 были
вычислены по определению и по рекуррентным соотношениям. Для того, чтобы проил
люстрировать устойчивость реализованного алгоритма было выполнено моделирование
данных, построены CML-оценки и проверены их свойства.
Для иллюстрации преимуществ метода CML перед стандартными методами оце
нивания, в среде R был реализован один из стандартных методов, метод JML, и для
сравнения проиллюстрировано поведение построенных JML- и CML-оценок при расту
щем объеме выборки.
Также было рассмотрено естественное расширение задачи оценивания способно
стей людей и сложностей вопросов, а именно случай неполного дизайна. В среде R
был реализован метод CML для случая неполного дизайна, построены оценки значе
ний параметров сложностей вопросов и исследовано поведение построенных оценок при
увеличении числа неизвестных параметров, разном числе «общих» вопросов и увеличи
вающемся объеме выборки. Для разного числа параметров сложности вопросов было
показано, что смещение CML-оценок для случая неполного дизайна пренебрежимо ма
ло, среднеквадратическое отклонение построенных оценок убывает к нулю, скорость
√
сходимости была оценена как 𝑛.
25
Список литературы
1. Molenaar I. Some Background for Item Response Theory and the Rasch Model // Rasch
Models. Foundations, Recent Developments, and Applications / Ed. by G. H. Fischer,
I.W. Molenaar. — Springer-Verlag New York, Inc., 1995. — P. 3–15.
2. Andersen E. B. The numerical solution of a set of conditional estimation equations //
Journal of the Royal Statistical Society. Series B (Methodological). — 1972. — Vol. 34,
no. 1. — P. 42–54.
3. Molenaar I. Estimation of Item Parameters // Rasch Models. Foundations, Recent
Developments, and Applications / Ed. by G. H. Fischer, I.W. Molenaar. — Springer-Verlag
New York, Inc., 1995. — P. 39–53.
4. Pfanzagl J. On the consistency of conditional maximum likelihood estimators // Annals
of the Institute of Statistical Mathematics. — 1993. — Vol. 45. — P. 703–719.
Отзывы:
Авторизуйтесь, чтобы оставить отзыв