Основное предположение IRT:

УДК 378.14; 681.3

анализ модели G. Rasch методом численного Эксперимента.

А.В. Колпаков, А.А. Захаров

Саратовский государственный технический университет

В настоящее время существуют два теоретических подхода к созданию тестов: классическая теория и современная теория IRT (Item Response Theory).

В работе исследовалась однопараметрическая модель IRT G.Rasch:

P_ij=1/{1+exp[-1,7(Q_i-b_j)]}

где P_ij – вероятность того, что i-ый человек выполнит j-ое задание, Q_i – латентный (скрытый) параметр способности i-го человека, b_j - латентный параметр трудности j-го задания.

Так как исследование проводилось методом численного эксперимента, то учет дополнительных параметров (дифференцирующей способности задания и вероятности угадывания ответа) не имел смысла (хотя, в ходе эксперимента, дифференцирующая способность – второй параметр в модели Birnbaum – также варьировалась).

Рассматривалась типичная задача - 50 испытуемых, выполняющих 50 заданий. Их уровни знаний в логитах были заданы линейно от -3 до 3, аналогично заданы трудности заданий.

Для генерации матрицы ответов использовалась следующая формула:

x_ij = Int(p_ij - Rnd(1) + 1)

где Int – функция целого, а Rnd(1) генерирует случайное число в интервале от 0 до 1 (стандартные функции языка Basic). При этом x_ij принимает единичное значение с вероятностью p_ij. Пусть, например, p_ij=0.3. Если посчитать сумму x_ij в достаточно большом цикле (10000), то получим ~ 3000 единичных значений и ~7000 нулевых.

После подстановки p_ij из выбранной модели получаем матрицу правильных ответов (имитируем реальное тестирование):

01111000000000000000000000000000000000000000000000

10101000001000000000000000000000000000000000000000

………….

11111111111111111111111111111111011111111111100011

11111111111111111111111110111111111111111100101111

Показаны две первые и две последние строки матрицы. При каждом запуске программы конкретный вид матрицы правильных ответов получается другим, но качественная картина сохраняется. Видно, что с увеличением уровня знаний и упрощением заданий вероятность верного ответа стремится к 1.

Теперь решаем обратную задачу - по матрице правильных ответов находим уровни знаний и трудности заданий в логитах.

Решение этой задачи может быть выполнено с различной точностью и соответственно с различными затратами. Наиболее просто вычисляются ненормированные значения, несколько сложнее проводится нормировка и сложнее всего реализуется метод наибольшего правдоподобия. В (1) рекомендуется проводить итерации, пока изменение на шаге не станет менее 0.01 логит, в (2) рекомендуют ограничиться значением 0.25 логит.

Хотя расчет выполнен методом наибольшего правдоподобия и итерации проводились до изменения на шаге 0.001 логит, ошибка достаточно велика. Типична ситуация перестановки N-го и M-го испытуемого. Варьировалось количество заданий, испытуемых, интервалы в логитах. Для распределения Q_i и b_j были опробованы не только линейные интервалы, но и нормальное распределение. Радикального улучшения точности, увы, не наблюдалось. Моделирование показало, что в самой модели заложена ошибка измерения, которая делает проведение аналогий с физическими измерениями не совсем корректным. Да и оценка для ошибки, проведенная в соответствии с (2), даже в середине интервала не менее 0.37 логит. Например, получив для одного тестируемого уровень знаний 0,8 логит, а для другого 1,0 логит с типичной точностью 0,4 логит мы ничего не сможем сказать об истинном соотношении их уровня знаний, так как разница измеренных значений меньше ошибки измерения.

Литература:

1. Челышкова М.Б. Разработка педагогических тестов на основе современных математических моделей. /Уч. пособие. – М.: Исслед. центр проблем качества подготовки специалистов, 1995. 32 с.: ил.

2. From p-values and raw score statistics to logits. Stenner AJ, Wright BD, Linacre JM. 1994