УДК
378.14; 681.3
анализ
модели G. Rasch методом численного Эксперимента.
А.В. Колпаков, А.А. Захаров
Саратовский государственный
технический университет
В настоящее время существуют
два теоретических подхода к созданию тестов: классическая теория и современная
теория IRT (Item Response Theory).
В работе исследовалась
однопараметрическая модель IRT G.Rasch:
Pij=1/{1+exp[-1,7(Qi-bj)]}
где Pij –
вероятность того, что i-ый человек выполнит j-ое задание, Qi – латентный (скрытый)
параметр способности i-го человека, bj - латентный параметр
трудности j-го задания.
Так как исследование проводилось методом численного эксперимента, то учет дополнительных параметров (дифференцирующей способности задания и вероятности угадывания ответа) не имел смысла (хотя, в ходе эксперимента, дифференцирующая способность – второй параметр в модели Birnbaum – также варьировалась).
Рассматривалась
типичная задача - 50 испытуемых, выполняющих 50 заданий. Их уровни знаний в
логитах были заданы линейно от -3 до 3,
аналогично заданы трудности заданий.
Для генерации матрицы
ответов использовалась следующая формула:
xij = Int(pij - Rnd(1) + 1)
где Int – функция целого, а
Rnd(1) генерирует случайное число в интервале от 0 до 1 (стандартные функции
языка Basic). При этом xij принимает единичное значение с вероятностью pij. Пусть,
например, pij=0.3. Если посчитать сумму xij в достаточно большом цикле
(10000), то получим ~ 3000 единичных значений и ~7000 нулевых.
После подстановки pij из выбранной
модели получаем матрицу правильных ответов (имитируем реальное тестирование):
01111000000000000000000000000000000000000000000000
10101000001000000000000000000000000000000000000000
………….
11111111111111111111111111111111011111111111100011
11111111111111111111111110111111111111111100101111
Показаны две первые и две
последние строки матрицы. При каждом запуске программы конкретный вид матрицы
правильных ответов получается другим, но качественная картина сохраняется.
Видно, что с увеличением уровня знаний и упрощением заданий вероятность верного
ответа стремится к 1.
Теперь решаем
обратную задачу - по матрице правильных ответов находим уровни знаний и
трудности заданий в логитах.
Решение этой задачи может
быть выполнено с различной точностью и соответственно с различными затратами.
Наиболее просто вычисляются ненормированные значения, несколько сложнее
проводится нормировка и сложнее всего реализуется метод наибольшего
правдоподобия. В (1) рекомендуется проводить итерации, пока изменение на шаге
не станет менее 0.01 логит, в (2) рекомендуют ограничиться значением 0.25
логит.
Хотя расчет выполнен методом
наибольшего правдоподобия и итерации проводились до изменения на шаге 0.001
логит, ошибка достаточно велика. Типична ситуация
перестановки N-го и M-го испытуемого. Варьировалось количество заданий, испытуемых,
интервалы в логитах. Для распределения Qi и bj были опробованы не только
линейные интервалы, но и нормальное распределение. Радикального улучшения
точности, увы, не наблюдалось. Моделирование показало, что в самой модели
заложена ошибка измерения, которая делает проведение аналогий с физическими
измерениями не совсем корректным. Да и оценка для
ошибки, проведенная в соответствии с (2), даже в середине интервала не менее
0.37 логит. Например, получив для одного тестируемого уровень знаний 0,8
логит, а для другого 1,0 логит с типичной точностью 0,4 логит мы ничего не
сможем сказать об истинном соотношении их уровня знаний, так как разница
измеренных значений меньше ошибки измерения.
Литература:
1.
Челышкова
М.Б. Разработка педагогических тестов на основе современных математических
моделей. /Уч. пособие. – М.: Исслед. центр проблем качества подготовки
специалистов, 1995. 32 с.: ил.
2.
From p-values and raw score statistics to
logits. Stenner AJ, Wright BD, Linacre JM. 1994