Problems of Testology

1 В.В. Кромер г. Новосибирск СУММА ТЕС ТОЛОГИИ 0. Данные тезисы подготовлены для доклада на Международн ой научно - практической конференции "Инновации в педагогическом образовании" (Новосибирск ий государственный педагогический университет, 22 – 24 октября 2007 г ). 1 . В данном докладе сформул ированы требования к педагогическим измерительным материалам (тестам), проанализирован ы применяющиес я измерительные материалы и причины, снижающие их качество. Рассмотрена возможн ость улу чшения качества тестов. 2 . Качество тестов (тестовых результатов) характеризуется валидностью и надежностью. Валидность теста зависит от валидности составляющих его заданий, а надежность – в основном от их количества. При предтестирова нии валидность заданий определяется измерением коэффициента корреляции заданий с критерием r . Недостаточный размер нормативной выборки – причина измерения коэффициент а корреляции с недопустимой погрешностью, в результате чего в тест проникают некачественные задания. Пример: Преобразованные по формуле преобразования Фишера [1, с. 380]         5 3 1 1 ln 2 1 5 3 x x x r r z значения распределены с дисперсией 3 1  n , что при выборке в 100  n испытуемых дает доверительный интервал для z - значения с полушириной 0,2. Таким образом, задание с оцененной на нормативной выборке еще допустимой корреляцией 30 , 0  r и включенное на этом о сновании в тест, может иметь совершенно неприемлемый истинный коэффициент корреляции 11 , 0  r , и т.п. Аналогичные выводы делаются и при использовании взамен 2 коэффициента корреляции индекса дискриминатив ности. Выход заключается в применении моделей со снижением в процессе рабочего тестирования веса некачественных заданий на основе параметризаци и заданий [2; 3]. 3 . Низкое качество существующих тестов выявляется при оценке количеств различимых интервалов (квантов ) в рабочем диапазоне измерения теста. Существует простое мнемоническое правило: качество существую щих тестов оценивается отметкой на привычной четырехбалльной шкале, равной числу различимых тестом квантов измерения [6] (См. Приложение) . Тем самым удовлетворительным и признаются тесты, различающие хотя - бы три уровня измеряемого качества, чего совершенно недостаточно для дифференциаци и испытуемых в соотв етствии с заявленными целя ми тестирования . 4. Один из источников смещенности значений тестовых баллов – неучет явления угадывания. Возврат к несмещенным значениям тестовых баллов в заданиях с выбором одного правильного ответа возможен при введении коррекции баллов на угадыв ание, что требу ет раздельного учета факта выбора неправильного ответа и отказа от ответа (пропу ска задания), либо же при комплектовании теста заданиями, где вероятность угадывания верного ответа мала (ниже 1%). Это задания открытой формы и задания с выбором нескольких ответов, на установлен ие соответств ия и на установление правильной последоват ельности при соответствующем выборе числа элеме нтов в задании [5]. 5 . При тестирова нии параметры тестиру ющих определяются тестовыми заданиями, а параметры заданий – испытуемыми, т.е. речь идет о взаимно согласованн ой параметризац ии испытуемых и заданий. Если по результатам предтестирования из теста удаляются некачественные задания, то удалять из матрицы неадекватных испытуемых недопустимо. Выход заключается в переходе к моделям тестирова ния, где 3 параметризируется степень неадекватности испытуемого, и данные испытуемые принимают участие в параметризаци и с очень малым весом [2; 3]. 6 . При извлечении из матриц данных параметров сторон тестирования в IRT- моделях возникает проблема испытуемых с экстремальными значениями тестовых баллов [ 7, с. 111 –117] . Байесовский подход к проблеме, при всей корректности получаемых результатов, ведет к низкой очевидной валидности теста, а тем самым к отказу от байесовского подхода [4]. Список литературы 1. Варден Ван дер. Математическая статистика. – М.: ИИЛ, 1960. 2. Кромер В.В. Об одной возможности расширения семейства логистических моделей // Вопросы тестирования в образовании. – 2005. – № 3 (15). – С. 13 –15. 3. Кромер В.В. О многопараметрическо й оценке уровней подготовленности испытуемых и трудностей заданий // Педагогические измерения. – 2005. № 3. – С. 65 –72. 4. Кромер В.В. Добавление виртуальных заданий как альтернатива удалению реальных испыту емых // Вопросы тестирования в образовании. – 2005. – № 4(16). – С. 5 7–64. 5 . Кромер В.В. Еще раз о коррекции тестового балла // Педагогические изм ерения. – 2007. – № 1. – С. 89 –94. 6 . Кромер В.В. Протестировали. С какой точностью? // Вестник педагогических инн оваций. – 2007. – № 3(11). В печати . 7. Suen H.K. Principles of Te st Theories. – Hillsdale, NJ: Erlbaum , 1990. 4 Приложение В теории измерений вводится понятие об энтропийной погрешности  э , линейно связанной со среднеквадратической погрешностью s e соотношением e э э s k Δ  , где k э – энтропийный коэффициент, завися щий от вида распределения погрешности. Для равномерного распределения погрешности 73 , 1 3   э k , для нормального распределения 07 , 2 2   e k э  . Энтропийное значение погрешности равно максимальной погрешности при прямоугольном законе распределения погрешности, эквивалентном с точки зрения вносимой дезинформации [ Справочник по теоретическим основам радиоэлектрони ки. В двух томах. Том 2. Под ред. Б.Х. Кривицкого. М.: Эне ргия, 1977. С . 110]. При нормальном распределении тестовых баллов ожидаемое значение размаха тестовых баллов  z в единицах Z - шкалы (сигмах) зависит от объема тестиру емой выборки N и составляет 6 сигм при N порядка 700, увеличиваясь примерно на 0,4 сигмы при каждом последующем удвоении выборки. Принимаем в среднем размах тестовых баллов в 7 сигм. При стандартной ошибке измерения тестового балла в s e эквивалентная ширина одного различимого интервала (кванта) в рабочем диапазоне измерительного инструмента (теста) определяется как e e э э s s k Δ 14 , 4 2 2   , и при н e r s   1 (сигма - единиц) число квантов составляет н н э z r r Δ Δ n      1 69 , 1 1 14 , 4 7 2 . Сведем в таблицу результаты расчетов числа квантов измерения в зависимости от ожидаемой надежности теста. За основу соответствия между коэффициентом надежности и характеристикой надежности взяты данные из [ Аванесов В.С. Основы научной организации педагогического контроля в высшей школе. М.: МИСиС, 1989. С . 148]. 5 Таблица. Количество квантов измерения в зависимости от коэффициента надежности теста Коэффициент надежности r н Характеристика надежности Кол - во квантов 0,99 Практически не встречается 16,9 0,90 Отличная 5,3 0,80 Хорошая 3,8 0,70 Удовлетворительная 3,1 0,50 Неудовлетворительная 2,4 Таким образом, удовлетворитель ными признаются тесты, различающие около трех интервалов в рабочем диапазоне измерения, а для отличных это число лишь несколько превышает пять, откуда вытекает простое мнемоническ ое правило: качество сущест вующих тестов оценивается отметкой на привычной четырехбалльной шкале, равной числу различаемых ими квантов измерения. Напрашивается аналогия тестовой шкалы со шкалой бытового барометра, где при сотнях нанесенных шкальных отметок и высокой разрешающе й способности, равной 1 мм рт. ст., реальная оценка делается по пяти не привязанным жестко к значениям давления лингвистическим переменным ЯСНО – ПЕРЕМЕНН О – ПАСМУРНО – ДОЖДЬ – БУРЯ. Говорить о качественном педагогическом измерении можно лишь при применении тестов с коэффициентами надежности порядка 0,95 и выше, каковых очень мало. Считается, что в тестологической практике надежность тестов колеблется в интервале 0,8 – 0,9 [ Челышкова М.Б. Теория и практика конструирова ния педагогических тестов. – М.: Логос, 2002. С . 336] . Результаты исследования, приведенные в [ Хлебников В.А., Овчинников В.В. О точности измерения тестового балла // Вопросы тестирования в образовании. 2002. № 4. С. 53 –62] , подтверждают сделанны й вывод о невысокой точност и используемых тестов.

Problems of Testology

Original Paper

Comments & Academic Discussion

Leave a Comment

Original Paper

Related Papers

Comments & Academic Discussion

Leave a Comment