Тестовые оценочные средства как инструмент для оценки и аттестации студентов вузов (репринт статьи)
Timur.Idiatullov — Ср, 26/01/2011 - 09:22
Проблема создания и использования ПТМ (или КИМ, как их любят теперь "звать" в методических кругах) в вузовском образовании по-прежнему животрепещущая. Поскольку привычка - самое лучше лекарство от "критического взгляда" на их качество и пригодность, то нелишне будет "освежить" память.
Принимайте - репринт брошюры 2006 года по проблемам конструирования тестовых оценочных средств для аттестации в вузах.
Тестовые оценочные средства как инструмент для оценки и аттестации студентов вузов
Т.Т. Идиатуллов, Б.А. Смоленчук
-
Содержание
- Педагогические измерения и адаптивное обучение как инструмент совершенствования образования
- Аспекты применения педагогических тестовых технологий и тестовые оценочные средства
- Заключение
Реферат
Рассмотрены аспекты применения тестовых средств педагогического контроля для нужд аттестации выпускников высших учебных заведений. Представлены функциональные аспекты применения тестовых средств в образовательной практике, России и зарубежных стран. Выполнен анализ соответствия используемых в РФ и зарубежных методик разработки и применения педагогических тестовых материалов. Даны рекомендации по совершенствованию практики создания и применения тестовых оценочных средств. Дана общая оценка целесообразности применения оценочных средств в тестовой форме для проведения процедуры аттестации выпускников высших учебных заведений с учетом сложившейся практики.
Педагогические измерения и адаптивное обучение как инструмент совершенствования образования
Каждый раз, когда кажется, что используемая технология уже отработана до предела, что отшлифованы все шероховатости и все нюансы учтены, находится фактор, учет которого ломает все самые "твердые" устои системы. Так было, так будет, и это происходит сейчас.
Задумаемся: "В чем сила педагогической науки?" В ее консервативности. Так же как столетия назад, преподаватель может выбирать одну из трех форм работы: лекцию, семинар или практикум. В любом случае, изложение нового материала монологично, последовательно и проводится в устной форме. Современные технологии не изжили данной специфики передачи информации, они лишь сместили акценты и изменили форму представления материала. На смену невнятному бормотанию лектора пришел мелкий неразборчивый шрифт на мерцающем экране.
Раньше студент мог уповать на "отложенную" подготовку, когда усвоение материала ведется путем анализа содержимого конспекта, а лекция представляет собой упражнение по созданию этого самого конспекта под диктовку. Лучшие конспекты выходили из под пера самых подготовленных студентов, которые могли "отделить зерна от плевел". Использование созданных таким путем "методических материалов" позволяло надеяться на успешную подготовку даже без сильного углубления в предмет.
Теперь, с распространением доктрины информационных технологий ситуация изменилась, причем в большинстве случаев - в худшую сторону. Что представляют собой большинство современных учебных пособий? Это текст, структурированный в соответствии с представлениями автора о содержании данной учебной дисциплины, пестрящий множеством речевых артефактов и плохо поддающийся усвоению. "Его величество Удачный конспект" уходит в прошлое. Теперь каждый сам должен переработать материал, выделив необходимые для запоминания элементы, а затем попытаться сформировать у себя правильную структуру знаний. Большая изолированность обучаемых приводит к уменьшению времени "научного" общения, когда в свободной беседе происходил обмен материалом и даже самые слабые ученики "дотягивались" до среднего уровня на остаточных знаниях.
Проблема даже не в специфике современного уровня развития "электронного обучения" в России, а в методиках преподавания в целом. Не важно, каким образовательным стандартом руководствуется преподаватель при разработке курса, индивидуализация способа преподавания, именуемая "авторским прочтением", создает предпосылки для пестрого разнообразия уровней подготовки специалистов. Уровней не в смысле "хуже-лучше", а в смысле - "по-другому".
Традиционная лекционная форма, будучи еще более ограничена ораторскими способностями преподавателя, а также временными и прочими ресурсными рамками, порождает даже более сильные вариации в "прочтении" образовательного стандарта. Единственный способ сравнивать учебные достижения двух разных людей - это только добиться того, что бы они одновременно учились "за одной партой", причем оцениванием должен заниматься один и тот же преподаватель в одно время.
Все в педагогике, а тем более в педагогическом оценивании, субъективно. Более того, критерии имеют заметный дрейф во времени, они варьируются в зависимости от широкого спектра факторов, вплоть до этических (плохое поведение = плохая оценка).
Что может помочь педагогике выйти из указанного тупика? Только разработка единых стандартов преподавания и технологий объективного оценивания, применимых в повсеместной практике.
Как можно представить себе подобные единые стандарты на принципы подачи и усвоения материала? Некоторая утопичность, присущая данной терминологии, отталкивает возможные размышления и исследования в данной области. "Коллектив – это группа индивидуумов объединившихся для достижения общей цели", – скажет вам любой критически настроенный слушатель – "индивидуальность подразумевает различие, в том числе и в манере общения".
Попробуем все-таки найти какой-нибудь способ придать некоторую стабильность характеристикам образовательного процесса.
Итак, как можно себе представить реализацию стабильности характеристик образовательного процесса? Что вообще разумно понимать под этими самыми характеристиками?
Ответ прост и вместе с тем весьма сложен: "Характеристики образовательного процесса - это величины прямо или косвенно влияющие на качество образовательной деятельности, как со стороны обучающегося, так и со стороны окружения". Говоря экономическим языком, можно ли каким-либо образом добиться стабильности характеристик "сырья" и "технологического процесса"? По поводу схожести людей приступающих к обучению, указано немного выше, там, где говорится об индивидуальности. Конечно, все люди различны, уровень подготовки и набор базовых знаний отличается порой весьма существенно. Более того, даже способность к усвоению знаний ("обрабатываемость сырья") весьма различна. Сделать с этим ничего нельзя, если мы не собираемся использовать что-то схожее с системой отбора в специальную роту охраны Кремля - рост, телосложение, черты лица и т.п. должны укладываться в норматив с точностью до пары сантиметров. Но это невозможно, образование доступно каждому - так указанно в Конституции РФ.
Иными словами "сырье" у нас неоднородное и ничего общего кроме единого желания учиться не имеет (что тоже спорно само по себе).
Тогда разумно ли говорить о необходимости использования стандартизованных процедур обучения? Если каждый начинает на собственном уровне и по разному может двигаться вперед, то применение единых методик "в лоб", неизбежно приведет к тому, что различия в группе обучающихся только усилятся. Тем более, если образовательный процесс различен, но не адаптивен, то дифференциация слушателей может стать совсем астрономической.
Адаптация - приспособление технологии под нужды конкретного потребителя - вот конек современных высокотехнологичных производств. Если необходимо получить продукт с заданными свойствами, то нужно произвести сначала доводку характеристик исходных материалов до требований при использовании стандартного технологического процесса, либо изменять параметры технологической цепочки так, чтобы в процессе производственной эволюции заготовка превратилась в деталь со строго заданными свойствами.
В условиях современной организации образовательного процесса, когда время, выделенное на обучение, принято формировать отрезками длительностью в учебный год (два семестра), реабилитационные процедуры подгонки уровня абитуриентов до требований вузов автоматически удлиняют обучение на год. К тому же, многим и не нужен полный подготовительный курс, вполне достаточно 3 или 6 месяцев дополнительных занятий. И не следует забывать, что программа подготовительных курсов тоже обладает стандартизованностью.
Наибольшим внутренним потенциалом обладает система подготовки с индивидуальными адаптационными программами обучения. В идеале, к каждому обучающемуся нужно "приставить" куратора, который будет оценивать уровень достижений и оптимизировать траекторию обучения.
Очевидно, что проблема персонализации обучения не может решаться экстенсивным путем, т.е. повышением количества преподавателей, занятых в образовательном процессе. Это невозможно хотя бы потому, что нет способа найти достаточное количество преподавателей, являющихся экспертами во всех изучаемых студентом дисциплинах. Если же задействовать несколько специалистов для "сопровождения" каждого обучающегося, то удастся построить только пирамиду (вроде "МММ"), когда люди будут учиться, чтобы учить других, причем на самоиндукции, т.е. каждое следующее поколение будет задействовать в образовательном процессе весь предыдущий выпуск. Парадокс.
Решение существует. Технологии промышленного производства давно преодолели идеологические трудности введения понятия экономической целесообразности. Когда возникла конкуренция между производителями, появился способ увеличить привлекательность продукции, уменьшив издержки. Принцип прост - внедрение автоматизированных конвейерных схем. Получив заготовку, система определяет индивидуальную траекторию эволюции детали, с контролем качества на каждом этапе и возможностью коррекции производственной схемы.
Проекция на сферу образования очевидна - нужно создать возможность изучения учебных дисциплин по множеству альтернативных способов подачи материала, причем каждый последующий модуль должен выбираться индивидуально для каждого обучающегося. Например, студенту с хорошим пространственным мышлением достаточно дать текст задачи по стереометрии, а кому-нибудь для решения такой задачи было бы не зазорно "поиграться" с пространственными модельками (конструктором). И, конечно, необходим как можно более эффективный контроль обучения.
"Но", – скажет иной скептик, – "это же простая переформулировка того, как работает образование всегда". Нет, принятая сейчас "классическая" система подразумевает управление образовательным процессом через изменение мотивации обучающегося. Т.е. если студент плохо усвоил содержание какой-либо дисциплины, то ему выставляется низкая оценка. Заметьте - не его уровню знания, а ему лично! Ведь так и говорят: "Плохой студент!"
Основная же суть адаптивных технологий коренным образом иная. В процессе подготовки нужно добиваться минимума "брака", т.е. того, чтобы все студенты преодолели к концу обучения некий квалификационный минимум. Но идти к этому нужно через изменение образовательных траекторий. Простой инфляционный путь усложнения всего курса обучения для работы "с запасом" - не выход. Ведь если программу строить с расчетом на "слабых", то "сильных" просто не останется. Все студенты станут посредственностями.
Пришла пора вспомнить о второй поднятой проблеме - как обеспечить этот самый единый квалификационный минимум? Ведь используя "классическую" форму оценки учебных достижений это сделать очень трудно.
Рассмотрим, для примера, понятие экспертной оценки. Что такое экспертиза качества - это сравнение изделия посредством некоторой оценочной системы (эксперта) с эталоном. Эталон - это некоторый набор количественных значений характеристик, принятый за образец, степень отклонения от которых и является показателем качества процесса подготовки. Единственный эталонный показатель, который можно принимать в педагогике, – способность специалиста успешно решать задачи, возникающие в процессе профессиональной деятельности (хотелось бы добавить еще "без значительного снижения ресурса самого исполнителя", но это немного из другой области - профессиональной пригодности). Естественно, что произвести подобную оценку практически неосуществимая мечта. Любая проверка возможна была бы только после длительной работы, в результате которой реализовалось бы большинство ситуаций, действия испытуемого в которых могут быть признанными критическими. Значит единственный путь модельные задачи, т.е. некоторая моделируемая проблема, характер решения которой и покажет возможности обучаемого. Вопрос корректного конструирования подобных задач - это отдельная тема, а нам нужно установить философию самого процесса оценки в процессе обучения и аттестации.
Итак, что мы имеем? С одной стороны находится студент с неопределенным уровнем базовой подготовки, с другой образовательная система, с третьей - профессиональная деятельность. Потребности профессиональной деятельности очевидны - "лучше иметь самого лучшего". Потребности обучающегося тоже весьма адекватно описываются - стать этим самым лучшим с наименьшими затратами времени и труда. Система образования выступает в качестве исполнителя социального заказа.
В любом случае, для всеобщего снижения издержек необходимо разрабатывать технологии адаптивного обучения и дискутируемым остается только вопрос о методике оценивания (входного, рубежного и выходного контроля).
Проблема экспертной оценки была не зря затронута ранее. В сущности своей, экзамен - это экспертиза качества подготовки преподавателем. Надежность такой оценки - вот главный спорный вопрос. Вернее, даже не валидность ранжирования оцениваемых среди одногруппников, а корректность применимости выставленной оценки к всему множеству обучающихся по данному направлению в стране.
Понять приведенные сомнения просто, если обратиться к инженерной теории измерений. Просто нужно сопоставить понятия «эксперт» и «измерительная система» (прибор).
Существует эталонный прибор, некоторый набор значений характеристик, отражающих принятую за образец возможность проводить измерения в заданном диапазоне и с определенной погрешностью. Произведенный нами новый прибор по аналогу эталонного априори отличается от него, т.е. даже с условием "поверки" все равно при измерении будет давать показания со случайным и систематическим отклонением от эталонного прибора.
[Поверка (техн., Теория измерений) - процедура текущего контроля и калибровки измерительного инструмента]
Процедура поверки проводится с использованием калиброванных образцов, разработанных так, чтобы сравнение показаний двух измерительных приборов позволяли определить величину необходимой коррекции шкал. Однако потребность в поверке оказывается часто слишком большой и приходится использовать калиброванные образцы для создания приборов, заменяющих эталонные при производстве калиброванных образцов второго уровня, потом из второго уровня получается третий, и так далее. И на каждой операции возрастает суммарная (вернее нужно говорить "производная") погрешность измерительного прибора. Поэтому и различают классы измерительных устройств по степени доверия к их показаниям.
Теперь вернемся к экспертам. Когда-то, давным-давно, появился основатель какой-то научной дисциплины. Он обучил учеников и оценил их знания. Как бы он ни старался, но уровень их подготовки был различен. И выступая в качестве экспертов, каждый из них ставил слегка отличающуюся оценку одному и тому же студенту. После этого эти первые ученики разъехались и основали свои собственные школы. Они подготовили новое поколение, которое затем, вырастило следующие. И так, раз за разом, происходило рассогласование критериев, применяемых к оценке качества подготовки и самому образовательному процессу. Даже общие методические планы по дисциплинам не могут в полной мере исправить ситуацию. Ведь акценты и приоритеты расставляет сам эксперт, согласуясь со своим внутренним ощущением предмета.
Одна из немногих возможностей повысить единообразие оценивания, это сделать шкалы измерительной системы более непрерывными (увеличить частоту дискретизации), а затем вводить поправочные коэффициенты к показателям оценивания. Например, делать случайную выборку из сдавших экзамен студентов, а затем исследование уровня их подготовки в центре подготовки, принятом в качестве базового для данной специальности. А после использовать разницу в характеристиках как пересчетные коэффициенты для оценок.
Есть одно но, эту систему можно было бы использовать в ситуации, когда шкала с высокой дискретизацией была бы внутренне близка российским преподавателям. Но психологи утверждают, что человек может оперировать максимум шестью уровнями ранжирования адекватно, а в российской практике - лишь четырьмя ("неудовлетворительно", "удовлетворительно", "хорошо" и "отлично"). Переключиться даже на стобальную шкалу не позволит сам способ мышления (71 и 72 балла будут различаться в сознании гораздо меньше чем 98 и 99).
Мировые исследования в области педагогических измерений дали возможность нивелировать эту проблему путем предложения схемы оценивания на основании модулей-квантов. Конечный балл вычисляется на основании решения испытуемым большого количества частных задач разной трудности. Причем оценивание ведется путем сравнения ответа испытуемого и типового ответа. Таким образом эксперт должен оценить лишь степень соответствия ответа "эталонному", а так как тематический охват каждой задачи невелик, то поле для неоднозначности трактовки значительно снижается. Существующие проблемы подбора наборов задач для организации одновременного оценивания решаются путем шкалирования, калибровки и выравнивания результатов выполнения самих задач студентами. Грамотная разработка пакета заданий и корректное проведение процедуры является краеугольным камнем эффективности данного подхода к оцениванию учебных достижений.
В переводах зарубежных источников принято называть описанную выше процедуру педагогическим тестированием. Однако, к сожалению, в связи с ажиотажным интересом вокруг систем объективного оценивания в педагогике, действительно важные аспекты при применении технологий тестирования были упущены. И что самое главное, утеряно понимание важности качественной разработки тестов и деформирована понятийная область применения педагогических тестовых технологий. Говоря проще: "Кухарка взялась за управление государством". В современном тестировании в России больший акцент делается на процедуры корректировки результатов ответов на задания. Хотя очевидно, что взяв канцелярскую линейку с неровными рисками, никогда невозможно добиться хорошего качества измерения, тем более, если измерять что-нибудь вроде реального земельного участка.
Если обратиться к технологии построения оценочных систем предлагаемой методологией разработки оценочных средств, то наиболее актуальной представляется возможность адаптации технологий педагогических измерений к методам оценки и аттестации выпускников вузов. Нужно иметь инструмент для объективной оценки, который будет слабо зависеть от специфичности подготовки конкретного эксперта (аттестационной комиссии). К тому же, широко известны технологии проведения массового тестирования, когда погрешность, возникающая при сравнении результатов испытаний, полученных в территориально удаленных местах, допускает корректировку специальными процедурами. В общих чертах, если при тестировании будет соблюдена корректность процедуры, то оценка, выставленная в одной части страны, будет реально отражать рейтинг выпускника среди всех его "коллег по цеху".
Вообще, педагогические тестовые технологии имеют громадный потенциал в области рубежного и аттестационного контроля. Обладая способностью давать объективные оценки, результаты которых могут быть распространены на всю страну, а погрешности, вызванные неоднозначностью экспертизы – нивелированы, педагогические тесты несомненно должны применяться в качестве оценочных, главное только не забыть о том, что разработка наборов заданий должна вестись не только силами специалистов предметников, но и специально подготовленными тестологическими лабораториями. К чему может привести игнорирование последнего положения изложено в следующей части.
Аспекты применения педагогических тестовых технологий и тестовые оценочные средства
Методология, заложенная в технологии разработки и применения педагогических измерений, применяемых в настоящее время в наибольшей степени в области педагогического тестирования, позволяет совершенствовать также аспекты объективизации аттестации, и, что еще более важно, выявлять и оценивать соотношения между скрытыми параметрами данной процедуры.
Возможно, необходима некоторая расшифровка понятия "скрытые параметры процедуры оценивания". Попробуем определить его более подробно. Для этого рассмотрим технологию оценивания уровня подготовленности, разработанную на базе методики создания оценочных средств для итоговой государственной аттестации выпускников вузов. Основные определения, вводимые данной методикой, подразумевают, что под фондом оценочных средств для итоговой государственной аттестации выпускников вузов на соответствие требованиям государственного образовательного стандарта высшего профессионального образования понимается комплект методических материалов, предназначенный для решения задачи соответствия, т.е. установления в ходе аттестационных испытаний выпускников, завершивших освоение основной образовательной программы по определенному направлению или специальности, факта соответствия уровня их подготовленности требованиям соответствующего ГОС ВПО. В фонд оценочных средств для итогового экзамена входят: программа итогового экзамена; совокупность заданий, предназначенных для предъявления выпускнику на экзамене, и критерии их оценки; методические материалы, определяющие процедуру проведения экзамена. Выпускные квалификационные работы на данном этапе рассмотрения лежат вне области нашего интереса.
Обратимся внимательнее к содержанию определения, а именно к области применения. Фонд оценочных средств - это "комплект методических материалов, предназначенный для решения задачи определения соответствия". Иными словами, аттестация в высших учебных заведениях в общем случае понимается как способ верификации сформированной у обучаемого структуры знаний (умений, навыков). В данном случае объектом верификации выступает структура знаний, субъектом – эксперт-экзаменатор, описание эталона закладывается в ГОС, инструментом верификации является личное субъективное мнение экзаменатора. Причем, определить безусловный минимум подготовки, который позволит успешно преодолеть процедуру аттестации, чрезвычайно сложно, т.к. экспертом учитывается одновременно слишком много факторов, которые усиливают параметры неопределенности.
Одним из существенных положений, при работе с технологиями педагогических измерений, является введение определения "модели оценивания". Приняв как некоторую абстракцию возможность выражения уровня подготовленности некоторой величиной, в большинстве своем – числовой (скалярной), мы получаем возможность составления суждения о качестве подготовки конкретного испытуемого относительно прочих.
Несомненно, крайне важным для понимания основ теории педагогических измерений является понятие "точности измерения". Также как невозможно представить наличие двух совершенно идентичных личностей, так и нет никакой причины утверждать совпадение у них способностей к решению какой либо профессиональной задачи. Конечно, в рамках педагогического оценивания термин "способности" следует понимать в знаниево-навыковой парадигме. То есть подразумевается способность давать компетентные решения поставленной задачи.
Так в чем же заключается влияние этих двух понятий на процедуру оценивания? Безусловно, что классическое понятие измерения подразумевает наличие некоторых объектов - эталонов, на соответствие которым и производится оценивание. В дополнение к этому существует некоторый метод "сравнения", который позволяет оценить степень соответствия, а также, в метрических системах, существует некоторый способ аппроксимации измеряемого свойства между эталонными значениями, для получения промежуточных значений величин.
Разумеется, в точных (технических) науках, проблема измерения дополняется необходимостью решения задачи достоверности полученных значений. В самом деле, в описанном множестве только эталоны являются инвариантами для методики измерения, все остальные методы и объекты построены на основе косвенных довольно сложных преобразований и зачастую их точность вообще не поддается оценке. И конечно, в дисциплинах гуманитарного толка, таких как педагогика, совершенно неразумным является абсолютизирование такого понятия как стандарт (эталон). Вернее даже будет говорить не о проверке соответствия, а о проверке способности к решению поставленных задач на должном квалификационном уровне, причем, подразумевая при этом и простые задачи на проверку базовых знаний.
Возможно, может показаться странным столь значительный акцент знаниевых составляющих обучения, однако невозможно отрицать, что аттестация на основе рассмотрения решения задач экстремальной сложности (на сложные конструктивные умения) дает возможность выдачи "высокой аттестационной характеристики" испытуемому с совершенно недопустимыми нарушениями "структуры знаний". Понятие структура знаний, в данном контексте, сильно связано с "моделью оценивания". Дело в том, что необходимо точно дифференцировать задачи, решаемые в рамках педагогических измерений, – значительный набор "поверхностных" знаний не может и не должен обеспечивать получение высокой оценки. Образовательный стандарт по своей сути представляет стандартизованный набор требований к набору знаний, которыми должен обладать испытуемый. При этом, "базовые" знания по дисциплине являются в повседневной профессиональной деятельности зачастую более востребованными, чем сложные конструктивные умения, служащие объектом измерения в ходе традиционных экзаменационных испытаний.
Вообще, проблема контроля качества подготовки обучаемых весьма диалектична. Без сомнения, утверждение что степень подготовки определяется общей эрудированностью в предмете – столь же неполное, как и утверждение достаточности навыка решения сложных модельных задач.
Проводя параллели с архитектурой, можно сказать, что первое утверждение сродни положению о достаточности качественного фундамента (надежность) для потребительских качеств здания, а второе уповает на категорическую важность отделки помещения (функциональность). Причем очевидно, что сама по себе задача контроля имеет еще один подводный камень, связанный с ограничениями самой процедуры оценивания. В самом деле, если бы существовала возможность представить испытуемому действовать в реальной обстановке его профессиональной деятельности достаточно долгое время, то у аттестационной комиссии практически не возникало бы сомнений в степени его квалификации. Ведь именно на проверку эффективности решения повседневных профессиональных задач и направлены аттестационные мероприятия.
Однако, специфика аттестации выпускников высших учебных заведений как раз состоит в том, что комиссия не может предоставить испытуемому возможности показать свои способности справляться с профессиональными обязанностями в реальной обстановке. К тому же, отрезок времени, за который проявится достаточно большое число типовых задач деятельности, как правило, может оказаться слишком значительным. Да еще существенной является проблема возможного допуска недостаточно подготовленного специалиста к принятию решений, связанных с финансовым, и, тем более, физическим риском для окружающих и работодателей.
Следовательно, аттестационные испытания должны сводится по форме к решению некоторых имитационных задач, для выполнения которых требуется достаточно ограниченное время, но при этом задействуется достаточный набор знаний (умений, навыков), который достаточно достоверно смоделирует ситуацию профессиональной деятельности. Именно разработка таких задач, именуемых далее "модельные задачи", и должна быть основополагающей при создании материалов и методик для проведения аттестационных испытаний.
Не секрет, что в настоящей ситуации, сложившейся в высшей школе, существует серьезный дисбаланс в процедурах аттестации, связанный с тем, что многие преподаватели, особенно в гуманитарных науках, весьма незначительное время посвящают совершенствованию своего профессионального мастерства не только на ниве преподавания. Другими словами, люди, привлеченные в качестве экспертов, представляют себе задачи профессиональной деятельности по большей части "умозрительно". К примеру, преподаватель информатики, который не участвовал в разработке ни одного проекта более сложного, чем база данных своих студентов, или преподаватель психологии управления, который ни разу не входил в состав коллектива, занимающего ассессментом (assessment) реального предприятия.
Попробуем выстроить последовательность, в которой необходимо применять все введенные выше определения, но для начала приведем их краткие определения:
"Модель оценивания" - некая абстракция, позволяющая делать суждения о степени родства и различия некоторых объектов, характеристики которых спроецированы на эту модель;
"Точность измерения" - степень способности модели оценивания трактовать различия между оцениваемыми объектами;
"Структура знаний (умений, навыков)" - некоторая система организации знаний, включающая базовые знания, методики решения типовых задач и методы конструирования новых знаний;
"Модельные задания" - специально разработанные для нужд оценивания задания, качество решения которых позволяет оценить уровень подготовки испытуемого, способные выступать также в качестве учебных.
Не следует понимать модельную задачу как некоторый конгломерат связанных упражнений, задействующих наибольшее количество оцениваемых знаний и навыков. Напротив, модельные задачи должны быть как можно более тематически однородны, вплоть до простейших заданий на знание определений (тестовое задание в закрытой форме на выбор ответа).
Следует предположить появление множества возражений о недопустимости применения тестовых заданий в ситуации аттестационных испытаний. Однако приводимая аргументация, как правило, подчеркивает лишь некомпетентность выступающих в вопросах разработки и применения педагогических тестовых технологий. Даже те эксперты, которые утверждают о использовании ими тестовых материалов в своей работе, зачастую демонстрируют крайне низкий уровень понимания методологии разработки тестов, без которого создание эффективных тестовых оценочных средств не представляется возможным.
Для примера, рассмотрим методические рекомендации по определению структуры и содержания государственных аттестационных испытаний по направлению подготовки высшего профессионального образования 552200 "Метрология, стандартизация и сертификация", разработанные по заказу У МО по университетскому политехническому образованию. Оставив в стороне методики, предложенные для оценивания соотношения баллов, выставляемых за разные виды испытаний, обратимся к Билету № 2 итогового междисциплинарного экзамена. По совершенно необъяснимым, с точки зрения существующих технологий разработки тестовых заданий причинам, в билете применено всего одно задание тестового типа с выбором варианта ответа.
2. Поверка средства измерений это:
а) поверка технических характеристик в процессе изготовления;
б) совокупность операций, выполняемых органами государственной метрологической службы (другими уполномоченными на то органами) с цепью определения и подтверждения соответствия средства измерений установленным техническим требованиям;
в) испытания с целью утверждения типа средств измерений.
Разработчик этого задания явно не знаком даже с принципами формальной разработки тестовых материалов, т.к. второй ответ явно выбивается из общего хора плохо сформулированных вариантов ответа, своей полнотой, а также, предлагается всего три варианта ответа, что противоречит даже самым лояльным требованиям здравого смысла, ведь даже генератор случайных чисел "выполнит" это задание в трети всех возможных случаев.
Еще более удручающей выглядит ситуация с Билетом № 3:
2. Документация системы качества включает:
а) руководство по качеству;
б) рабочие инструкции;
в) стандарты предприятия;
г) рекламации потребителей.
Формулировка задания не позволяет точно определить в какой форме необходимо представить ответ. Как один вариант, либо нужно выбрать несколько вариантов одновременно.
Технология разработки и применения педагогических тестовых материалов определяет оценку как формализованную характеристику некоторого суждения о способности испытуемого справиться с выполнением определенного набора заданий. "Традиционная" оценка, напротив, описывает способность выполнить испытуемым задание, причем оценивается "качество" полученного результата. Если снова проводить параллели с архитектурой, то тестовая оценка указывает на то, здание какой сложности способен построить испытуемый, а «традиционная» – на сколько качественно он способен построить здание вообще.
Необходимо отметить, что оба эти подхода имеют право на существование. Ведь в предельном случае, когда точно определены критерии качества и имеется неограниченный набор заданий для произвольного требуемого уровня сложности, оба эти определения сливаются в "Оценка - характеристика способности испытуемого справиться с произвольной задачей профессиональной деятельности".
Рассмотрение вопросов тестирования как одного из краеугольных камней технологий педагогических измерений приводит нас к необходимости изучения основных положений теории измерений в контексте применения формализованной методики оценивания. Можно утверждать, что использование тестовых технологий провоцирует неподготовленных потребителей к чрезмерно "бытовой" трактовке результатов. Однако, повсеместное муссирование положений об эффективности и удобстве тестов для оценивания учебных достижений приводит к недостаточному пониманию важности квалифицированного подхода к их разработке и применению. Безусловно, что специалист-предметник является необходимым звеном при работе над любым типом теста, однако, будучи слабо подготовленным в области технологий оценивания, все его суждения о качестве разработанного теста будут по меньшей мере неадекватными. Показателен пример одной из московских школ, в которой учителя разрабатывают и "успешно" применяют тесты по математике для учеников первого (!) класса общеобразовательной школы. При том, что программа первого класса предусматривает завершение обучения чтению только к середине второго класса, поэтому задания зачитываются учителем. Показательно, что применяются тестовые задания в закрытой форме, адекватность оценивания которыми возможна только при условии индивидуального выполнения каждого задания с оптимальной для каждого испытуемого скоростью. Да и способность к абстрактному мышлению и свободному ориентированию в бланковой форме тоже вызывает сомнения. Интересно, что разработки подобного рода ведутся при непосредственном участии одного из "ведущих" (по утверждению сотрудников Минобразования России) специалистов в области педагогического тестирования в РФ.
Несомненно, значительное влияние на формирование российской специфики "культуры" применения тестовых материалов основано на использовании "быстрых" тестов для ситуационного тестирования, разработанных для контроля усвоения знаний в течение одного урока (темы). Как правило, данные разработки являются адаптацией (перевод, согласование терминологии) иностранных тестовых материалов, приведенных в учебно-методических пособиях по конкретным специальностям: медицине, психологии, иностранному языку.
Остановимся подробнее на данном варианте реализации педагогических тестовых материалов. Специфическая область их применения – рубежный контроль усвоения обучаемыми материала, пройденного в недавнем прошлом (в том числе и на текущем занятии). Соответственно, заданные параметры разработки автоматически определяют и статистическую однородность группы, и специфику тематического плана. Как правило, тестовые материалы для данного типа рубежного контроля не подразумевают выставление аттестующего балла и используются более для анализа преподавателем общей успеваемости группы для последующего акцента на определенные темы (для повторения и закрепления знаний).
Отличительной особенностью тестов для рубежного контроля является именно свобода в выборе конструктива самих заданий. Возможно, что разработчиком будут выбраны даже совершенно нестандартные способы формирования ответа из набора альтернатив. Рассмотрим, например, фрагмент теста для рубежного контроля по предмету "Методика преподавания психологии" Московского государственного социального университета:
6. Критерии оценки содержания лекции
(укажите 2 лишних).
a) научность, соответствие современному уровню развития науки
b) идейная направленность, методологические основы
c) проблемность
d) внешний вид лектора
e) практическая значимость
f) дикция лектора
g) внугрипредметные и межпредметные связи
7. Какие 4 раздела должна включать методическая разработка лекции?
(укажите лишнее)
a) главная часть
b) план
c) заключение
d) методические приемы
e) вступление
Представляется очевидным, что достаточная эффективность заданий с исключением неверных ответов не может быть принята априори, просто на основании предпосылок об усовершенствовании закрытой формы заданий (с выбором ответа из альтернатив). Вообще, постановка задачи с введением отрицания приводит к трудностям совершенно иного рода – сама разработка задания становится делом весьма специфичным. Этот довод хорошо демонстрирует задание № 6 из приведенного примера. В этом задании, видимо, была сделана попытка увеличить количество вариантов, предлагаемых для выбора, при этом не вводя политомическую систему оценивания (partial credit - частичное начисление). Т.к. жестко определено, что неправильных вариантов 2, то получается, что существует 21 различный вариант ответа. С точки зрения дистракторного анализа для заданий в закрытой форме, такое количество альтернатив весьма хорошо и вплотную приближает данное задание к открытой форме. Однако, даже беглый анализ самого содержания вопроса приводит к неутешительному выводу, что разработать, заведомо содержательно не связанный с другими, дистрактор в ситуации множественного выбора весьма сложная задача. Ведь помимо обычных требований к отсутствию подсказок ("намеков на правильный ответ"), неправильные варианты должны не давать хорошо подготовленным испытуемым возможность формировать комплексный ответ (отмечать несколько вариантов одновременно) потому, что такая смысловая группа окажется достаточно правдоподобной. Поэтому и получается, что возникающие "неправильные" альтернативы в данной специфической форме задания либо объединены в явную смысловую группу (вопрос № 6 в примере выше), либо выделяются в семантическую группу (вопрос № 7 там же).
К сожалению, существует еще множество препятствий для эффективной адаптации тестов локального контроля знаний при использовании их в качестве аттестационных. Оценка профессиональной пригодности подразумевает решение модельных задач в условиях дефицита оценочного ресурса (времени, условий проведения, ситуационных задач), поэтому постановка задачи, решение которой возможно без использования специальных знаний по предмету, основываясь только на общей эрудиции, мягко говоря, недопустимо.
23. Стиль педагогического общения, при котором педагог и учащиеся общаются на равных, называется:
а) авторитарный;
б) игнорирующий;
в) демократический;
г) попустительский.
В данном задании по дисциплине "педагогическая психология" допущены сразу две ошибки в подборе ответов. Так, всего две альтернативы предполагают "научность" самого определения, а в оставшейся "альтернативности" (выбор из двух) даже мало-мальски эрудированный человек выберет ответ, совершенно не задумываясь.
К сожалению, анализ содержания разработок в области внедрения тестовых технологий в методологии оценивания профессиональной пригодности (аттестации) выпускников вузов показывает, что современная тестологическая культура разработчиков находится на весьма низком уровне. Формы построения заданий весьма примитивны. Как правило, более 95% заданий представляют собой задания в закрытой форме (с выбором из списка альтернатив), которые имеют вариации в форме исключения неправильных ответов, задач на сопоставление списков, a также на ранжирование. При этом не применяются системы оценивания с "частичным кредитованием", параметры которых определяются на верифицирующих выборках испытуемых. Вообще, статистический анализ результатов выполнения теста применяется только для получения самых общих представлений о подготовленности испытуемых, совершенно не акцентируя внимание на проблемах конструирования самих тестовых материалов. К тому же, современная методология педагогического тестирования (в частности оценивания пригодности к действиям в определенной области), тяготеет к еще более усложненным формам оценивания, не только в форме открытых ответов, но и в форме эссе, а также конструктивных методик, с активным привлечением экспертов-оценщиков и анализом выполнения испытуемым аттестационного проектирования (дипломных работ). Современные исследования в данной области показывают, что существуют еще более эффективные формы проведения педагогических измерений, обладающие, помимо всего прочего, высокой степенью надежности полученных результатов оценивания.
Вместе с тем, все новые методы, активно внедряемые в зарубежную педагогическую практику, требуют значительных затрат на организационные процедуры, обучение экспертов и разработку самих оценочных систем. Несмотря на чрезвычайную эффективность данных подходов к методологии и процедуре оценивания/аттестации, целесообразность их интенсивного внедрения в условиях российской действительности представляется весьма спорной. Требования, предъявляемые педагогическими тестовыми системами оценивания к аттестационным органам (разработчикам, экспертам, администрации, специалистам по проведению тестирования), столь высоки, что бездумное "копирование передового опыта", наложенное на малую компетентность исполнителей, приведет к полному неприятию (вплоть до отрицания) идей педагогического тестирования в практике аттестации.
В предложенной высшим учебным заведениям методике разработки оценочных средств для итоговой государственной аттестации отмечается явный перекос в сторону субъективизации оценочного процесса. Введя всего две формы оценивающих процедур, а именно государственный экзамен и защита выпускной квалификационной работы, разработчики, следуя букве государственного образовательного стандарта, исключают специфические формы оценивания качества подготовки специалиста, такие как анализ индивидуального портфеля работ и экспертное заключение рейтинговых комиссий. Следуя логике Рекомендаций по определению структуры и содержания государственных аттестационных испытаний, сотрудники учебно-методических объединений вузов стараются интегрировать возможные системы оценивания в два указанных "стандартных способа". К чему это приводит было уже показано на примере примерного фонда оценочных средств по специальности 552200 "Метрология, стандартизация и сертификация".
Однако не стоит полагать, что современным методам оценки качества подготовки специалистов путь в Россию заказан. Не отвлекаясь на политизированные доводы некомпетентных в данном вопросе людей о специфическом менталитете и особом пути образования РФ, можно приступить к планомерному исследованию опыта разработки современных тестовых систем и методологии педагогических измерений, с целью выработки наиболее качественных и эффективных схем адаптации мирового опыта к российской педагогической практике.
Так, в частности, примерный фонд оценочных средств не представляет возможности для разработок в области педагогического тестирования именно потому, что является "примерным", т.е. образцовым. Дело в том, что на основе примеров реализации оценочных средств для итоговой государственной аттестации выпускников высших учебных заведений не допустимо рекомендовать проведение разработок тестовых оценочных средств силами учебно-методических управлений самих вузов, поскольку разработки педагогических тестовых материалов требуют специфической квалификации именно в данной области. Т.е. предлагать заведомо некорректный подход не представляется возможным.
Возможен иной путь, широко используемый в мировой практике. В отличие от традиционного оценивания, технологии педагогического тестирования позволяют более многозвенную систему. Так, например, использование педагогических тестовых материалов совершенно четко разбивается на два базовых уровня: разработка и применение (проведение).
Разработка педагогических тестовых материалов очень ресурсоемкое мероприятие, должно проводиться коллективом, содержащим специалистов в области тестологии (науки о педагогических измерениях) и экспертов в области базовой специальности (той, для которой ведется разработка тестов). При этом, должны быть обеспечены возможности неоднократной проверки (апробации) материалов, с последующей коррекцией, параметризацией и калибровкой. В целом, может показаться, что подобная задача совершенно "неподъемна" для большинства вузов,
однако не следует забывать о возможностях современных средств коммуникации. Использование их позволяет разбить эту группу на две: специалистов-предметников, которые будут проводить работы непосредственно в вузе, и специалистов-тестологов, функциональность которых будет сводиться к администрированию и экспертизе работ по разработке тестовых материалов, анализу статистических параметров и выдаче рекомендаций по использованию. Частично, эти функции можно реализовать в рамках исполнения приказа Минобразования России № 1122 о сертификации качества педагогических тестовых материалов. В дополнение к указанной схеме, должны осуществляться работы по повышению квалификации специалистов-предметников на местах, с использованием современных методов обучения (дистанционное образование), либо на выездных сессиях.
Применение готовых к использованию педагогических тестовых материалов представляется гораздо менее затратной технологией. Так, оно включает в себя процедуру непосредственного тестирования, кодирования ответов (оценки), а также анализ полученных данных и выдачу результатов тестирования. Процедура тестирования сводится больше к организационным мероприятиям, а поэтому достаточно создания методических рекомендаций для ее организации. В зависимости от типа применяемых тестовых материалов, сложность обработки (кодирования) изменяется на порядки. Так, при использовании любой формы заданий в закрытой тестовой форме, обработчику нужно просто сопоставить определенный код каждому варианту выбора, при использовании же заданий с ответами в виде краткого эссе на заданную тему может потребоваться привлечение до нескольких экспертов-предметников. Обработка полученных данных может проводиться либо по стандартизованной для используемого теста процедуре (например, подсчет баллов и перевод результатов в специальную шкалу), либо данные могут быть направлены в центр разработки теста для специальной обработки. Данная методика находит свое отражение в системе Единого государственного экзамена.
В любом случае, если вести разработки тестовых оценочных средств для итоговой государственной аттестации выпускников вузов, то следует говорить не о разработке фонда примерных оценочных средств, а о специализированном банке тестовых методик и введении в эксплуатацию системы разработки и апробации педагогических тестовых материалов с созданием центра по управлению разработками в данной области. К примеру, на базе Центра сертификации педагогических тестовых материалов Исследовательского центра проблем качества подготовки специалистов.
Заключение.
Как было показано выше, применение тестовых оценочных средств для итоговой государственной аттестации является целесообразным только при централизации разработок в данной области, с целью привлечения наиболее квалифицированных специалистов в данной области, что обеспечит значительную экономию ресурсов необходимых для их разработки. Тестовые оценочные технологии подразумевают привлечение к разработке специалистов-оценщиков и экспертов, не являющихся высококвалифицированными специалистами в предметной области самого теста, и, к тому же, значительная часть времени расходуется на разработку содержания тестовых материалов и проведение процедур тестирования (проверки качества теста). Таким образом, наиболее целесообразным представляется организация работ по схеме с центральным сервисом обработки и анализа данных, а также формирование банка калиброванных тестовых заданий и методик.
На последующих этапах представляется возможным организация системы предоставления вузам тестовых методик по запросам, подготовка специалистов-оценщиков и организация общих рейтинговых банков выпускников вузов.
- Войдите на сайт для отправки комментариев