Материально-техническое обеспечение и технико-методические средства обеспечения освоения студентами дисциплин «Психодиагностика» и «Практикум по психодиагностике. Надежность тестовых методик Надежность теста по согласованности определяется с помощью

*Надежность и валидность теста - это характеристики соответствия исследования формальным критериям, определяющим качество и пригодность к применению на практике.

Что такое надежность

В ходе проверки надежности теста проводится оценка постоянства полученных результатов при повторном проведении испытания. Расхождения данных должны отсутствовать или же быть незначительными. В противном случае невозможно относиться к результатам теста с доверием.

Надежность теста - это критерий, который свидетельствует о Существенными считаются следующие свойства тестов:

  • воспроизводимость результатов, полученных по итогам исследования;
  • степень точности или соответствующих приборов;
  • устойчивость результатов на протяжении определенного периода времени.

В трактовке надежности можно выделить следующие основные составляющие:

  • надежность измерительного инструмента (а именно грамотности и объективности тестового задания), которая может быть оценена путем расчета соответствующего коэффициента;
  • стабильность изучаемого признака на протяжении длительного периода времени, а также предсказуемость и плавность его колебаний;
  • объективность результата (то есть его независимость от личных предпочтений исследователя).

Факторы надежности

На степень надежности может повлиять целый ряд негативных факторов, наиболее существенными из которых являются следующие:

  • несовершенство методики (неверная или неточная инструкция, нечеткая формулировка заданий);
  • временная нестабильность или постоянные колебания значений показателя, который подвергается исследованию;
  • несоответствие обстановки, в которой проводятся первоначальные и повторные исследования;
  • меняющееся поведение исследователя, а также нестабильность состояния испытуемого;
  • субъективный подход при оценке результатов теста.

Способы оценки надежности теста

При определении надежности теста могут быть использованы следующие методики.

Метод повторного тестирования является одним из самых распространенных. Он позволяет установить степень корреляции между результатами исследований, а также временем, в которое они были проведены. Данная методика отличается простотой и эффективностью. Тем не менее у испытуемых, как правило, повторные исследования вызывают раздражение и негативные реакции.

  • конструктивная валидность теста - это критерий, применяемый при оценке теста, имеющего иерархическую структуру (используется в процессе исследования сложных психологических явлений);
  • валидность по критерию подразумевает сопоставление результатов тестирования с уровнем развития у испытуемого той или иной психологической характеристики;
  • валидность по содержанию определяет соответствие методики изучаемому явлению, а также круг параметров, которые она охватывает;
  • прогностическая валидность - это который позволяет оценить перспективное развитие параметра.

Типы критериев валидности

Валидность теста - это один из показателей, который позволяет оценить адекватность и пригодность методики для изучения того или иного явления. Можно выделить четыре основных критерия, которые могут повлиять на нее:

  • критерий исполнителя (речь идет о квалификации и опыте исследователя);
  • субъективные критерии (отношение испытуемого к тому или иному явлению, что отражается на конечном результате теста);
  • физиологические критерии (состояние здоровья, усталость и прочие характеристики, которые могут оказать существенное влияние на конечный результат тестирования);
  • критерий случайностей (имеет место в определении вероятности наступления того или иного события).

Критерий валидности представляет собой независимый источник данных о том или ином явлении (психологическом свойстве), исследование которого проводится посредством тестирования. До тех пор, пока не будет проведена проверка полученных результатов на соответствие критерию, о валидности судить нельзя.

Основные требования к критериям

Внешние критерии, которые влияют на показатель валидности теста, должны отвечать следующим основным требованиям:

  • соответствие именно той сфере, в которой проводится исследование, релевантность, а также смысловая связь с диагностической моделью;
  • отсутствие каких-либо помех или резких разрывов в выборке (суть состоит в том, что все участники эксперимента должны соответствовать заранее установленным параметрам и находиться в схожих условиях);
  • исследуемый параметр должен быть надежным, постоянным и не подвергаться резким перепадам.

Способы установления валидности

Проверка валидности тестов может осуществляться несколькими способами.

Оценка очевидной валидности подразумевает проверку соответствия теста его предназначению.

Оценка конструктивной валидности проводится в том случае, когда для изучения определенного сложного показателя проводится ряд экспериментов. Она включает в себя:

  • конвергентную валидизацию - проверку взаимосвязи оценок, полученных с использованием различных комплексных методик;
  • дивергентную валидизацию, которая состоит в том, чтобы методика не подразумевала оценки посторонних показателей, не касающихся основного исследования.

Оценка прогностической валидности подразумевает установление возможности предвидения перспективного колебания изучаемого показателя.

Выводы

Валидность и надежность тестов - это взаимодополняемые показатели, которые дают наиболее полную оценку справедливости и значимости результатов исследований. Зачастую они определяются одновременно.

Надежность показывает, насколько результатам теста можно доверять. Имеется в виду их постоянство при каждом повторном проведении аналогичного испытания с одними и теми же участниками. Низкая степень надежности может говорить о намеренном искажении или безответственном подходе.

Понятие валидности теста связано с качественной стороной эксперимента. Речь идет о том, соответствует ли выбранный инструмент оценке того или иного психологического явления. Здесь могут быть применены как качественные показатели (теоретическая оценка), так и количественные (расчет соответствующих коэффициентов).

Надёжность как устойчивость

Устойчивость результатов теста или ретестовая надежность (англ - test-retest reliability) – возможность получения одинаковых результатов у испытуемых в различных случаях.

Устойчивость определяется с помощью повторного тестирования (ретеста) :

В данном методе предлагается провести несколько замеров с некоторым промежутком времени (от недели до года) одним и тем же тестом. Если корреляция между результатами различных замеров будет высокой, следовательно, тест достаточно надежный. Наименьшим удовлетворительным значением для ретестовой надежности является 0,5. Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему). Еще один недостаток повторного тестирования – это эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.

В связи с выше сказанным применяется исследование надежности психодиагностических методик с использованием параллельных форм, при которых конструируются эквивалентные или параллельные наборы заданий. При этом испытуемые выполняют совершенно другой тест при аналогичных условиях. Однако имеются трудности в доказательстве того, что обе формы являются действительно эквивалентными. Несмотря на это, на практике параллельные формы тестов оказываются полезными в установлении надежности тестов.

Надёжность как внутренняя согласованность

Внутренняя согласованность (англ. - internal consistency) определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в противоречие с остальными, насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест. Чаще всего тесты, разрабатываются таким образом, чтобы у них была высокая степень внутренней согласованности, а связи с тем, что если одна переменная измеряется частью теста, то тогда в других частях, если они не согласованы с первой, эта же переменная измеряться не может. Таким образом, чтобы тест был валидным, необходимо, чтобы он был согласован.

Однако существует и противоположная точка зрения. Кэттелл говорит о том, что высокая внутренняя согласованность на самом деле является противоположностью валидности: каждый вопрос должен затрагивать меньшую область или иметь более узкое значение, чем критерий, подвергающийся измерению. Если все вопросы являются согласованными в высокой степени, они сильно коррелируют, и, следовательно, надежный тест будет измерять только лишь сравнительно "узкую" переменную с малыми отклонениями. По рассуждениям Кэттелла, максимум валидности существует, когда все задания теста не коррелируют друг с другом, а каждое из них имеет положительную корреляцию с критерием. Однако, такой тест будет характеризоваться низкой надежностью по внутренней согласованности.

Для проверки внутренней согласованности применяются:

  1. Метод расщепления или метод автономных частей
  2. Метод эквивалентных бланков

Метод расщепления (Split-half reliability)

Этот метод заключается в расщеплении/разделении теста на две равные части (например, четные и нечетные вопросы, первая и вторая половина), а затем находится корреляция между ними. Если корреляция высокая, тест можно считать надежным.

Метод эквивалентных бланков

МЭБ состоит в применении двух сопоставимых друг с другом форм теста для большой выборки (например, формы L и M для измерения в шкале интеллекта Стэнфорда-Бине) Результаты, полученные при выполнении двух форм, сравнивают и высчитывают корреляцию. Если коэффициент корреляции высокий, следовательно, тест надежен. Недостаток этого метода в том, что он подразумевает такой длительный и трудоемкий процесс, как создание двух эквивалентных форм.

Альфа Кронбаха

В этом методе, предложенном Ли Кронбахом , сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, следовательно, каждый отдельный вопрос направлен на исследование одного и того же общего основания. Они вырабатывают значение, которое можно считать истинным. Если такое значение выработать нельзя, то есть получается случайный разброс при ответе на вопросы, тест не надежен и коэффициент альфа Кронбаха будет равен 0. Если же все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха в этом случае будет равен 1.

Вычисление Кронбаха

Кронбаха определяется как

где - число элементов в шкале, - дисперсия общего тестового балла, и - дисперсия элемента .

Альтернативный способ вычисления выглядит следующим способом:

где N - число элементов в шкале, - средняя дисперсия для выборки, - среднее значение для всех ковариаций между компонентами выборки.

В настоящее время Кронбаха считают при помощи SPSS , STATISTICA и других современных статистических пакетов, возможно и при помощи Microsoft Excel

Значение Кронбаха

Альфа Кронбаха в целом будет возрастать по мере увеличения взаимных корреляций переменных, и, поэтому, считается маркёром внутренней согласованности оценки достоверности результатов тестов. Так как максимальное взаимные корреляции между переменными по всем пунктам присутствуют, если измеряется одно и то же, альфа Кронбаха косвенно указывает на степень того, насколько все пункты измеряют одно и то же. Таким образом, альфа наиболее целесообразно использовать, когда все пункты направлены на измерение одного и того же явления, свойства, феномена. Однако, следует заметить, что высокое значение коэффициента указывает на наличие общего основания у набора вопросов, но не говорит о том, что за ними стоит один единственный фактор - одномерность шкалы следует подтверждать дополнительными методами Когда измеряют гетерогенную структуру, альфа Кронбаха часто будет низким. Таким образом, альфа не подходит для оценки надежности умышленно гетерогенной инструментов (например, для оригинала MMPI , в данном случае имеет смысл проводить отдельные измерения для каждой шкалы).

Считается, что профессионально разработанные тесты должны иметь внутреннюю согласованность на уровне не менее 0.90.

Коэффициент альфа может применяться и для решения другого типа задач. Так, с его помощью можно измерять степень согласованности экспертов, оценивающих тот или иной объект, стабильность данных при многократных измерениях и т.д

Теоретическое основание Кронбаха

Альфа Кронбаха может быть рассмотрено как расширение Кьюдера-Ричардсона-20 , которая является эквивалентом для работы с дихотомиями или переменными, принимающих только два значения (например, ответы истинно/ложно).

Α Кронбаха теоретически связана с формулой прогнозирования Спирмана-Брауна . И обе эти формулы вытекают из классической теорией теста , заключающийся в том, что достоверность результатов тестирования может быть выражена как отношение дисперсий истинной и общей оценок (ошибки и истинной оценки).

См. также

Помимо надежности тестов, есть так же надежность наблюдения – межнаблюдательская надежность. МН – это процент совпадения результатов наблюдения экспертов друг с другом.

Надежность и валидность

Надежность показывает, что результаты проводимого исследования близки к истине, а валидность показывает, что результаты действительно относятся к тому явлению, которое изучается исследователем. Валидное исследование автоматически является надежным, однако обратное следствие не обязательно. Надежное исследование может и не быть валидным.

Литература

Пол Клайн. "Справочное руководство по конструированию тестов", Киев, 1994.

Ссылки

  • Надёжность тестов в книге В.С.Кима "Тестирование учебных достижений"

Wikimedia Foundation . 2010 .

В любом эмпирическом исследовании по психологии используются психологические тесты . Часто от студентов требуют указывать данные об их надежности и валидности.

Надежность психологических тестов

В обычной жизни надежность человека или какого-либо предмета означает уверенность в том, что на него можно положиться. Как же проверяют, что на психологический тест можно положиться?

Первый способ проверки надежности психологического теста - анализ устойчивости результатов теста. Действительно, если результаты использования теста на одной и той же выборке существенно не меняются при нескольких тестированиях, то это может служить критерием его надежности.

Повторное тестирование называется ретест. Его проводят с интервалом от недели до года. Затем анализируют корреляции нескольких замеров. Если корреляции между результатами ретестов не ниже 0,76, то такой тест считается надежным.

Недостатки ретестовой проверки надежности психологического теста.

1. Некоторые психологические показатели неустойчивы и изменчивы. Например, измеряя настроение, самочувствие в разное время дня или в разные дни, можно получить разные результаты, и это не будет следствием ненадежности теста.

2. При неоднократном заполнении одного и того же теста испытуемые к нему «привыкают». Они могут помнить свои ответы и отвечать так же. Могут, наоборот, менять ответы в сторону социальной желательности. Таким образом, ретестовая надежность не будет в полной мере отражать надежность теста.

Второй способ проверки надежности психологического теста - анализ согласованности различных частей теста. Например, в тесте один показатель, который диагностируется 10-ю вопросами. Согласованность данного теста определяется высокой корреляцией ответов на каждый вопрос с общим результатом по шкале.

Часто для определения согласованности психологического теста его расщепляют на две части. Можно это сделать, отбирая вопросы через один. Можно разделить первую и вторую половину теста. Далее анализируют корреляции ответов двух расщепленных частей теста. Чем выше корреляция, тем выше согласованность теста и его надежность.

Итак, надежность психологического теста - это характеристика его формальной пригодности для диагностики психологических показателей. Например, если тест диагностики тревожности надежен, то это значит, что при его использовании на разных выборках, в разное время вы будете получать схожие результаты. Но будут ли эти результаты характеризовать именно тревожность испытуемых? Надежность психологического теста этого не гарантирует. За это отвечает другой показатель - валидность психологического теста.

Валидность психологических тестов

Валидность психологических тестов отражает соответствие их результатов сущности измеряемых психологических феноменов. Например, насколько результат теста агрессивности отражает реальный уровень агрессивности респондента.

Можно выделить два основных способа определения валидности психологических тестов.

Первый способ выявления валидности психологического теста предполагает соотнесение результатов теста с аналогичными показателями других тестов. Например, для проверки валидности теста на самооценку можно сделать следующее:

  • провести тестирование испытуемых по новому тесту;
  • выявить самооценку испытуемых по другому тесту (предполагается, что он валиден);
  • рассчитать корреляцию показателей самооценки по двум психодиагностическим методикам;
  • статистически значимая корреляция даст основания говорить о валидности нового теста.

Такой способ позволяет выявить так называемую конструктную валидность. Она отражает соответствие выявляемого психологического показателя психологическому конструкту.

Второй способ выявления валидности психологического теста предполагает соотнесение результатов теста с внешними критериями. Такая валидность называется критериальная валидность психологического теста.

Например, показателем критериальной валидности теста склонности к отклоняющемуся поведению может быть реальное число правонарушений подростка. Применительно к тесту мотивации достижений показателем критериальной валидности может быть успешность выполнения той или иной деятельности.

Соотношение надежности и валидности психологических тестов

Надежность теста отражает его качество как метода диагностики, с точки зрения формальных показателей. Без учета содержательного анализа результатов.

Валидность оценивает именно содержательные результаты теста. Насколько они соответствуют реальным психологическим феноменам.

Надежный тест может не быть валидным. Например, тест инициативности может показывать высокую ретестовую надежность и согласованность частей. Однако, с содержательной точки зрения, результаты теста отражают не столько инициативность, сколько силу воли. То есть, надежность данного теста высокая, а валидность низкая.

В практике психологического тестирования надежность тестов с помощью ретеста. Валидность психологических тестов, как правило, проверяется с помощью анализа взаимосвязей с показателями других тестов, измеряющих аналогичные или схожие психологические показатели.

Примеры заключений о надежности и валидности психологически тестов

Тест смысложизненных ориентаций (СЖО)

Надежность СЖО

Надежность теста СЖО проверялась с помощью ретестирования с интервалом в 2 недели (испытуемые — 76 студентов МГУ). Результаты по тесту оказались устойчивы на уровне значимости 5% (р<0,05).

Валидность СЖО

Автором теста СЖО, Д.А. Леотьевым, была проведена проверка конструктной валидности СЖО. Для этого была сформирована выборка, включавшая студентов московских ВУЗов общей численностью 24 человека (мужчин и женщин).

Было проведено тестирование испытуемых по тестам: СЖО, УСК (уровень субъективного контроля) и САТ (тест на уровень самоакутализации). Далее был проведен корреляционный анализ показателей СЖО с показателями тестов УСК и САТ.

Все шесть показателей теста СЖО значимо положительно коррелируют с общей интернальностью и с интернальностью в области достижений, а также (кроме третьей субшкалы) — с интернальностью в области семейных отношений. Отмечены также значимые корреляции пятой субшкалы СЖО с интернальностью в производственной сфере и по отношению к здоровью-болезни.

Показатели теста СЖО положительно значимо коррелируют со следующими шкалами теста САТ: шкалой опоры и познавательных потребностей — все шесть показателей; шкалами компетентности во времени, самоуважения и представления о природе человека — все, кроме первой субшкалы; шкалой ценностных ориентации — все, кроме общего показателя, и шкалой спонтанности — третья, четвертая и пятая субшкалы. С остальными шкалами CAT значимых корреляций обнаружено не было.

Достаточно высокий уровень взаимосвязи показателей теста смысложизненных ориентаций (СЖО) с показателями интернальности (тест УСК) и показателями самоакутализации (тест САТ) позволяет говорить о конструктной валидности теста СЖО.

Леонтьев Д.А. Тест смысложизненных ориентаций (СЖО). 2-е изд. М.: Смысл, 2000, 18 с.

Методика Ш. Шварца для изучения ценностей личности была адаптирована в России В.Н. Карандашевым.

Тем фактом, что в основе данной психодиагностической методики лежит четкая и теоретически обоснованная концепция ее автора, содержащая операционализированные характеристики ценностей;

Тем, что что при разработке оригинальной версии опросника использовались данные исследований по 54 странам.

Карандашев В.Н. Методика Шварца для изучения ценностей личности: концепция и методическое руководство. - СПб.: Речь, 2004-70 с.

Методика «Уровень соотношения Ценности и Доступности в различных жизненных сферах» (УСЦД) (Е.Б.Фанталова)

В методике Е.Б. Фанталовой «Уровень соотношения Ценности и Доступности в различных жизненных сферах» используется список из 12 ценностей, взятых из списка терминальных ценностей методики М. Рокича .

Таким образом, надежность и валидность методики Е.Б. Фанталовой определяется надежностью и валидностью списка ценностей М. Рокича.

Надежность теста ценностных ориентаций М.Рокича проверялась автором через устойчивость ценностной структуры к ретестированию через временные интервалы от 3 недель до 14-16 месяцев на выборках студентов колледжей. Для отдельных ценностей при ретестировании с интервалом 3-7 недель показатель устойчивости варьируется от 0,51 до 0,88 (терминальные ценности) и от 0,45 до 0,70 (инструментальные ценности). Для русскоязычного варианта методики при ретестировании с интервалом в 2 недели были получены средние показатели надежности 0,82 (для терминальных ценностей) и 0,79 (для инструментальных).

О валидности методики ценностных ориентаций М. Рокича (а, следовательно, и методики Е.Б. Фанталовой) косвенно свидетельствуют результаты, полученные при обследовании различных социальных групп. Различия в оценках одних и тех же ценностей мужчинами и женщинами достигают статистически значимых пределов для 12 из 18 терминальных ценностей и для 8 инструментальных.

Леонтьев, Д.А. Методика изучения ценностных ориентации. - М.: Смысл, 1992. - 17 с.

Фанталова Е.Б. Об одном методическом подходе к исследованию мотивации и внутренних конфликтов // Психологический журнал, т. 13, 1992, N 1. С. 107-117.

Методика «Свободный выбор ценностей» Фанталовой Е.Б.

Методика «Свободный выбор ценностей» является составной частью ценностно-ориентированной системы автора «Диагностика внутреннего конфликта» (ДВК).

В данной методике Е.Б. Фанталова расширила список ценностей от 12 до 72. При этом надежность данной ценностной структуры и ее валидность автором не проверялась.

Фанталова Е.Б. Диагностика и психотерапия внутреннего конфликта. Самара, 2001.

Надеюсь, эта статья поможет вам написать работу по психологии самостоятельно. Если понадобится помощь, обращайтесь (все виды работ по психологии; статистические расчеты).

Надежность теста один из критериев качества теста, относящийся к точности психологических измерений. Чем больше Надежность теста, тем относительно свободнее он от погрешностей измерения. Надежность теста рассматривается при одном подходе: как стабильность результатов при повторном тестировании; при другом, как проявление степени эквивалентности двух одинаковых по форме и цели (параллельных) тестов.

Надежность характеризует тесты свойств, но не состояний. Свойства:

  • 1. Воспроизводимость результатов исследования.
  • 2. Точность измерения.
  • 3. Устойчивость результатов.

Степень надёжности методик зависит от многих причин. Среди негативных факторов наиболее часто называются следующие:

  • 1. нестабильность диагностируемого свойства;
  • 2. несовершенство диагностических методик (небрежно составлена инструкция, задания по своему характеру разнородны, нечётко сформулированы указания по предъявлению методики испытуемым и т.д.);
  • 3. меняющаяся ситуация обследования (разное время дня, когда проводятся эксперименты, разная освещённость помещения, наличие или отсутствие посторонних шумов и т.д.);
  • 4. различия в манере поведения экспериментатора (от опыта к опыту по-разному предъявляет инструкции, по-разному стимулирует выполнение заданий и т.д.);
  • 5. колебания в функциональном состоянии испытуемого (в одном эксперименте отмечается хорошее самочувствие, в другом - утомление и т.д.);
  • 6. элементы субъективности в способах оценки и интерпретации результатов (когда ведётся протоколирование ответов испытуемых, оценивают ответы по степени полноты, оригинальности и т.д.).

К.М. Гуревич толкует надёжность как:

  • 1. Надёжность самого измерительного инструмента (коэффициент надежности);
  • 2. Стабильность изучаемого признака (коэффициент стабильности);
  • 3. Константность, т.е. относительную независимость результатов от Личности экспериментатора (коэффициент константности).

Показатель, характеризующий измерительный инструмент, предлагается называть коэффициентом надёжности; показатель, характеризующий стабильность измеряемого свойства, - коэффициентом стабильности; а показатель оценки влияния Личности экспериментатора - коэффициентом константности. Именно в таком порядке рекомендуется осуществлять проверку методики: целесообразно сначала проверить инструмент измерения. Если полученные данные удовлетворительны, то можно переходить к установлению меры стабильности измеряемого свойства, а уже после этого при необходимости заняться критерием константности. (Надёжность: ретестовая, параллельных форм, частей тела, по внутренней согласованности, факторно-дисперсионная).

О высокой надежности метода говорят в том случае, когда метод точно измеряет то свойство, для измерения которого он предназначен. В качестве критериев точности можно отметить следующие:

При повторном применении метода к тем же самым испытуемым в одних и тех же условиях через определенный интервал времени результаты обоих тестирований существенно не различаются между собой.

Действия случайных посторонних факторов не оказывают существенного влияния на результаты тестирования. В качестве посторонних факторов можно назвать следующие: эмоциональное состояние и утомление, если они не входят в круг исследуемых характеристик, температура, освещенность помещения и др. Такие посторонние случайные факторы еще называют факторами нестабильности измерительной процедуры.

При повторном применении метода к тем же самым испытуемым через определенный интервал времени в измененных условиях результаты обоих тестирований существенно не различаются между собой. Под измененными имеется в виду следующие условия: другой экспериментатор, состояние респондента и др.

Существуют различные методы оценки надежности:

Ретестовый метод - повторное тестирование выборки испытуемых одним и тем же тестом через определенный интервал времени при одних и тех же условиях. Временной интервал зависит от возраста (например, у маленьких детей изменения могут произойти в течение одного месяца), а также событий, происходящих с испытуемым в жизни.

ТЕСТИНТЕРВАЛРЕТЕСТ

За индекс надежности принимается коэффициент корреляции между результатами двух тестирований. Полученная высокая корреляция может быть результатом тренированности испытуемого на заданиях подобного типа; низкая корреляция может быть результатом происшедших изменений с испытуемым, а также может свидетельствовать о ненадежности теста.

Надежность взаимозаменяемых форм - повторное тестирование выборки испытуемых параллельной формой теста через минимальный интервал времени при одних и тех же условиях.

ТЕСТ АИНТЕРВАЛТЕСТ А"

За индекс надежности принимается коэффициент корреляции между результатами тестирования двумя параллельными формами теста. Высокий коэффициент корреляции и большой интервал между двумя испытаниями свидетельствуют о высокой надежности теста.

Возможный обман со стороны испытуемого, его искушенность, события, происшедшие в интервале между тестированиями, не оказывают особого влияния (как в ретестовом методе) на степень надежности теста. Если фактор тренировки снижен при тестировании параллельными формами, то эффект переноса принципа заданий часто имеет место. Эффект переноса следует учитывать при построении параллельных форм.

Требования к построению параллельных форм:

  • 1. Параллельные формы должны быть независимо построенными тестами, но отвечать одним и тем же требованиям;
  • 2. должны содержать одинаковое количество заданий со сходной степенью трудности;
  • 3. эквивалентность параллельных форм необходимо проверять ретестовым методом.

Определение константности, т.е. относительная независимость результатов от Личности экспериментатора. Так как методика разрабатывается для дальнейшего использования ее другими психодиагностами, необходимо определить в какой мере ее результаты поддаются влиянию личности экспериментатора. Коэффициент константности определяется путем корреляции результатов двух опытов, проводимых на одной и той же выборке, но разными экспериментаторами. Коэффициент корреляции не должен быть ниже 0,80.

Превращение психодиагностических процедур и техник в надежный инструмент науки и практики зависит от усилий многих специалистов по психометрической отладке, конструированию тестов, удовлетворяющих основным психометрическим требовованиям: надежности, валидности, стандартизации. Основные принципы проверки и определения надежности, конструирования и валидизации психодиагностических методик освещены в ряде специальных работ по психодиагностике (А. Анастази, А. Бодалси, В. Столин, А. Шмелев, К. Гуревич, В. Мельников и др.). В данном учебном пособии мы опишем базовые понятия и принципы проведения психодиагностического обследования, знание которые является непременным условием профессиональной квалификации практического психолога.

Психодиагностика как научная дисциплина включает три области психологического знания:

предметную область психологии, изучающую данные психические явления;

психометрику – науку об измерении индивидуальных различий и диагностируемых переменных;

практическое использование психологического знания в целях адекватного психологического воздействия и оказания помощи людям в решении их проблем.

Методологической основой психодиагностики выступает психометрика. Именно эта наука разрабатывает технологию создании конкретных психодиагностических методик и определяет методологию обеспечения научных требований к ним:

надежности – внутренней согласованности частей теста и воспроизводимости результатов при повторном тестировании;

валидности – отражения в результатах теста именно того свойства, для диагностики которого он предназначен;

достоверности – защищенности теста от влияния на результаты стремления испытуемого изменить их в желательную сторону;

репрезентативности – наличия норм результатов массового обследования в популяции, на которую рассчитан тест, позволяющих оценить степень отклонения от средних значений любого индивидуального показателя.

Эти психометрические требования относятся к разным группам тестов, при этом в наибольшей степени – к объективным тестам и личностным опросникам, в наименьшей – к проективным техникам.

Оъективная оценка психологических методик и тестов означает определение их надежности. В психометрии термин «надежность» всегда означает согласованность показателей, полученных у тех же самых испытуемых.

Насколько пригоден данный тест? Действительно ли он выполняет свои функции? Эти вопросы могут вызывать и иногда вызывают длительные бесплодные дискуссии. Предубеждения, субъективные выводы, личные пристрастия приводят, как считает А. Анастази, с одной стороны, к переоценке возможностей конкретного теста, а с другой – к упорному его неприятию. Единственный способ ответить на подобные вопросы – эмпирическая проверка. Объективная оценка психологических тестов прежде всего означает определение их надежности и валидности в конкретных ситуациях.



Надежность теста есть согласованность показателей, полученных у тех же самых испытуемых при повторном тестировании тем же самым тестом или эквивалентной его формой.

Если у ребенка IQ в понедельник равен 110, а в пятницу – 80, то очевидно, что к такому показателю вряд ли можно отнестись с доверием. Аналогично, если индивид в ряду из 50 слов правильно определил 40, а в другом считающемся эквивалентным ряду – 20, то ни один из этих показателей не может рассматривается в качестве меры его вербального понимания. Разумеется, в обоих примерах возможно, что ошибочным является только один из двух показателей, но это может подтвердить лишь последующее тестирование; из приведенных данных следует только то, что вместе показатели не могут быть правильными.

Прежде чем психологический тест станет общим достоянием, необходимо провести тщательную объективную проверку его надежности. Надежность может проверяться относительно временных изменений, выбора конкретных заданий или тестовой выборки индивидуальности экспериментатора или специалиста по обработке тестовых показателей и других аспектов тестирования. Очень важно точно указать тип надежности и способ ее определения, поскольку один и тот же тест может изменяться в различных аспектах. Желательно также иметь сведения о численности и особенностями индивидов, на которых проверялась надежность теста.

Такая информация позволит пользующемуся тестом решить, насколько надежен этот тест для той группы, к которой он собирается его применить.

Наиболее полное объяснение надежности тестовых методик дает А. Анастази. Под надежностью понимается согласованность результатов теста, получаемых при повторном его применении к тем же испытуемым в различные моменты времени, с использованием разных наборов эквивалентных заданий или при изменении других условий обследования. На надежности основывается вычисление ошибки измерения, которая служит для указания вероятных пределов колебаний измеряемой величины, возникающих под действием посторонних случайных факторов. В самом широком смысле надежность показывает, в какой степени индивидуальные различия в тестовых результатах оказываются «истинными», а в какой могут быть приписаны случайным ошибкам. Если перевести это на язык специальных терминов, то измерение надежности теста позволяет оценить величину общей дисперсии тестовых показателей, являющуюся дисперсией ошибки. Вопрос, однако, состоит в том, что считать дисперсией ошибки. Одни и те же факторы, которые применительно к одним задачам являются посторонними, при решении других проблем уже считаются источниками «истинных» различий. Например, если нас интересуют колебания настроения, то происходящие день ото дня изменения в результатах теста эмоционального состояния могли относиться к цели тестирования и, следовательно, к истинной дисперсии результатов. Но если тест предназначен для измерения более стабильных характеристик личности, то те же ежедневные колебания можно отнести к дисперсии ошибки.

Существенно то, что любые изменения условий, в которых проводится тест, если они не имеют отношения к его цели, увеличивают дисперсию ошибки. Поэтому, придерживаясь единых условий тестирования (контролируя общую обстановку, временные ограничения, инструктирование испытуемого, контакт с ним и другие аналогичные факторы), экспериментатор уменьшает дисперсию ошибки и повышает надежность теста. Но и в оптимальных условия ни один тест не является абсолютно надежным инструментом. По этому стандартный набор данных о тесте должен включать в себя и меру надежности. Такая мера характеризует тест, когда он применяется в стандартных условиях и проводится с испытуемыми, похожими на тех, кто участвовал в нормативной выборке. Следовательно, необходимо также приводить сведения об этой выборке.

К. М. Гуревич определяет надежность как «крайне сложное и многоплановое понятие, одна из основных функций которого – оценить постоянство показателей тестовых испытаний» [Гуревич, 1981].

В принципе можно сказать, что надежность должна обосновывать ошибку измерения – она должна показывать, какая часть изменчивости показателей ошибочна. Известно несколько основных факторов, определяющих уровень надежности. Так, надежность всегда будет иметь тенденцию к увеличению, если соблюдается постоянство условий проведения процедуры тестирования, так как это снижает ошибку вариабельности измеряемого параметра. В то время многочисленность целей, сложность проблемы, изменчивость ситуаций, как правило, увеличивают ошибку измерения, уменьшая тем самым надежность.

Разновидностей надежности теста так же много, как и условий, влияющих на результаты теста, поэтому любые такие условия могут оказаться посторонними по отношению к цели, и тогда

обусловленная ими дисперсия должна войти в дисперсию ошибки. Однако практическое применение находит лишь несколько типов надежности. Поскольку все типы надежности отражают степень последовательности или согласованности двух независимо полученных серий показателей, то в качестве их меры может выступать коффециент корреляции. Более специальное обсуждение корреляции с подробным описанием вычислительных процедур приводится в учебниках по статистике для педагогов и психологов (В. Аванесов, А. Гусев, Ч. Измайлов, М. Михалевская и др.).

Hа практике используются три основных метода оценкинадежности тестов:

1) повторное тестирование;

2) параллельное тестирование;

3) метод расщепления.

Рассмотрим каждый из них в отдельности.

Повторное тестирование Является одним из основных методов измерения надежности. Повторное

тестирование выборки испытуемых проводится одним и тем же тестом через определенный интервал времени при одинаковых условиях. Повторное тестирование обычно называют ретестом, а надежность, измеренную таким способом, – ретестовой надежности. Схема оценки ретестовой надежности имеет вид:

В этом случае за индекс надежности принимается коэффициент корреляции между результатами двух тестирований.

Метод повторного тестирования обладает как достоинствами, так и недостатками. К числу достоинств относятся естественность и простота определения коэффициента надежности. К недостаткам следует отнести неопределенность в выборе интервала между двумя измерениями. Возникновение временной неопределенности связано с тем, что повторное тестирование отличается от первичного. Испытуемые уже знакомы с содержанием теста, помнят свои первоначальные ответы и ориентируются на них при повторном выполнении теста. Поэтому при повторном тестировании нередко наблюдается или «подгонка» под первоначальные результаты, или как следствие негативизма демонстрация «новых» результатов. Во избежание этого, приводя в руководстве к тесту его ретестовую надежность, следует указывать, какому интервалу времени она соответствует. В связи с тем что ретестовая надежность уменьшается с ростом временного интервала, наиболее доверительными являются высокие коэффициенты надежности, полученные при явно больших интервалах между тестированиями. Недостаточно высокие коэффициенты надежности могут быть следствием неоптимального определения временных интервалов.

Параллельное тестирование В этом случае многократность измерения организуется с помощью параллельных, или эквивалентных, тестов. Параллельными называются тесты, которые с одинаковой ошибкой измеряют одно и то же свойство психики. В этом случае одни и те же лица выполняют несколько вариантов одного и того же теста или эквивалентные тесты. Как правило, практическое использование данного типа надежности связано со значительными затруднениями, поскольку крайне сложно построить несколько вариантов одного теста таким образом, чтобы испытуемый не мог обнаружить их психологическую однородность. Да и искажающее влияние тренировки в этом случае не полностью снято. Кроме того, возникает вопрос: являются ли альтернативные типы надежности характеристиками именно надежности теста, а не параметрами эквивалентности испытаний? Ведь если две формы испытания проводятся при однотипных константных условиях, то, вероятнее всего, исследуются показатели эквивалентности двух форм тестирования, а не показатели надежности самих тестов. Ошибка измерения в этом случае определяется флюктуациями выполнения теста, а не флюктуациями структуры теста.

Схема использования параллельных тестов для измерения на дежности имеет вид:

Рассчитанный между двумя тестами коэффициент корреляции называется эквивалентной надежностью.

Метод расщепления Он является развитием метода параллельного тестирования и базируется на допущении о параллельности не только отдельных форм теста, но и отдельных заданий внутри одного теста. Это одна из наиболее простых проверок теста, когда вычисляется коэффициент корреляции между его половинами. Каким же образом поделить тест на две половины, чтобы иметь возможность выровнять обе половины по тому или иному конкретному основанию? Чаще всего задачи теста делят на чет-нечет, что позволяет в какой-то мере устранить возможные недостатки. Главное достоинство этого типа надежности состоит в независимости результатов тестирования от таких элементов деятельности, как врабатывание, тренировка, практика, утомление и т.д. При разделении теста на две части индекс надежности вычисляется по формуле Спирмена-Брауна, предложивших ее независимо друг от друга. Их статьи были опубликованы в одном и том же номере психологического журнала с выводами и формулами [Аванесов, 1982]. В их формуле

R (х, 0=2 RJ\ + R, у

где R – коэффициент корреляции двух половин теста. В качестве коэффициента индекса надежности рассматривается средний модуль коэффициента корреляции всех заданий теста или средний коэфициент детерминации.

Итак, мы рассмотрели три эмпирических метода оценки надежности тестов: повторное тестирование одним и тем же тестом, повторное тестирование параллельной формой теста и расщепление теста.

Какой из этих методов дает истинную оценку надежности теста? Каким из методов следует пользоваться? Ответ на этот вопрос зависит от личной симпатии и целей исследования.

При использовании метода повторного тестирования получаем оценку степени устойчивости результатов во времени и в зависимости от условий тестирования. Поэтому ретестовый коэффициент надежности называют также коэффициентом устойчивости или стабильности теста. При использовании метода параллельных форм и метода расщепления оценивается степень взаимной согласованности частей теста. Поэтому коэффициенты надежности, полученные этими двумя методами, интерпретируются как покачен и гомогенности, однородности тестов.

Помимо показателей устойчивости и гомогенности, Р. Б. Кэттелл считает необходимым рассматривать показатель переносимосmu (transferability). Он представляет собой оценку способности тес та сохранять точность измерения в разных выборках, субкультурах и популяциях. Совместно устойчивость, гомогенность и переносимость образуют комплексную характеристику надежности, которую Р. Б. Кэттелл называет постоянством (consistency) и определяет как «степень, в которой тест продолжает предсказывать то, что он однажды предсказал, несмотря на изменения (в определенных пределах): а) объема, в котором тест применялся; б) условий, в которых он применялся; в) состава выборки, в которой он применяется».

Наконец, существует тип надежности, непосредственно имеющий отношение к надежности лица, проводящего тестовое испытание. Оценка надежности лица, проводящего тест, получается с помощью независимого моделирования испытания двумя различными экспериментаторами.

Надежность результатов тестирования зависит не только от надежности самого теста и процедуры его проведения. Важным фактором, влияющим на результаты интерпретации данных, является специфика конкретной выборки. Наиболее существенными характеристиками выборки, с этой точки зрения, следует признать социально-психологическую однородность по разным параметрам; учитываются также возраст и пол.

Последовательность действий при проверке надежности А. Г. Шмелев предлагает провести следующим образом [Общая психодиагностика, 1987]:

1. Узнать, существуют ли данные о надежности теста, предлагаемого к использованию, на какой популяции и в какой диагностической ситуации проводилась проверка. Если проверки не было или признаки новой популяции и ситуаций явно специфичны, провести заново проверку надежности с учетом указанных ниже возможностей.

2. Если позволяют возможности, то произвести повторное тестирование на всей выборке стандартизации и подсчитать все коэффициенты, приведенные как для целого теста, так и для отдельных пунктов. Анализ полученных коэффициентов поможет понять, насколько пренебрежима ошибка измерения.

3. Если возможности ограничены, произвести повторное тестирование только на части выборки (не менее 30 испытуемых), подсчитать вручную ранговую корреляцию для оценки внутренней

согласованности (методом расщепления) и стабильности целого теста.

Безусловно, рассмотренные понятия психодиагностики – ее важнейшие атрибуты. Однако высокие показатели надежности сами по себе не определяют практическую ценность теста. Ведущий фактор, который позволяет измерить целевые результаты психологического тестирования, – валидность.