Часть 1. Валидность теста.

Источник для анализа: http://ru.vsetesti.com/do/?test=26&rep

Анализ проводился с 12 по 17 апреля 2009 г.

Аннотация

Пары терминов, используемые в тесте для выяснения способности респондента находить аналогии между отношениями, в большинстве своем составлены неудачно, вследствие чего тест следует признать концептуально невалидным. Анализ опирается на выборку из 99 человек, что позволило подтвердить выводы статистически. Высказаны предложения по модификации теста.

Содержание

  1. Описание.
  2. Шифры (эталоны, базовые отношения).
  3. Первые подозрения (состав пар).
  4. Обвиняемый (шифр В).
  5. Опрос свидетелей (анализ некоторых вопросов).
  6. Приговор (концептуальная валидность теста).
  7. Исправительные работы (модификация теста).

Дурак — это всякий инакомыслящий.

Флобер

1. Описание

Заявленная цель теста — выяснить, насколько адекватно респондент находит «сложные аналогии». Аналогии называются сложными потому, что предлагается установить аналогичность отношений между терминами, а не между самими терминами. Или: аналогии между отношениями, а не между свойствами. Для этого строится два набора отношений, каждое из которых выражается в виде пары слов (терминов):

  • шифры, содержащие «базовые» отношения (см. табл. 1 ниже);
  • вопросы, предъявляемые респонденту для сравнения с шифрами.

По тому, насколько точно респондент соотносит пары слов вопроса с шифром, оценивается, «насколько испытуемому доступно понимание сложных логических отношений и выделение абстрактных связей». Мерой служит число «правильных» отнесений — и только.

Цель данного исследования — установить, насколько предлагаемый тест концептуально валиден.

2. Шифры (эталоны, базовые отношения)

Основную роль в тесте, естественно, играют именно шифры, идентификация вопросов с которыми служит критерием умения респондента находить «сложные аналогии».

Автором предлагается 6 шифров (см. табл. 1).

Таблица 1. Шифры («базовые» логические отношения)

Шифр Интерпретация
Код 1-й термин 2-й термин название формулировка
А овца стадо часть — целое А есть часть В
Б машина ягода вид — род А входит в В
В море океан маленький — большой А меньше В
Г свет темнота антонимы А противоположно В
Д отравление смерть причина — следствие А влечет В
Е враг неприятель синонимы А тождественно В

Очевидны следующие требования к шифрам, невыполнение которых разрушает саму идею теста:

  • среди них не должно быть одинаковых;
  • они не должны допускать нескольких толкований.

Если эти условия не выполнены, результаты теста могут говорить лишь о наличии различий в интерпретации отношений, а вовсе не о способности респондента устанавливать «сложные аналогии». Отметим, что второе требование, вообще говоря, применимо и к предлагаемым парам слов. При его невыполнении для пар речь тоже может идти лишь о различной интерпретации, а вовсе не о тестируемой способности.

3. Первые подозрения (состав пар)

Все шифры, кроме В, интерпретируются вполне однозначно (особенно после их обсуждения). Обратимся к формулировке шифра В. Википедия дает такое определение: море — часть [мирового] океана. Поэтому В вызывает сомнения в своей интерпретации. Его можно понять как отношение:

  • маленький-большой для интенсивности, степени выраженности некоего качества;
  • часть-целое (т.е., как А).

Т.о., следует ожидать «расщепления» ответов, считающихся аналогичными В — часть из них (при акценте на однокачественности слов в паре) будет отнесена к Е, а при акценте на различие между ними часть — к А, Б или даже к Г.

Следует ожидать «расщепления» ответов и для пар слов, которые, по замыслу автора, относятся к А (часть-целое).

Обработанные результаты с сайта подтверждают данные предположения (см. табл. 2).

Таблица 2. Результаты теста (99 респондентов, по состоянию на 17:00 10 апреля 2009 г.)

Вопрос Частоты отнесения к шифру Ответы
1-й термин 2-й термин А Б В Г Д Е N Автор Выборка Число мод
7 бодрый вялый 0 1 0 96 0 2 99 Г Г 1
10 похвала брань 1 1 1 91 3 2 99 Г Г 1
15 покой движение 2 0 3 90 1 1 97 Г Г 1
12 десять число 4 89 1 0 3 2 99 Б Б 1
2 физика наука 7 81 8 3 0 0 99 Б Б 1
19 пение искусство 9 78 9 0 2 1 99 Б Б 1
1 испуг бегство 8 0 1 1 86 3 99 Д Д 1
11 месть поджог 0 3 2 1 89 3 98 Д Д 1
3 правильно верно 1 6 2 3 2 85 99 Е Е 1
5 пара два 11 7 8 2 2 69 99 Е Е 1
17 прохлада мороз 6 4 67 6 5 11 99 В В 1
14 глава роман 74 1 21 1 1 1 99 А А 2
4 грядка огород 64 8 26 0 0 0 98 А А 2
6 слово фраза 62 2 27 1 4 3 99 А А 2
9 город страна 62 2 33 1 1 0 99 В А 2
20 тумбочка шкаф 18 10 53 7 3 8 99 В В 2
8 свобода воля 3 5 22 1 7 60 98 Е Е 2
16 смелость геройство 2 5 31 4 11 45 98 Е Е 2
13 плакать реветь 1 4 27 1 6 59 98 Е Е 2
18 обман недоверие 1 0 5 1 68 23 98 Д Д 2
Число мод (>=17) 5 3 9 3 3 6 Бимодальных: 9

Пояснения.
Вопросы отсортированы по мере «определенности» ответов так, чтобы выделить сходные группы.
Среди частот фоном выделены моды в распределении ответов по данной паре слов:
— cветло-оранжевым с числом ответов, превышающим 1/2 от числа респондентов (~49 чел.);
— cветло-желтым с числом ответов, превышающим 1/6 от числа респондентов (~17 чел., это число выделяет «бимодальные» ответы);
— светло-бирюзовым — составившие не менее чем 1/10 от числа респондентов (~10 чел.).
В колонках правой части таблицы приведены:
— число ответивших на вопрос (N);
— шифр «правильного» ответа (Автор);
— шифр, получивший наибольшее число ответов по всем респондентам (Выборка);
— число мод в отнесении вопроса респондентами к шифру.

Рассмотрим все пары с «двойными» ответами, которые расположены в нижней части таблицы 2. Их 9 из 20, причем 8 из них содержат в качестве одной из мод В, и только пара 20 имеет его первой модой.

Особенно показателен вопрос № 9 (пара: город-страна). Для неё 62,6% респондентов не согласились с вариантом В, который «назначил» автор! И эта доля почти вдвое превосходит число согласившихся (33,3%).

Вопросы 14, 4, 6 и 9 первой модой имеют Е, а второй — В. При этом их средние значения отличаются более чем вдвое (65,5 и 26,8 для 1-й и 2-й мод соответственно). Соответствующие доли равны 66,3% и 27,1%, и различие по угловому критерию Фишера весьма значимо. Следовательно, отнесение этих пар к А или к В носит неслучайный характер и отражает различное понимание либо вопроса, либо шифра. Отметим, что по критерию хи-квадрат различие в распределениях частот по шифрам А и В незначимо (df=3, хи-квадрат=3,79, р=0,285).

Для вопросов 8, 13 и 16, образующих вторую подгруппу, средние доли 1-й и 2-й мод (55,8% и 27,2% соответственно) тоже значимо отличаются, а распределения частот — нет (df=2, хи-квадрат=3,605, р=0,165).

Вопрос 18 тоже «расщепился» надвое, в соотношении почти 3:1 (69,4%:23,5% для 1-й и 2-й мод.

Вывод: Распределение ответов явно указывает: интерпретации пар терминов респондентами и автором теста значимо различаются.

4. Обвиняемый (шифр В)

Отметим, что этот вывод опирается, в основном, на анализ тех 9 вопросов, которые дали «явно» бимодальные ответы. Про более «слабые» расхождения (они выделены бледно-бирюзовым фоном ячеек) мы пока и не говорим. Но именно шифр В обусловил такой вывод, т.к. на него приходится 8 из 9 (т.е., 88,9%) «двойных» ответов. Он отличается от остальных шифров следующими особенностями:

  • Респонденты на вопросах, которые могли бы быть отнесены к В, «вдруг» потеряли тестируемую способность.
  • Для этого шифра имеется единственное несовпадение: авторский вариант правильного ответа для пары «город-страна» не совпадает с мнением большинства респондентов. И они, похоже, правы: город – это все-таки не маленькая страна (хотя и есть Ватикан!).

Рассматривая выборку на сайте как часть генеральной совокупности, приходится сделать вывод: значительная часть людей (около трети!) не обладает «способностью устанавливать сложные аналогии». Этот вывод и, особенно, его обоснование мы оставим на совести автора теста.

Диагноз: шифр В явно отличается от остальных шифров.

Но попробуем понять логику самого автора. По-видимому, он имел в виду именно первую интерпретацию В, но отбросил вполне обоснованную 2-ю (см. определение моря как части океана).

Любопытно и разъяснение к тесту: «Обычно наибольшую трудность вызывает соотношение понятий «бережливость — скупость», «прохлада — мороз»». Но первая пара вообще отсутствует среди задаваемых, а вот вторая (вопрос № 17) как раз и не вызвала разногласий у респондентов – она даже не дает «бимодального» ответа. М.б., сам автор (изначальный!) в такой неразберихе и не виноват. Но, поскольку он неизвестен, то, судя по всему, тест прошел через многие руки по всяческим альманахам и сборникам. При этом кто-то, похоже, пытался что-то подправить или «творчески» переработать, обнаружив похожие ляпсусы в исходнике. Ну, получилось как всегда.

Вывод: шифр В вносит неустранимые искажения в измеряемый показатель, и его следует заменить.

5. Опрос свидетелей (анализ некоторых вопросов)

Как было сказано, наличие пар слов с семантически объяснимыми «двойными» ответами разрушает тест как таковой. Приведем примеры.

  • Известны фразы, состоящие только из одного слова (слово — это маленькая фраза).
  • Интерпретация вопроса № 2 м.б. двоякой: физика есть часть науки и/или физика есть вид науки. И кто сможет обосновать логически, какой вариант «правильный»? Аналогичный разбор можно провести и для вопросов 19 и 12. Вообще ответы на эту тройку сосредоточены на шифрах А, Б и В (опять В!).
  • Считать ли тумбочку частью (18 чел., 18,2%), видом (10 чел., 10,1%), противоположностью (8 чел., 8,1%) шкафа или просто маленьким (53 чел., 53,5%) шкафом — вопрос, конечно, интересный. Но понятно, что эти мнения вполне имеют право на существование. Это видно из приведенных чисел — многие респонденты так и думают. Ответы именно на этот вопрос наиболее «разбросаны» по всем шифрам.
  • Следующим столь же «разбросанным» вопросом является № 16: 11 человек (т.е., 1/9 часть) отнесли пару «смелость-геройство» к Д, полагая (и, м.б., вполне справедливо), что смелость влечет за собой геройство. Кто может сказать, что это «неправильно»? И хотя 11 человек не дали «бимодальности» (по нашим критериям), шифр Е тоже «попадает под подозрение».
  • Ещё 11 человек отнесли отношение «пара-два» к А, полагая, что слово «пара» в данном контексте обозначает супружескую пару (кстати, третья по «разбросанности», и опять Е…). Такой респондент явно имел в виду не то, что задумал автор. И на этом основании автор полагает, что этот человек «неадекватен» в части выявления «сложных аналогий»? Кстати, эта аналогия посложнее того, что задумал автор…
  • А вот вопрос № 18 «обман-недоверие»… У меня не вызывает сомнения, что автор имел в виду именно Д (обман ВЛЕЧЕТ недоверие). Но что имели в виду те 23 респондента (почти четверть!), выбравшие ответ Е? Обман и недоверие для них синонимы? Не знаю, что и думать. Явно нужен факторный анализ…

Итак, выясняется любопытная вещь — почти для каждого вопроса можно подобрать вполне разумную интерпретацию и тем обосновать его отнесение к различным шифрам! А если ещё и сам шифр допускает различное толкование — полная свобода творчества…

Т.о., ответы на вопросы данного теста зависят не только от «способности устанавливать сложные аналогии», но и от семантики терминов, примененных для формулировки как вопросов, так и шифров. Именно тут возможно существенное влияние некоторых факторов, и их исследование могло бы дать весьма любопытные результаты (а может и не дать… Кто знает!?).

6. Приговор (концептуальная валидность теста)

Из вышеизложенного можно сделать однозначный вывод: тест проверяет респондента на совпадение его видения мира с таковым у автора. При этом автор, похоже, полагает свое видение естественным, самоочевидным и потому общеобязательным. Респонденту остается только угадывать, что именно имел автор в виду, употребив конкретные термины и отношения между ними. А автор позволяет себе на основе числа «правильных», по его мнению, ответов делать вывод о способностях респондента. Врачу, исцелися сам!

Рассмотрим ещё один, возможно, неожиданный для автора, аспект. Как интерпретировать «неправильный», с т.зр. автора или кого бы то ни было — все равно, ответ? Как свидетельство «тупости» (см. эпиграф) или как проявление «креативного» мышления? На всяких семинарах людям внушают – будь нестандартен, это путь к успеху. Вот он и проявил свою нестандартность, а получил диагноз, что ему недоступно «понимание сложных логических отношений и выделение абстрактных связей»?

Не будем уж очень ругать автора. Как говорится: не стреляйте в пианиста — он играет как умеет. В конце концов, не нравится — не слушай! Однако тут дело не так просто. Ведь на основании такого и ему подобных тестов некоторые «психологи» осмеливаются делать выводы о человеке, «обосновывая» свою глупость «психологической наукой». Черт с ними, с выводами, если бы они не влекли иногда за собой административные последствия: отношение к ребенку как «неадекватному», к служащему (или кандидату на работу) — как «не обладающему достаточным уровнем логического мышления» и т.д.

Поскольку семантика терминов — дело «тонкое», она может значительно отличаться в возрастных, культурных и т.п. группах. К сожалению, у меня нет данных о возрасте и поле респондентов, но они д.б. у разработчиков сайта, поскольку эти данные запрашиваются при начале тестирования. Хоть эти два фактора и должны, по идее, сказываться на результатах, но насколько существенно — неизвестно без дополнительного исследования. А вот уровень образования, тип деятельности, … — сколько тут интересного можно было бы обнаружить (если бы разработчики интерактивного тестирования догадались задать соответствующие вопросы).

Выводы:

Тест в теперешнем виде невалиден.

Его применение в массовых опросах недопустимо.

Однако: идея теста вполне здравая, и при соответствующей переработке тест может вполне успешно использоваться, причем для многих целей.

7. Исправительные работы (модификация теста)

Очевидно, как минимум — шифр В следует переработать. Убрать его совсем — жалко, все-таки ещё одно базовое логическое отношение. Лучше заменить его формулировку так, чтобы она недвусмысленно выражала заложенное в него отношение. «Недвусмысленно» в данном контексте означает, что любая другая интерпретация выглядит искусственно и вычурно, при всей неопределенности этих терминов. Это позволит отделить «креативный» подход к ответам от «нормального».

Если автор предполагал маленький-большой, то выбрать следует нечто вроде холм-гора (ручей-река, бечевка-канат и т.п.). Однако тут есть опасность интерпретации этого отношения как антонимичного, при которой часть респондентов может «отделиться» и отнести некоторую пару слов уже к шифру Г. Следовательно, подбираемый шифр должен явно выражать отношение маленький-большой, но не настолько, чтобы это было «уж очень».

Можно интерпретировать это отношение и как часть-целое (А). Ведь можно полагать, что канат состоит из бечевок. Поэтому слова в паре шифра должны носить не «предметный», а «вещественный» характер, что затруднит их интерпретацию как часть-целое. Пара море-океан вполне подходила бы, если бы не было определения моря как части океана.

Проблема обусловлена тем, что мы пытаемся выразить количественное отношение, а оно невозможно без использования неких объектов. И тут встревает качественная определенность этих объектов, которая и «сбивает» на анализ именно этой качественной определенности. В частности, можно получить и ответ типа Е.

Все вышеуказанные для шифров требования, естественно, относятся и к парам слов, предлагаемых респонденту в качестве вопросов.

Задача конструирования нужного отношения сложна, но ведь и создание теста — дело непростое. Надо лазить по словарям и энциклопедиям, опрашивать специалистов, … Но это уже дело автора — решать такую задачу. И помнить о «презумпции виновности» ученого: именно ученый должен доказывать свою правоту, а не мы — его неправоту. Взялся за гуж…

Много ещё можно внести предложений по модификации теста и доведении его «до ума», но оставим же что-нибудь и автору.

P.S. Поскольку автор теста неизвестен, но, несомненно, существует (или существовал?), его упоминание относится к человеку, использующему тест. Это справедливо, т.к. обращаться больше не к кому.

Реклама

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход / Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход / Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход / Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход / Изменить )

Connecting to %s

%d такие блоггеры, как: