Часть 3. Семантическое пространство «сложных аналогий»


Пусть тахорги в страхе воют,
издавая визг и свист —
это вышел в подпростанство
структуральнейший лингвист.
АБС

Аннотация

Семантическое пространство теста ‘Сложные аналогии’ состоит из множеств, каждое из которых включает в себя пары и базовую пару.

Высказанное ранее предположение о «кольцеобразной» структуре этого пространства подтверждается методами многомерной статистики.

Показана «размытость» множества, соответствующего отношению ‘маленький-большой’ (В).

Продемонстрирована зависимость интерпретации получаемых результатов как от применяемой методики, так и от способа их представления.

Содержание

  1. Выборка
  2. Структура
  3. Сходство-различие=близость-расстояние
  4. Кластерный анализ
  5. Многомерное шкалирование: 2D-метрика
  6. Многомерное шкалирование: 3D-метрика
  7. Анализ соответствий: 2D-метрика
  8. Анализ соответствий: 3D-метрика
  9. Структуризация и интерпретация

1. Выборка и предварительный анализ

Предыдущий анализ, основанный на методах описательной статистики, показал:

  • различия в выборках несущественны;
  • основная причина невалидности теста — в неправильном выборе БП ‘море-океан’.

Поскольку различия в выборках несущественны, для увеличения репрезентативности был произведен новый «забор» данных (181 человек). Данные получены с сайта http://ru.vsetesti.com/do/?test=26&rep 22 мая 2009 г., в 11:25.

Таблица 1. Частоты ответов (выборка 3)
Freq_3_1

Обозначения прежние (см. часть 2, табл. 2). Новое расположение пар и БП призвано ещё более четко выделить структуру. Доли — в табл. 2.

Таблица 2. Доли ответов (выборка 3)
Parts_3

Беглый взгляд на первичные данные:

  • 9 пар из 20, как и раньше, бимодальны.
  • Только 6 пар из 20 «четко» определены (т.е., их доля превышает 83%).
  • Пара В-9 очень похожа на все пары А-*.
  • Наиболее «определенная» пара среди отнесенных к Е — это Е-3.
  • Две пары (Е-5 и Б-19) имеют по одной моде, но общая доля «неверных» ответов для них слишком высока.
  • Пара Е-16 — самая «расплывчатая»: в ней нет даже превышения медианы.

Чтобы оценить структуру, изобразим профили базовых пар (рис. 1) и пар-вопросов (рис. 2). Центральные кружки закрывают области «флуктуаций вакуума», где значения долей не превышают 5%.

ProfBasPairs_3_1a
Рис. 1. Профили базовых пар (БП)

Утолщения для А-В-Е обусловлены наличием в них второй моды (отмечено черной меткой на оси соседней БП).

ProfPairs_3_1
Рис. 2. Профили пар-вопросов (П)

Как видим, принципиально нового в этом представлении данных нет, только подчеркнута «кольцеобразность». Картинка как будто «съехала влево» (или приплюснута справа) — наблюдается явный «перевес» групп Г-Д-Б. Похоже, что после выявления основных особенностей данных достаточно легко найти адекватные им представления. А это облегчает их «интерпретацию».

Скорее всего, дело обстоит так:

    для любых данных имеется наиболее адекватный им способ представления, и задача аналитика — найти его.

Можно предположить, что при многомерном анализе должны получиться результаты, в которых:

  • 9-я пара (‘город-страна’) наиболее правильно интерпретируется как А (‘часть-целое’);
  • пары Г (‘антонимы’) наиболее «компактны»;
  • пары А-В-Е (‘часть-целое’-‘маленький-большой’-‘синонимы’) образовывают довольно плотный «конгломерат»;
  • пары Б (‘вид-род’) и Д (‘причина-следствие’) занимают промежуточное положение между этим «конгломератом» и парами Г.

Проверим наши предположения. Заодно сравним результаты, получаемые различными путями. Собственно говоря, именно это и есть основная цель работы, сам тест — только повод и материал.

2. Структура

Будем полагать, что структура — это система отношений между элементами. Элементами нижнего уровня данного теста являются БП (6 шт.) и пары (20 шт.), верхнего — 6 множеств, содержащих БП и отнесенные к ним пары (рис. 3). На промежуточном уровне находятся агрегированные пары. Каждая такая АП (их тоже 6) образована суммированием частот пар, отнесенных к данной БП.

Mnoj_1
Рис. 3. Структура теста

Отношения м.б. самыми разнообразными — порядок элементов (ранги), «близость» и «расстояние», связность и многое другое. Часть топологических отношений сформулирована в части 2. Попробуем их развить и ввести метрические отношения.

Даже имея на руках только частоты ответов (т.е., как относили респонденты пары к БП), мы уже многое сказали как о выборке, так и о самом тесте. Используем теперь методы многомерной статистики для выявления детальной структуры. Конечно, ничего другого, чего уже не содержалось бы в таблице частот, мы получить не можем в принципе. Речь идет о другом представлении тех же данных. Но именно это позволит, м.б., извлечь из них новую информацию, которая скрыто, имплицитно там содержится.

Теперь об ожидаемых «структурных» результатах. Тест основан на одном предположении: БП есть «представитель» соответствующего множества пар. Как любая гипотеза, оно требует проверки. Если оно справедливо, то:

    элементы, представляющие пары и БП, будут:

  • близки в получаемых пространствах;
  • образовывать одинаковые структуры.

Если не так — предположение неверно. Но по степени различия между элементами, отображающими БП и пары, можно судить о справедливости этого предположения в отношении конкретных множеств. И тем самым получить способы модификации теста в желаемом направлении.

Соответствующие расчеты производились в программе SPSS-13.

3. Сходство-различие=близость-расстояние

Элементы у нас представлены распределениями (их рядами частот): пары в строках, БП — в столбцах. Если два распределения совпадают, то сходство их полное, а различие отсутствует. Тогда естественно полагать, что близость между ними максимальна, а расстояние равно нулю. Так как значение хи-квадрат именно в этом случае равно нулю, оно представляется подходящей в данном случае мерой различия-расстояния.

Для устранения «эффекта масштаба» мерой расстояния следует выбрать нормированное на число случаев значение хи-квадрат. Эта величина — т.н. фи-квадрат:PhiSquare. В нашем случае сравнения двух распределений она совпадает с коэффицентом Крамера V.

Для близости тоже разумно выбрать нормированное значение, которое равно 1 при максимальном совпадении распределений (т.е., при хи-квадрат=фи-квадрат=0) и 0 — при при их полной противоположности. Такой величиной является Dig_PhiSquare. Естественно выбрать в качестве расстояния саму величину PhiSquare. Поскольку они связаны простым линейным соотношением (близость + расстояние = 1), то все выводы, основанные на этих мерах, полностью совпадают.

Показателем отличия элемента от всех остальных может служить сумма мер для него.

Тот факт, что значение фи-квадрат равно нулю и для двух пропорциональных распределений, говорит в его пользу как меры близости распределений. Действительно, если две выборки, значительно различаясь по размеру, мало различаются своими распределениями частот, то мы можем полагать, что они взяты из одной генеральной совокупности и в этом смысле одинаковы.

Конечно, введенная величина не есть расстояние в точном смысле этого слова — она не удовлетворяет правилу треугольника, по которому сумма длин двух сторон не м.б. меньше длины третьей стороны (в школе учили!). Но именно на мере хи-квадрат построены как анализ соответствий, так и многие другие методики анализа качественных переменных.
Выделение структуры на основании мер близости (или любом другом количественном основании) всегда будет носить произвольный характер, поскольку проведение границы в числовом поле всегда условно. Даже для одномерного случая числовые значения можно полагать относящимися к одной группе только в случае, когда между группами имееется «щель» — максимум из «младшей» группы и минимум из «старшей» отстоят друг от друга «достаточно далеко». Именно в этих словах и зарыта проблема. Очевидна условность этого критерия, и поэтому любая структура дискуссионна по самой своей природе. Что лучше — быть богатым и здоровым или бедным и больным? богатым и больным или бедным и здоровым? в какой мере богатым или больным?
Изучение таблицы частот (табл. 1) или долей (табл. 2) невольно формирует некие интуитивные представления о «близости» тех или иных её элементов. Их следует проверить прямыми расчетами. Для этого построим матрицы различий, используя обе «частотные» меры:
Таблица 5. Матрицы различий между БП

Показать таблицы


Цветовая маркировка основана на квартилях: светло-оранжевым выделены ячейки, значения в которых превышают Q3, желтым — медиану Q2, слоновой костью — Q1. Не закрашены ячейки с наименьшими расстояниями (<Q1), т.е., наиболее близкие друг к другу: А-В, В-Е, Е-Д и В-Б.
Значения в одной строке (или столбце, кому как удобнее — матрицы симметричны!) характеризуют расстояние от данной БП до всех остальных. И мы видим, что Г содержит наибольшее число «максиквартильных» значений, а В — «миниквартильных». Иными словами, Г наиболее удалено от остальных, т.е. максимально от них отличается, а В — наименее. Итак, тут интуиция не подвела. Причем мера фи-квадрат больше соответствует интуиции, что особенно хорошо видно на Е — несбалансированность теста по числу пар и порождает завышенные значения для Е при мере хи-квадрат.
Как уже говорилось, мерой удаленности-близости элемента пространства от остальных может служить среднее мер (или их сумма — все равно). Эти данные приведены в табл. 6.
Таблица 6. Средние различия для БП
DistBP_Comp
Как видим, В и Г — это действительно «крайности» в нашем пространстве, которые выделяются вне зависимости от используемой меры близости-различия. А и Б стабильно занимают 5 и 3 места, а вот Е и Д «обмениваются» рангами. Впрочем, различия между значениями столь близки, что эти ранги мало что говорят о сути дела. Разве что хорошо выделяют «крайности»…

Для наглядности это удобно представить в виде графика, справа от таблицы 6. Конечно, в данном случае, когда рангами обмениваются лишь два элемента, эта картинка мало что добавляет к пониманию. Но представьте себе не 6, а больше элементов, и обмен не между двумя, а куда большим числом. Правда, картинка такого рода имеет смысл лишь при небольшой доле обмена, иначе все будет «перечеркано».

DistBP_Scales
Рис. 4. Средние различия для БП (вариант)

На этом рисунке те же данные представлены в другом виде — как точки на соответствующих осях. Оси подогнаны так, чтобы крайние объекты расположились напротив друг друга. Цвета совпадают с табл. 6, чтобы облегчить сравнение.

На этом рисунке хорошо виден эффект масштаба выборки — точки Е наиболее сдвинуты. Отчетливо видно, как влияет выбор меры на интерпретацию результатов. Например, для фи-квадрат структура имеет вид В-АЕ-ДБ-Г, а для хи квадрат она другая: В-А-ЕБД-Г. Есть и общий вывод — в обоих случаях «крайними» и четко отделенными от остальных «середнячков» являются две базовые пары — Г (‘антонимы’) и В (‘маленький-большой’). Что хорошо подтверждает наши предположения.

С другой стороны, рисунок справа от табл. 6 более компактен и выделяет такой аспект данных, как вариабельность только двух рангов. Следовательно, выбором представления данных можно предопределить выводы. Поэтому в представлении данных работает принцип дополнительности:

    различные представления одних и тех же данных необходимы для получения «объемной» картины.

И чем больше различных представлений, тем, естественно, сложнее для исследователя придумать единую для них и непротиворечивую интерпретацию. Но уж это его проблемы — «твори, выдумывай, пробуй». В диалоге с аналитиком и коллегами-предметниками. А не изрекай «истины в последней интанции» и «гениальные озарения» на основании одного рисунка…

Но нам нужно всё-таки сравнивать эти меры и «попарно». Для этого перераспределим их в виде следующей таблицы:

Таблица 7. Таблица различий между БП
DistBP_Tabl

Здесь «треугольные» числа каждой из симметричной матриц выстроены «по порядку». Поскольку выбор исходной части — верхней или нижней — совершенно произволен, я выбрал верхнюю, числа которой выводились «по строкам».

Как видим, только в 4-х случаях из 15 значения попадают в различные квартили.

Справа приведены ранги, причем ранги для хи-квадрат, с целью облегчения сравнения, маркированы цветом фона: превышающие соответствующее значение ранга для фи-квадрат выделены светло-желтым, меньшие — светло-бирюзовым. 5 рангов (1/3) просто совпадают, для 4-х различие не превышает 1. Больше всего отличий связано с Е, что, м.б., обусловлено несбалансированностью теста.

Под рангами приведены коэффициенты корреляции между самими мерами (по Пирсону) и их рангами (по Спирмену), равные 0,966 и 0,836 соответственно. Ниже приведены их критические значения на уровне р=0,01. Как видим, обе меры дают весьма близкие значения, несмотря на все различия между ними.

Аналогичные матрицы были построены и для пар. Но ввиду их громоздкости — 20*20 для табл. 5 и 190 строк для табл. 7 — я их выводить не стал. Естественно агрегировать пары, чтобы снизить объем анализируемой информации. Но агрегирование возвращает нас к «проблеме 9-й пары»: рассматривать её как В-9 или всё же как А-9? Выведем только ту часть матрицы расстояний, которые относятся к парам А и В:

Таблица 8. Матрицы различий между парами А и В

Показать таблицы


Как же определить, к какой БП отнести 9-ю пару? Было уже много правдоподобных рассуждений, на основании которых надо рассматривать именно вариант А-9. Но желательно иметь числовой критерий, который (при всей его условности, как, впрочем, и любого критерия!) даст нам основание для такого выбора.

Целью нашей «разборки» является получение компактных множеств. Но для таких множеств среднее расстояние между его элементами мало. Естественно полагать, что множество с меньшим средним расстоянием между элементами более компактно.

Подсчитаем среднее расстояние между парами в двух вариантах — В-9 и А-9, причем для обеих мер.

Таблица 9. Выбор варианта: В-9 или А-9
DistAB_Var

Рост компактности для агрегированной пары В естественен — уменьшилось число элементов, причем ушел наиболее далекий. Поэтому уменьшение столь значительно. Но ведь и для АП-А тоже компактность возросла, хотя к ним добавилась не самая близкая пара 9. В итоге общий рост компактности невелик, но он есть!

Поэтому в данном случае нет проблемы — 9-я пара однозначно относится к АП-А. А вот если бы компактность АП-А уменьшилась? Тут мы влезли в проблему, которую приходится решать при любом алгоритме кластеризации — куда отнести некоторый элемент, каков критерий перехода к следующему шагу? Обычно выбирается тот вариант, при котором происходит самое малое уменьшение компактности (при соответствующем методе её вычисления).

Итак, в дальнейшем, где это имеет значение, мы будем относить 9-ю пару к БП-А.

Таблица 10. Таблица различий между АП
DistAP

Выведем результаты для АП (табл. 10). Числа есть средние значения мер в соответствующей подматрице. Эта таблица отличается от аналогичной таблицы 7 для БП тем, что в ней присутствуют диагональные элементы матриц, поскольку АП есть мн-ва с внутренней структурой.

Отметим, что различие в рангах наблюдается только для двух комбинаций АП — А-Д и Е-Г. При этом изменение ранга на 1 связано со столь мизерным различием в числовых значениях, что им можно просто пренебречь. Кстати, это показывает (в который раз!?), насколько сомнителен перевод числовых данных в ранговые. Коэффициент пирсоновской корреляции между мерами отличается от 1 меньше чем на 10-5, а по Спирмену корреляция между рангами равна 0,9987.

Впрочем, таких результатов и следовало ожидать — ведь пары куда более «похожи» друг на друга именно потому, что так подбирались при конструировании теста.

4. Кластерный анализ

Наши интуитивные представления о близости элементов, сформированные на основе табл. 1 и 2, можно легко подтвердить и чисто формально. Применим кластерный анализ, причем в качестве меры близости выберем фи-квадрат. Для базовых пар результат иерархической кластеризации методом средней связи показан на рис. 5.

ClustBPChiAver
Рис. 5. Иерархическая кластеризация БП

Дендрограмма подтверждает часть наших предположений — А и В действительно очень близки, Г наиболее далека. Поскольку слияние в более крупные кластеры происходит уже во второй трети процесса, то может заключить, что БП как столбцы таблиц 1 и 2 весьма четко различаются (кроме А и В, конечно).

Для пар (строк) дендрограмма представлена на рис. 6.

ClustQuestChiAver
Рис. 6. Иерархическая кластеризация пар

Пара 9 почти сразу объединяется с А-6, даже раньше, чем В-20 и В-17, к которым её отнес автор. В общем, сомнений в принадлежности пары ‘город-страна’ уже нет.

Отметим некоторые намеки на наличие внутренней структуры в группе пар Е — две подгруппы сливаются довольно поздно. Особняком стоит и Д-18. Но, тем не менее, все пары благополучно и довольно быстро образуют ожидаемую структуру. При этом кластеры Е, А и В действительно ближе друг к другу, чем к остальным. Г опять стоит особняком.

Другие методы иерархической кластеризации (полной связи, Уодда и пр.) дают аналогичные результаты. Это свидетельствует о том, что полученная структура реально описывает отношения между множествами теста.

Проведем кластеризацию пар методом К-средних, задавая ожидаемое число кластеров равным 6. Её результат — «центры» кластеров для каждой БП и расстояния от каждой пары до соответствующего центра.

Как и следовало ожидать, пары объединяются в кластеры в соответствии с их принадлежностью. Центры кластеров — просто средние частоты агрегированных пар (табл. 11).

Таблица 11. Параметры пар и кластеры (метод К-средних)
ClustP_K_aver_Center

Отметим, что центроиды, получаемые методом 2-шаговой кластеризации, полностью совпадают этими центрами.

Таблица 12. Параметры пар и кластеры (метод К-средних)
ClustP_K_aver_Dist

Расстояния пар до центров приведены в табл. 12. Наибольший интерес тут представляют пары, наиболее близкие и далекие от центра. Их можно интерпретировать как «типичного» и «нехарактерного» представителя соответствующего мн-ва. Первые выделены красным шрифтом, вторые — синим.

Таблица 13. Средние размеры кластеров (метод К-средних)
ClustP_K_aver_Lav

Любопытно сравнить и «размеры» кластеров, которые естественно полагать равными средним расстояниям до их центров. Они приведены в табл. 13. Наиболее «компактны» кластеры 5 (Г) и 6 (Б), наименее — 3 (Е) и 4 (Д).

Таблица 14. Различия между агрегированными парами и расстояния между кластерами по методу К-средних
ClustP_K_aver_Comp

В табл. 14 сравниваются различия между агрегированными парами (см. табл. 10) и расстояния между кластерами, полученными по методу К-средних. Для удобства строки отсортированы по возрастанию меры фи-квадрат. Т.е., вверху находятся наиболее схожие АП, внизу — наиболее различные. В колонках R приведены соответствующие ранги (по убыванию). Различия в рангах, конечно, имеются, но диаграмма справа показывает, что они сводятся к перестановке рангов внутри небольших групп (не более 4-х объектов). При этом разность соседних мер весьма невелика. А наиболее близкие АП одинаковы в обоих методах.

Очень высоки коэффициенты корреляции между полученными характеристиками. Пирсоновский равен 0,975, спирменовский 0,954, и оба превосходят критические значения при р=0,01.

Отметим наглядность такой диаграммы (ср. с аналогичной в табл. 6). Именно получение и демонстрация возможностей различных представлений данных и является моей основной задачей в данной статье.

5. Многомерное шкалирование: 2D-метрика

Чтобы зрительно представить себе «взаимное расположение» элементов теста, попробуем получить их «координаты» в некоем пространстве. При этом, помня особенности человеческого восприятия, сначала ограничимся пространством двух измерений — обычной «школьной» плоскостью. А для демонстрации особенностей такого шкалирования затем обсудим и трехмерное 3D-представление.

В множество, как уже сказано, нами включаются БП и все соответствующие им пары. Для начала применим многомерное шкалирование (метод PROXSCAL) только для БП.

PS_6_PB
Рис. 7. 2D-пространство БП

Точки-образы получены на основании таблицы близостей между БП (6 столбцов). Произведен поворот осей полученного пространства так, чтобы ось Г-В стала параллельной «горизонтальной» оси х1. Кольцеобразная структура нашего пространства начинает получать числовое подтверждение, для чего достаточно сравнить рис. 3 и соответствующий рисунок 9 из части 2. Да и рис. 2 тоже неплох для сравнения.

Положение точек-образов задается их координатами в полученом пространстве неких измерений. Отметим, что смысл этих измерений как качественная определенность характеристики, изображаемой на этой оси, нам совершенно неизвестен. Его надо ввести, определить так, чтобы все эти операции приобрели хоть некоторый эвристический характер. Пока же ограничимся чисто формальным происхождением этих измерений.

PS_20_P
Рис. 8. 2D-пространство пар

На рис. 8 изображено двумерное пространство пар (строк), причем оси тоже повернуты так, чтобы выделить направление Г-В.

Получаемые точки явно образуют некоторые подмножества, которые соответствуют агрегированным парам. Очевидно, что они расположены примерно так же, как и БП на рис. 3. К сожалению, эти точки расположены в разных пространствах, и поэтому их совмещение невозможно!

Эти подмножества — кластеры, группы, сгущения, … — просто требуют от нас ввести некоторые количественные характеристики для их описания. Простейшие «геометрические» характеристики множества в некотором пространстве — координаты центра и размер.

В качестве центра выберем точку с координатами, равными средним значениям координат точек мн-ва. Это представление наиболее естественно, поскольку идет ещё от центра тяжести и поэтому «очевидно» для нас. Есть и другие варианты, но они уже куда меньше связаны с нашим «геометрическим чутьем». И так нам придется его сильно напрягать, поскольку пространство одной природы — семантические отношения между отношениями в парах терминов — мы пытаемся изобразить в пространстве геометрическом, имеющим совершенно другую природу.

Основная цель введения размера — сравнение множеств по компактности, плотности расположения их точек. Чем он меньше, тем компактнее расположены точки множества, т.е., тем выше его плотность. Наименьшее значение соответствует наиболее плотному множеству.

Размер мн-ва — назовем его диаметром — можно определить различными способами. Например, как среднее расстояний от точек мн-ва до его центра:
Диаметр геометрический

Таков геометрический, евклидов подход. Но можно вычислить диаметр как вариацию координат (корень квадратный из суммы дисперсий координат) точек множества по оси х1 и х2 (статистический подход):
LD_def

Обе меры инвариантны относительно поворота осей, т.е., при их повороте на любой угол значения мер остаются одними и теми же. Значит, они характеризуют именно взаимное расположение точек.

Приведем таблицу с данными о кластерах агрегированных пар. Обе меры для диаметра дают сходные результаты, при этом их ранги просто совпадают. На основании этих данных и были построены окружности на рис. 8. Самое «рыхлая» АП — это Д, самое компактное — Г.
PS_6_AP_Table

Таблица 11. Параметры подмножеств АП

Конечно, выбор столь простых параметров не позволяет учесть различие в форме получаемых кластеров. Например, точки АП-Д явно вытянуты вдоль одного направления, и одного параметра для описания его формы явно недостаточно. Более хорошим образом для них был бы эллипс (овал), форма которого задается уже двумя параметрами. Вполне возможно, что тогда АП-Д потеряла «первенство по рыхлости». Впрочем, это опять-таки зависело бы от выбранной меры. Например, если в качестве таковой выбрать площадь фигуры.

6. Многомерное шкалирование: 3D-метрика

Наиболее адекватным по размерности пространством было бы 6-мерное. Но, увы, оное нами непредставимо. В реальности можно было бы построить не более чем соответствующую 3D-модель «из спичек и пластилина». Максимум того, что мы можем делать в интернете — восстановить по двумерной картинке трехмерное расположение нескольких (3…7) объектов. И то с большим трудом для большинства — мало кто из психологов и прочих гуманитариев обладает соответствующей подготовкой, которую вбивали в инженеров, архитекторов и т.п. специалистов.

ProxScal-BP_0
Рис. 9. Полученное 3D-пространство БП

Крестики на координатных плоскостях отмечают основания перпендикуляров, опущенных из точек-образов на соответствующие плоскости. Т. Б находится «выше» всех остальных, Г — «правее», А — «ближе». Е находится на оси х1, Д — почти на оси х3 и т.д.

Внятной эту картинку можно назвать только потому, что мною уже все-таки был произведен поворот осей координат так, чтобы улучшить её восприятие. Про себя могу сказать — после того как столько возился с такими изображениями, я уже хорошо вижу взаимное расположение точек. Впрочем, без этого невозможно производить соответствующие повороты за разумное время — метод «научного тыка» в данном случае отнял бы уж слишком много времени.

Вот как выглядит наиболее приемлемый, с т.зр. восприятия, вид БП в 3-хмерном пространстве:

ProxScal_BP_Г_АВЕДБ
Рис. 10. «Повернутое» 3D-пространство АП

Оси полученных координат-измерений повернуты так, чтобы подчеркнуть тот факт, что в 3D-пространстве БП-Г находится в «оппозиции» к остальным. Как видим — мало что похоже на рис. 7.

Хотя, после первого шока, мы тут же начнем соображать, что после мысленного перемещения точки Г в конец оси х3 мы получим в плоскости х1-х3 «почти ту же картину» что и на рис. 6. Ну-ну… А как с подобной «интерпретацией» рис. 9?
Получается, что путем выбора соответствующих «точек зрения» на точки-образы можно обеспечить практически любую нужную интерпретацию. В качестве примера приведу 3 вида того же расположения точек-образов, что и на рис. 10.


Рис. 11. Варианты 3D-пространств БП
Точки Г, Б и Д на них расположены в плоскостях х1, х2 и х3 соответственно. Легко ли увидеть тут рис. 10? или 9? Предоставляю вам самим решить, какой вид «наиболее адекватен»… А ведь эта структура — отнюдь не самая сложная из имеющихся!

Чтобы не загромождать работу, не стану приводить прочих картинок, которые можно получить в больших количествах и которые, к сожалению, полностью подтверждают печальный вывод о степени «наглядности» получаемых результатов.

Получив координаты для пар, можно построить столь же разнообразные картинки. Однако, их вид уж совсем обескураживает — 20 точек в 3D-пространстве + по 20 проекций в каждой из 3-х координатных плоскостей… Да гори оно все синим пламенем!!! Впрочем, лучше один раз увидеть, чем сто раз услышать. Нате:

PS_B

Рис. 12. 3D-пространство пар

Как видим, нечто общее у картинок есть, и мы этого ожидали, но… Все равно зарождается подозрение — насколько это совпадение «естественно»? Можно ли совмещать эти пространства? Насколько существенны различия, не случайны ли они? И т.д., и т.п…

Приведем параметры агрегированных пар в 3D-варианте (исходные измерения). Отличия, как видим, незначительные.

Таблица 12. Параметры подмножеств АП (3D)
PS_6_AP_Table_3D

7. Анализ соответствий: 2D-метрика

Размещение в едином пространстве переменных как строк, так и столбцов выполняет анализ соответствий. Поскольку в множество нами включаются БП (столбцы) и все соответствующие им пары (строки), то именно анализ соответствий явялется наиболее адекватным методом. Выбрав стандартные параметры обработки, мы из таблицы сопряженности получим координаты (баллы, Score). На их основе построим пространство (рис. 14). Красные крестики — это образы пар, синие кружки — базовых пар, серые окружности имеют диаметр соответствующего мн-ва.

CorrespAn_3_All
Рис. 14. Множества элементов в 2D-пространстве

При построении графика произведен ещё и поворот осей так, чтобы линия Г-В была параллельна оси х1. Порядок обхода групп, начиная от Г по часовой стрелке, совпадает с введенным ранее (см. рис. 1, 7 и часть 2). Как говорится — мелочь, а приятно!

В отличие от многомерного шкалирования, получаемые точки образуют куда более компактные кластеры. Есть и некоторые совпадения — точки Д снова расположились почти линейно. Кстати, черный крестик между А и В — это 9-я пара. Она явно ближе к А, хотя и м.б. отнесена и к В.

Есть и отличия: все элементы, кроме Г, как по команде, выстроились в противоположной части пр-ва, причем почти точно вдоль оси х2. Получается, что мн-во Г создает некую «оппозицию», «поляризует» пространство. При этом происходит «смазывание» различий между остальными мн-вами — перед «командиром» все «одинаковы».

Начнем «интерпретировать». Мн-во Г у нас выделялось среди прочих своей «определенностью». Следующие по «определенности» — Б и Д — стоят по флангам. Т.о., можно полагать, что именно наиболее четко определенные БП и их пары будут образовывать «базис» двумерного пространства. У нас таких элементов три, поэтому и получаем почти равносторонний треугольник. Остальные, менее «определенные» элементы, располагаются между ними, «внутри».

Чтобы прояснить структуру отношений между ними, оставим для анализа все элементы, кроме группы Г, а затем уберем и Б. Полученные пространства изображены на рис. 15: слева без Г, справа — без Г и Б.

CorrespAn_3_2
Рис. 15. Подпространства групп элементов

Как мы видим, «построение» продолжает действовать. Ну прямо как у животных: уберешь альфу — её место займет бета, уберешь бету — вылезет гамма, и т.д. Выведем все элементы для этих 4-х групп (рис. 16).


Рис. 16. Группы А, В и Е в «оппозиции» к Д

Очень четко видно, что пара 9 (черный крестик) на самом деле таки-да есть А-9. Она даже ближе к точке БП-А, чем А-6!

В группе Е стоящая на отшибе пара 3 набрала наибольший процент ответов для БП Е. Если в представлении респондентов именно пара ‘правильно-верно’ является наиболее адекватным представителем множества синонимов, то ею следовало бы заменить в ранге БП теперешнюю базовую пару ‘враг-неприятель’. А эту — перевести в разряд вопросов. Впрочем, детали переделки теста обсудим позже.

Удалим Д и рассмотрим три «проблемные» группы А-В-Е сами по себе, без «начальственного ока силовиков»:

Группы А, В и Е
Рис. 17. Множества А, В и Е в двумерном пространстве

Точки пар тяготеют к двум прямым, соединяющим точки БП — АВ и ВЕ, а к прямой ЕА такого тяготения не наблюдается. Поэтому, скорее всего, для элементов этих групп наиболее адекватным действительно является одномерное пространство.

Похоже, что алгоритм анализа соответствий разводит точки элементов меньшего мн-ва (у нас — столбцов, их 3, а строк 11) как можно дальше, образуя из «сильнейших» почти правильный многоугольник. А уж к ним подстраиваются остальные.

Посмотрим, что нам даст анализ соответствий для одномерного пространства (рис. 13). Для всех трех множеств (А-В-Е) одномерное пространство есть просто то измерение на рис. 8, которое дает наибольшее удаление точек. В нашем случае это вертикаль. Поэтому одномерное пространство есть проекции на вертикаль точек из рис. 17. На рис. 18. она изображена слева (1: А-В-Е).

CorrespAn_3_3_1D
Рис. 18. Множества А, В и Е в одномерном пространстве

И, надо сказать, выглядит все просто прекрасно: мн-ва четко отделены друг от друга, точки БП А и Е сдвинуты к краям (и мы это, естественно, тут же можем «проинтерпретировать»!), и т.д., и т.п.

Рассмотрим «собственные» пространства этих множеств, взяв их попарно. Интуиция, которая одна только и пытается нам помочь, говорит, что получаемые одномерные пространства д.б. (по аналогии, конечно же!) похожи на проекции точек двумерного пространства на соответствующие прямые — АВ, ВЕ и АЕ. Первый же опыт нас обнадеживает — пр-во множеств А-В отлично укладывается в нашу схему! Интуиция торжествует. Ещё больше восторга вызывает А-Е. А вот В-Е ничего, кроме недоумения, не вызывает: пара Е-5 «зашкалила» за БП В, В-17 — за Е, Е-3 и В-20 оказались почти рядом.

Вывод довольно мрачный: структура точек, получаемая в пространстве малой размерности, очень сильно зависит от выбора элементов, подвергаемых анализу.

Иными словами говоря:

    получаемая структура, возможно, является чистым артефактом, отражающим метод её получения, а не реальные отношения между исходными элементами.

Получается, что надо строить множество структур, отследить среди них «достаточно устойчивые», а на их основе сформировать некий «внутренний образ» данных. Намного ли это лучше, чем просто таблица 2, которая является источником всех этих изысков?

Характеристики кластеров приведены в табл. 13. Для удобства сравнения диаметров показаны их ранги по убыванию. Жирный красный означает максимальное значение в строке (самое «рыхлое» мн-во), синий курсив — минимальное (самое компактное).

Таблица 13. Параметры множеств
Параметры множеств

Отметим — обе меры для диаметра выделили А как самое компактное мн-во. С остальными дело хуже — нет ни одного совпадения рангов. Да и с рангами по таблице 12 совпадений тоже как-то нет.

Приходится сделать вывод — совместный анализ БП и пар, осуществляемый при анализе соответствий, производит некое «перемешивание» БП и пар, которого явно нет при вычислении близостей раздельно по БП, парам и АП. Но именно такое перемешивание нам и нужно, поскольку мы и хотим рассматривать некоторую БП, отнесенные к ней пары (и соответствующую АП) как единое множество.

Таблица 14. Параметры множеств: Д vs А-В-Е
Параметры множеств: Д vs А-В-Е

Было предположено, что наиболее «определенное» мн-во элементов («начальник») подавляет внутренние различия в других мн-вах. В таблице 14 приведены параметры множеств для рис. 16. Ранги диаметров, полученные двумя способами, теперь совпадают, хотя их порядок и отличается от полученного в табл. 13. Причем мн-во Д наиболее рыхлое, но, тем не менее, именно оно стало «начальником» в данной ситуации. Следовательно, скоропалительные представления о «начальниках», навеянные ранее полученными результатами, оказались неверными.

Изменение диаметров множеств в зависимости от того, какие элементы выбраны для анализа, совершенно естественно. При уменьшении числа анализируемых элементов места для каждого из них становится больше, и следовало бы ожидать роста диаметров. Он и наблюдается, но не пропорционально для всех элементов! Напрашивается вывод, что получаемые координаты точек, изображающих элементы, во многом тоже есть артефакты.

То есть:

    формируемые у исследователя представления определяются как порядком предъявления результатов, так и их полнотой и разнообразием.

Впрочем, тоже мне новость…

8. Анализ соответствий: 3D-метрика

Рассмотрим 3D-пространства, получаемые при анализе соответствий. При этом, щадя чувства читателя, я буду приводить уже максмально «читабельные» варианты картинок (естественно, с моей т.зр.!). Как выглядят исходные пространства — не для слабонервных…
АнСоотв_3D_Pairs
Рис. 19. БП и пары в 3D-пространстве (анализ соответствий)

На рис. 19 изображены образы БП (синие ромбики, слева) и БП вместе с парами (красные крестики, справа) в общем пространстве. Вывод подписей точек и проекций точек на координатные плоскости облегчает интерпретацию, но настолько загромождает рисунок, что делает его совершенно нечитабельным. Но, поскольку в нашем случае пары группируются около своих БП, то некоторое представление о расположении получить все-таки можно. Вот насколько это конструктивно — об этом дальше.

«Опытный» глаз и тут заметит, что образы А, В, Е и Д выстраиваются вдоль некоторого направления. Вот и поле для «интерпретации». Вполне очевидно, что за счет поворота осей можно получить и такую картинку:
АнСоотв_3D_0
Рис. 20. «Подлый» вид рис. 19

Тут уж только самый недоверчивый человек не скажет, что группы А, В, Е и Д «очень близки». Особенно если он «знает», что с ростом числа измерений растет и качество отображения. А ведь тут аж 3 измерения! Кто вспомнит, даже если и знает, что это уж очень специально подобранный вид. А автор, естественно, не станет об этом специально говорить — ведь это «очевидно», и «все про это знают»!

Следовательно, можно лишь снова сделать давно известный вывод:

    адекватная интерпретация результатов невозможна без понимания способа их получения.

В общем, бойтесь данайцев, дары приносящих… Недаром психологи и другие предметники-гуманитарии так настророженно относятся к энтузиазму апологетов многомерной статистики — разобраться в их методах весьма сложно человеку с нетехническим образованием. Как надо обучать этих «несчастных предметников» — особый разговор, довольно трудный и, с моей т.зр., малопродуктивный.

9. Структуризация и интерпретация

Выводы можно разбить на две группы, которые относятся:

  • к тесту «Сложные аналогии» как таковому;
  • к применению методов визуального отображения результатов.

В первой группе выводы не отличаются новизной:

  • 9-я пара ‘город-страна’ таки да относится к отношению ‘часть-целое’ (А);
  • отношения ‘часть-целое’, ‘маленький-большой’ и ‘синонимы’ действительно близки друг к другу, причем отношение ‘маленький-большой’ занимает промежуточное положение между ‘часть-целое’ и ‘синонимы’;
  • отношение ‘антонимы’ наиболее четко идентифицируется респондентами;
  • гипотеза о том, что БП есть ‘представитель’ соответствующего мн-ва пар с ‘аналогичным’ отношением, в целом подтвердилась (хотя и не для всех множеств в одинаковой степени);
  • 6 рассматриваемых в тесте отношений действительно можно связать некоторым параметром близости так, что они образуют замкнутую (кольцевую) структуру в некоем пространстве.

В общем, ничего особо и принципиально нового все эти навороты нам не дали. Естественный вопрос — зачем все это было нужно? А чтобы получить обоснованное обсуждение весьма непростой проблемы — как наиболее доступно и адекватно представить полученные результаты?

Вкратце можно сказать следующее:

  • задавая тип и последовательность предъявления материала, можно на основе одних и тех же экспериментальных данных сформировать кардинально различающиеся представления о результатах исследования;
  • методы многомерной статистики (в данном случае, конечно) либо подтверждают выводы, получаемые и «простым» анализом частот, либо очень неоднозначно интерпретируются;
  • интерпретация 3D-пространств кардинально зависит от «точки зрения» на его образы;
  • «наглядное» представление коварно — оно провоцирует (на уровне инстинкта!) привычные представления о пространстве — расположение, близость и т.п., которые, вообще говоря, могут быть никак не связаны с исходными данными и являются обычно необоснованной экстраполяцией.

При анализе данных явно вырисовываются две ипостаси исследователя:

  • как ‘структуризатора’, создающего на основе имеющихся данных чисто формальные структуры, обладающие некоей целостностью и простотой;
  • как ‘интерпретатора’, наполняющего эти структуры смыслом и связывающего их с остальными смыслами данной предметной области.

И только их постоянное сотрудничество-борьба способна дать нечто новое в понимании предмета. Конечно, лучше всего было бы иметь их обоих «в одном флаконе»! Однако, эти взаимосвязанные области все же очень различаются функциональностью. Поэтому в них нужны разные способности, иногда противоречащие друг другу. Вот почему флакон чаще всего пуст…

Вывод тривиален — нужна команда как система, а не как конгломерат. В которой каждый понимает, что вне её он ничто и не «тянет одеяло на себя». Хотелось бы в такой поработать, да ещё над интересной задачей… Увы, бодливой корове бог рога не дает.

Реклама

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход / Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход / Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход / Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход / Изменить )

Connecting to %s

%d такие блоггеры, как: