Аннотация

Частоты ассоциаций и респондентов формируются по различным принципам, вследствие чего их совместный анализ имеет специфические особенности.

Содержание

  1. Ассоциации и их типы
  2. Частоты и их размерность
  3. В каких единицах измеряется хи-квадрат?
  4. Относительная частота: число ассоциаций на респондента
  5. Темы ассоциаций
  6. Относительная частота: доли
  7. Зависимость результатов от мощности ассоциаций

1. Ассоциации и их типы

Основа — результаты теста «16 ассоциаций«. Ассоциации данного теста можно рассматривать в различных аспектах. Можно выбрать ассоциации, выданные респондентами «по одному поводу» – одной из 16 букв теста или же «финальные». Тут каждый человек выдает только одну ассоциацию, и никаких проблем не возникает (точнее, они не осознаются).
Но куда интереснее для анализа рассмотреть ассоциации «на заданную тему». Заданность темы в том, что я выбираю из всего множеств ассоциаций только те, которые, на мой субъективный взгляд исследователя, относятся к одному и тому же множеству. Например, звери, фауна вообще, домашнее хозяйство, семья и многое, многое другое. Тем – огромное количество, и из одного и того же массива ассоциаций можно извлекать все новые и новые темы, обнаруживая более или менее интересные зависимости. Например, как темы ассоциаций (т.е., их частоты) зависят от факторов (в их классическом понимании) – пола, уровня образования и т.п.

2. Частоты и их размерность

Поэтому мы имеем дело с двумя выборками, и при анализе ассоциаций у нас имеется два ряда частот – респондентов и ассоциаций, которые они высказали. Поскольку каждый респондент при прохождении теста выдает 17 (на самом деле – 31) ассоциаций, число ассоциаций по некоторой теме может оказаться и больше, нежели число человек. Например, один и тот же человек в 16 буквенных ассоциациях упомянул несколько зверей.
Для примера возьмем некие данные:

Единицей измерения частоты является «случай». Но в данной ситуации это понятие имеет различный смысл: в одном случае частота есть число человек, в другом – ассоциаций. Поэтому их нельзя, например, складывать и вычитать – очень трудно понять смысл числа, которое получено как разность 20 человек и 15 ассоциаций. Формально число равно 5, но 5 единицам чего?
А ведь в определение критерия хи-квадрат входит именно разность частот!!! Поэтому нельзя и вычислять значение хи-квадрат по таблице, в которую входят оба вида таких частот. Например, для имеющейся таблицы 2×3 можно получить, чисто формально, значение хи-квадрат, равное 14,5. Но оно бессмысленно, и делать на его основе вывод о высокой значимости различий в распределениях частот людей и ассоциаций просто нелепо!

3. В каких единицах измеряется хи-квадрат?

Вспомним определение:

Сразу видим, что хи-квадрат имеет ту же размерность, что и частота. Получается, что хи-квадрат измеряется в неких «случаях». Но в одном варианте случай – это человек, в другом – его ассоциация, в третьем что-нибудь ещё.
Обычно этот аспект игнорируется, что, в общем-то, не вносит никаких проблем, если только частоты f измеряются в одних и тех же единицах. Но всё же наличие размерности, пусть даже такой «невещественной» как «случай», вносит какую-то неловкость. Однако, от неё можно просто избавиться, разделив хи-квадрат на некоторую величину с той же размерностью.
Давно замечено, что хи-квадрат растет с ростом общего числа случаев. Естественно, эта величина измеряется как раз в «нужных» единицах. Поэтому и возник коэффициент фи:

Строго говоря, именно для этой величины и надо было бы составлять все статистические таблицы.

4. Относительная частота: число ассоциаций на респондента

Если сложение и вычитание недопустимы для частот различной размерности, то их отношение вполне законно и может дать некий новый относительный показатель. Например, мы можем спросить – каково число ассоциаций, выданных одним человеком? И ввести вполне осмысленную величину:

Для наших данных получаем:

Полученные результаты легко интерпретируются: среди всех респондентов те из них, кто отнесен к уровню 2 фактора, выдают больше всех ассоциаций на человека, т.е., наиболее разнообразны в них. И наоборот, респонденты с 3-м уровнем фактора наиболее однообразны в своих ассоциациях, их ассоциативное поле относительно сужено. И т.д., и т.п.
Основной недостаток полученной величины – неизвестны критерии значимости получаемых отличий. Например, значимо ли отличие (на треть) отмеченных только что величин? Увы, не знаю. Если кто знает – убедительно прошу сообщить, где найти соответствующие формулы, таблицы, расчеты и их обоснование.

5. Темы ассоциаций

Сами ассоциации тоже можно разбить на некоторые группы-темы, что приводит нас к следующей таблице данных:

Зеленым фоном выделены ячейки с первичными данными. Это – обычные перекрестные частоты, т.е., число случаев, когда ассоциацию по теме i применил респондент, отнесенный нами к уровню фактора j. Например, в данном примере 125 человек, отнесенных к уровню «ф_3» фактора, выдали ассоциацию по «теме_2».
Строка ниже и столбец правее – обычные суммы по столбцам и по строкам, соответственно. Результирующие суммы называются маргинальными частотами. Справа внизу (розовый фон) – общее число ассоциаций. Не считая последней строки, это обычная таблица сопряженности, анализу которых посвящено много учебников и пособий.
Приведем число ассоциаций на одного респондента по каждой теме:

Числа в последней строке равны суммам по колонкам. Фоном выделены ячейки, в которых величина превосходит значение в колонке Всего справа. По ним можно судить, с какого уровня фактора поступают наиболее частые ассоциации по теме.
В правой части таблицы я вывел ещё один показатель – отношение а/р к а/р для всей темы. Естественно, что окрашенные ячейки слева соответствуют ячейкам справа, в которых значение превосходит 1. И тут мы можем выделить как наибольшее, так и наименьшее значения (1,35, красное и 0,61, синее).
Т.о., мы можем сказать, что число ассоциаций по теме 3 и уровне 1 фактора является относительно наибольшим. Казалось бы, что тут удивительного – ведь и соответствующая частота (85) более чем вдвое превосходит минимальную по строке (40). Однако, в теме 4 отношение частот равно 2 (т.е., меньше, чем в теме 3), но именно тут находится «рекордсмен»-минималист (0,61, синий шрифт).
Так в анализ частот ассоциаций вмешивается число респондентов на каждом уровне. И ведь в примере их доли практически одинаковы. В то время как при наличии существенной разницы в таких долях можно ожидать и куда более неожиданных результатов, которые интуитивно мало предсказуемы. Жаль только, что для оценки значимости получаемых различий, повторю, нет критериев.

6. Относительная частота: доли

Другим способом является использование долей, получаемых как отношение (частное) некоторой частоты к сумме частот, одним из слагаемых которой она является. Ясно, что сумма долей всегда равна 1. Получаемые доли являются безразмерными величинами по самому своему определению. А раз так, то мы имеем полное право сравнивать доли, получаемые для различных видов частот.
Теперь вопрос — значимы ли наблюдаемые отличия долей – становится осмысленным, и на него можно дать совершенно четкий ответ. С помощью углового критерия Фишера, например:

Напомню критические значения для углового критерия Фишера (укФ, для краткости): 1,64 для р=0,05, 2,31 для р=0,01 и 2,81 для р=0,001.
Здесь интерпретация чуть-чуть сложнее из-за разного смысла сравниваемых долей, но все же понятна: доля ассоциаций, выданных респондентами с уровнем фактора ф_2 (28%) значимо ниже (на уровне р=0,01) их доли в общем числе респондентов (33%).
Косвенно, данные значения могут служить для суждения о значимости различий для числа ассоциаций на респондента, но, увы, только косвенно.
Маргинальные частоты могут использоваться для вычисления долей, причем в качестве базы можно выбрать либо маргинальные частоты по столбцам (левая часть), либо по строкам (правая часть):

Зеленым фоном выделены суммы долей (конечно, равные 100%), служащие базой для получения долей. Синим фоном выделены ячейки с долями, которые составляют суммы по строке от общего числа ассоциаций. Эти числа показывают, каков вклад темы в общее число ассоциаций. Например, ассоциации по теме 2 (их 400) составляют 35% от их общего числа в 1155. Числа в той же строке показывают вклад по той же теме 2, но уже для соответствующего фактора. Например, для уровня ф_3 125 ассоциаций составляют уже 38% (от общего числа на этом уровне фактора в 325). Тот факт, что этот вклад выше среднего по теме (35%) отмечен голубым фоном. Аналогичные рассуждения и обозначения применимы и для правой части таблицы.
Мы можем спокойно применять все известные приемы анализа к полученным долям. Специфику вносит последняя строка, в которой приведены доли респондентов, отнесенных к каждому из уровней фактора. Эти доли мы можем сравнивать только с долями в правой части таблицы:

Вот тут-то и вылезает интересная подробность: хотя на уровне 1 фактора в целом различия незначимы, но именно по теме 3 доля ассоциаций (49%) весьма значимо превышает долю респондентов, отнесенных к этому уровню. Пусть тема 3 – это ассоциация козел, а уровень 1 фактора – подростки. Тогда мы уверенно заявляем, что именно козел наиболее любим подростками. А на 3-м уровне он наименее любим.
Интересно, что и в левой части таблицы, в которой распределение респондентов по уровням фактора вообще не участвует, эта же ячейка тоже «засветилась». Но только она одна! При этом значимость наблюдаемого отличия ниже, чем в правой части таблицы. И нет никаких возможностей оценить различия по фактору.
Выводы:

  • при анализе долей ассоциаций необходимо учитывать и распределение респондентов по уровням некоторого фактора;
  • учет распределения респондентов увеличивает шансы найти значимые отличия.

7. Зависимость результатов от мощности ассоциаций

Мощность темы – это просто общее число ассоциаций по этой теме. Очевидно, что пропорциональное увеличение или уменьшение всех первичных частот не изменит никаких долей. Но все критерии значимости ощутимо зависят от размера выборки (т.е., мощности темы). Например, простое уменьшение первичных частот вдвое уменьшит как число, так и значимость различий:

Уменьшение их в пять раз вообще делает все различия незначимыми. А увеличение вдвое приводит к росту как числа значимых отличий (до 9), так и их значимости.
Но что самое интересное – пропорциональное увеличение частот в 10 и даже в 20 раз (!) приводит к появлению лишь ещё одного значимого отличия. А это значит, что есть возможность оценить «асимптотическую устойчивость» обнаруживаемых различий.
Конечно, данные выводы годятся лишь для данного примера. При анализе реальных данных их надо «прокачивать» на устойчивость результатов, изменяя в некоторых пределах как число респондентов, так и число ассоциаций по каждой теме. Особенно это касается ассоциаций, поскольку отнесение конкретной ассоциации к теме весьма субъективно.
Например, ассоциация жук. Либо это просто насекомое, и тогда автоматом причисляется к фауне. Или же это слово используется как некоторое «определение» человека? Ясно, что какая-то часть должна пониматься в первом смысле, другая – во втором. Но какая именно – нам неизвестно. Это весьма интересно, поскольку причисление ассоциации к той или иной теме (категории) явно должно происходить с некоторым весом.
Можно сформулировать исследовательскую программу по нахождению таких «профилей» для ассоциаций, но её разработка – дело не одиночки, а крепкого коллектива. К счастью, проблема с респондентами не возникает – в Интернете много желающих.

Реклама

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход / Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход / Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход / Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход / Изменить )

Connecting to %s

%d такие блоггеры, как: