Анализ ассоциаций: «финальные» ассоциации

Аннотация

Проведен анализ «финальных» ассоциаций теста «16 ассоциаций».

Содержание

Наиболее частые ассоциации
Перекрестные частоты
«Оригинальность» ассоциаций
Частоты ассоциаций по полу
Закон Ципфа
Длина слова
Выводы

1. Наиболее частые ассоциации

Ограничиваясь только ассоциациями, встречающимися не менее 5 раз, получим таблицу наиболее частых ассоциаций. Их всего 23, применило их 273 респондента, что составляет 28% от их общего числа (977). В то же время эти же ассоциации составляют 46% от общего числа ассоциаций (593).
Надо отметить, что серьезно значимых отличий по полу не наблюдается. Имеется всего 4 значимых на уровне 0,05 по угловому критерию Фишера, но все они неустойчивы в том смысле, что одна из частот равна 1. Впрочем, более или менее надежным является значимое отличие по слову «счастье», которое более чем в два раза чаще употреблено женщинами.

Что касается фактора УровеньОбразования, то он меня «разочаровал» – значимых отличий не обнаружено. А те, что все-таки формально возникают, являются неустойчивыми.
Скрепя сердце, я провел расчеты и для ассоциаций, встречающихся 3 и более раза. Их число – 373, что составляет уже 38% от числа респондентов и 63% от числа ассоциаций. Но значимых различий и там не вылезло. Единственное, что может показаться интересным – расклад по полу таков: мужчины дали 56 ассоциаций, женщины 318 (28% и 41% от числа ассоциаций соответственно), что дает уже устойчивое и значимое по укФ на уровне 0,01 различие.
По фактору УровеньОбразования частоты распределились так: О_1 – 32 (30%), О_2 – 123 (40%), О_3 – 218 (39%). По критерию хи-квадрат нет различия между этими частотами и частотами, с которыми в выборке встречаются респонденты с соответствующими уровнями образования. Правда, есть значимое на уровне 0,05 отличие между долями 1-го и остальными уровнями.
Я укрупнил ассоциации в несколько групп – «гедонизм», «негатив» и «ценности» –, надеясь «вытащить» какие-либо существенные отличия. Увы, гендерных отличий нет. Но зато есть почти дотягивающее до уровня в 0,01 (и по хи-квадрат равное 0,07) отличие по уровню образования – у людей с высшим образованием реже возникают «негативные» ассоциации по сравнению с людьми, имеющими среднее спец-ное или незаконченное высшее (УровеньОбразования=2, т.е. О_2).

2. Перекрестные частоты

Таблица совместного распределения частот показывает, насколько часто встречаются ассоциации у мужчин и женщин. По «осям» оставлены только те числа ассоциаций, для которых частоты имеют ненулевое значение (это сделано для сокращения размера таблицы, в которой иначе было бы очень много пустых ячеек). Области ассоциаций у мужчин и женщин разделены красными линиями. Синяя линия отделяет ячейки с «достаточно большими» частотами (5 и более ассоциаций), которых всего-то 53.
Слева – частоты, с которыми встречаются те или иные сочетания ассоциаций. Например, число 5, стоящее на пересечении столбца М = 1 и строки Ж = 3 означает, что имеется 5 различных ассоциаций, каждая из которых упомянута мужчинами 1 раз, а женщинами — 3 раза. В правой части приведены соответствующие доли, причем желтым фоном выделены те, значения в которых превышают 1% от общего числа ассоциаций (593). Как видим, основная часть ассоциаций носит «оригинальный» характер, поскольку встречается весьма редко.
Основное для нас подразделение числа ассоциаций можно изобразить на диаграмме Венна:

На нижней процентной диаграмме хорошо видно, насколько невелика доля «финальных» ассоциаций, общих для мужчин и женщин: 53 / 593 = 9%.

3. «Оригинальность» ассоциаций

В данной выборке 977 респондента употребили 593 различных «финальных» ассоциаций:

Если рассматривать число различных ассоциаций на одного человека как меру «оригинальности», то для данной выборки она равна 593 / 977 = 0,607 = 61%. Эта величина может служить некоей опорой в попытках оценить и сравнить оригинальность ассоциаций для различных категорий. Тогда так понимаемая оригинальность куда выше у мужчин, причем по угловому критерию Фишера это различие весьма и весьма значимо (укФ = 8,63). Столь же значимо и различие частот по критерию хи-квадрат (р=0,001).
Но с этой точки зрения не менее интересным является число различных одноразовых ассоциаций. Мужчины применили их 124, а женщины – 352. При этом ни разу не встретилось хотя бы двух мужчин с одинаковыми ассоциациями среди тех, что не применяли женщины. А вот женщины употребили 416 ассоциаций, не встречавшихся у мужчин (колонка «0» в таблице), при этом 45 ассоциаций встретились у двух женщин, 10 у трех и т.д.
Относительная доля «одноразовых» ассоциаций показывает, что доля «оригинальных» ассоциаций у мужчин превышает соответствующую долю у женщин. Причем они различаются значимо, и весьма – укФ = 4,26, что значительно превышает критическое значение для уровня р = 0,001, равное 2,81:

Имеется всего 19 случаев, когда одна и та же «одноразовая» ассоциация одновременно встречается у мужчин и женщин, что составляет 3,2% от общего числа ассоциаций. Кстати, это больше трети (36%) от числа общих ассоциаций (помните, их всего-то 53).

4. Частоты ассоциаций по полу

Распределение частот ассоциаций в зависимости от пола позволяют выявить ещё один аспект гендерных различий. Здесь в столбцах М и Ж приведены частоты, которые можно видеть в последней строке (Всего) таблицы совместного распределения (М) или в столбце Всего (Ж). Только произведено укрупнение последних диапазонов (5 и более раз).
Различия между долями весьма значимы, но неуклонно снижаются по мере «обобществления» ассоциаций. Это хорошо заметно по снижению значений углового критерия Фишера (последний столбец). К сожалению, частоты для большей части «общих» ассоциаций просто равны нулю, так что укФ уже не работает. Гистограмма иллюстрирует таблицу, но и заставляет задать вопрос о том, почему же первая строка «ни разу» так выбивается из общей картины.
Строго говоря, надо иметь в виду все возможные ассоциации, которые теоретически включают в себя весь лексикон. Обозначим его мощность (число слов) через N. Тогда из него м.б. употреблено не более слов, чем число респондентов. Это соответствует максимальной оригинальности, равной 1 (по нашему определению). Конечно, часть ассоциаций будет повторяться. Например, у нас 977 респондента применили только 593 слова, что и дало оригинальность в 61%. Т.е., 384 = 977 – 593 респондентов не воспользовались своим «правом голоса» и были «неоригинальны». Впрочем, кто именно в группе респондентов, употребивших одно и то же слово, является «оригиналом», судить просто бессмысленно – ведь мы предполагаем их независимость друг от друга.

Из-за несбалансированности выборки по полу доли ассоциаций по респондентам уже другие. Здесь убывание как самих различий, так и их значимости носит уже почти лавинный характер. Но для 3-х и 4-хразовых ассоциаций различия между долями мужчин и женщин, употребивших эти ассоциации, становятся незначимыми.

5. Закон Ципфа

По закону Ципфа-Мандельброта (см., например: http://msk.treko.ru/show_dict_708) доля слов p_r, которые занимают ранг r по частоте встречаемости, убывает с ростом ранга по закону:
где k, b и g – некоторые константы. Любопытно проверить, насколько хорошо подчиняются полученные данные этому закону. А также вычислить константы этого закона для нашей выборки. Для этого были составлены таблицы частот и их рангов для числа ассоциаций, как в сумме, так и по отдельности для мужчин и женщин.
Параметры закона, по которым рассчитывались теоретические значения долей (колонки «Ципф»), получались, естественно, путем подгонки. В качестве критериев таковой выбирались сумма квадратов разностей (КвР) и сумма абсолютных разностей (АР) для двух массивов – реальных и теоретических частот.
Как видим, оба критерия приводят к близким результатам для значений параметров закона Ципфа. Да и визуально совпадение хорошее, что видно, например, на графике для суммы ассоциаций.
Любопытно, что все три параметра для мужчин и женщин весьма различаются. Параметр «масштаба» k отличается особенно сильно – примерно в 20 раз, в зависимости от того, по какому критерию подгонки он получен. Параметр «сдвига ранга» b отличается примерно в 2,4 раза, а показатель степени g – в полтора. Так что слова о различных цивилизациях могут оказаться не вполне шуткой — структуры речи мужчин и женщин действительно разнятся. Если полагать ответы на опросы человеческой речью…

6. Длина слова

Мне показалось интересным сравнить «болтливость» мужчин и женщин при высказывании ими ассоциаций. Тем более в «финальных», где ограничение одним словом как-то завуалировано.
Но что может служить мерой такой «болтливости»? Прежде всего, краткость – ассоциация м.б. односложная или же содержать два слова и более. Увы, сами ассоциации не дают значимых различий. Единственная общая двухсловная ассоциация «Новый год» дает слишком жалкую общность между мужчинами и женщинами, причем весьма неустойчивую: ±1 ассоциация все лишит значимости. Однако эту одну ассоциацию выдали 1 м и 2 ж, т.е., три человека!

Поэтому число «смешанных» респондентов (т.е., и мужчин, и женщин), употребляющих многосложные ассоциации, составляет значимо меньшую долю, чем для каждого пола.

Вторым критерием может служить «длина ассоциации» – число символов в ней. По последним данным (см., например: http://bokrcorpora.narod.ru/frqlist/frqlist.html), средняя длина слова в русском языке равна 5,28 символов. Конечно, сюда включаются служебные и т.п. слова, которые вряд ли будут использованы в качестве ассоциаций. Поэтому естественно ожидать увеличения средней длины ассоциации.
Для анализа я рассмотрел следующие выборки, выделяя их из общей:

все – полная (но очищенная!) выборка;
женщины – все «женские» ассоциации (употребленные всеми женщинами);
мужчины – все «мужские» ассоциации (употребленные всеми мужчинами);
только женщины – «чисто женские» ассоциации (употребленные только женщинами);
только мужчины – «чисто мужские» ассоциации (употребленные только мужчинами);
и женщины и мужчины – «общие» ассоциации (употребленные как женщинами, так и мужчинами).

Частоты как ассоциаций, так и респондентов (и их доли) в зависимости от длины ассоциации представляют собой исчерпывающую, но малочитабельную таблицу. На диаграмме ниже представлены средние с 95% доверительными интервалами для вышеуказанных выборок. Средняя длина по всей выборке равна 6,9 символа на ассоциацию. Средняя длина ассоциаций у женщин меньше, чем у мужчин – 6,80 против 7,22, с разницей в 0,42. Такая же разница между выборками тм и жт. А вот средняя длина «общих» для женщин и мужчин ассоциаций оказалась значительно (и значимо!) меньше – всего 6,04 символа:

Производя укрупнение диапазонов длин, получим куда более компактную таблицу. Её гораздо проще понять – женщины «лидируют» в применении коротких слов, а мужчины длинных. Впечатляет тот факт, что почти 70% «общих» ассоциаций – это слова длиной 5-7 букв! Остальные поровну оказались и короче и длиннее них. Все это наглядно видно на диаграмме.

По частотам видно, что мужчины чаще употребляют более длинные слова, нежели женщины. Что сие значит и почему так – сказать трудно. М.б., это связано с тем, что женщины стремятся побольше впихнуть в заданный промежуток времени? им больше есть что сообщить? Чур меня, а то получу обвинение в половой дискриминации…

7. Выводы

После анализа только «финальных» ассоциаций можно сделать следующие выводы:

мужчины значимо чаще употребляют «оригинальные» ассоциации
пространства ассоциаций мужчин и женщин весьма различаются
уровень образования не вносит значимых отличий в ассоциации респондентов

Поэтому очевидно следствие:

тесты на ассоциации для мужчин и женщин должны быть различными

Естественно, если ассоциации используются не как цель, а как средство исследования-измерения каких-то качеств респондентов.

Подготовка и обработка, анализ и представление данных