Аннотация

Проведен статистический анализ ассоциаций по тесту «16 ассоциаций». Исследованы гендерные различия частот ассоциаций как по заявленным в тесте буквам, так и по тематике.

Содержание

  1. Выборка и данные
  2. Имена
  3. Очистка данных
  4. Методика анализа частот ассоциаций
  5. Значимость различий
  6. Устойчивость различий
  7. Самые частые ассоциации
  8. Ассоциации по буквам
  9. «Тематические» ассоциации

1. Выборка и данные

Данные поступали с 14.01.2010 по 30.01.2010, возраст – от 10 до 70 и выше.

Поскольку преобразование данных имеющегося типа (качественные переменные)для анализа – вещь достаточно муторная, я ограничился учетом только одного фактора – пола:

2. Имена

Ясно, что исключительно индивидуальными ассоциациями являются имена – личные (имена, фамилии, клички, прозвища, …), географические (города, страны, реки, …), названия фирм, торговые марки и т.п. Вряд ли можно предполагать «особые отношения» между буквой О и маркой Орифлэйм…

Перед проведением расчетов пришлось провести некоторые преобразования имен. Например, Наташа, Натали и Наталья считались одни и тем же именем. Следует отметить, что тут возникает непростая проблема интерпретации введенного слова. Например, слово «надежда» — это имя или же «простое слово»? А «любовь», «вера» и т.п.? Для «интереса» я считал, что это не имена. Естественно, тут, как говорится, возможны варианты. Наверняка часть этих слов – это имена, но как я могу узнать, какова эта часть? Рассчитывать на то, что имена введены с заглавных букв? Несколько наивно для Интернет-аудитории, к тому же все данные получены в нижнем регистре. Возможно, имеет смысл все-таки сохранять регистр букв при вводе «как есть»?

Анализ подобных качественных данных сильно зависит от смысла, вкладываемого в слова-ассоциации. Впрочем, именно частота употребления слов и позволяет отсечь совсем уж «странные» и личные ассоциации.

Число имен и их доли для мужчин и женщин приведены в таблице:

Доля имен (как ассоциаций) у мужчин значимо выше на уровне 0,05. Различия между мужчинами и женщинами по типам имен сведены в таблицу, где в качестве меры значимости применен угловой критерий Фишера. Имеется только два значимых отличия – женские имена употребляются мужчинами реже, чем женщинами, а вот географические названия – чаще. Мужчины употребляют имена чаще женщин – примерно одно имя на мужчину против 0,8 на женщину, но незначимо (укФ=1,555).

3. Очистка данных

К индивидуальным ассоциациям я вынужден отнести «одноразовые» — все те, что встречались только однажды:

Частоты одноразовых ассоциаций приведено в предпоследней строке таблицы, там же – значение критерия хи-квадрат и значимость отличий в распределениях. Угловой критерий Фишера (УкФ) тоже подтверждает, что у мужчин весьма неслучайно почти в полтора раза чаще встречаются одноразовые ассоциации. Говорит ли это о большей фантазии мужчин или о чем-то ещё – судить не берусь.

Кроме того, я удалил ассоциации, встречающиеся по разу и у мужчин и у женщин. Поэтому во второй версии базы данных немного поменялись частоты. В последней колонке приведен ранг буквы по частоте встречаемости в русском языке.

Но даже после столь суровой чистки корреляции между частотами ассоциаций в исходной выборке и «очищенной» весьма высоки – 0,98 по Пирсону и 0,95 – по Спирмену. Доли ассоциаций, приходящиеся на каждую букву после очистки, приведены на диаграмме:

Как видим, доли меняются в небольшом диапазоне, хотя наибольшая и наименьшая доли отличаются почти втрое. Распределение очень значимо отличается от равномерного (р=4E-10, хи2=75,93 при критическом значении 37,70 для р=0,001, df=15). Это означает, что буквы неравноценны как «поставщики ассоциаций». Дальше – к психолингвистике.

4. Методика анализа частот ассоциаций

Основная проблема – установить «уровень отсечения» ассоциаций, т.е., какие из них стоит рассматривать, а какие нет. Два ограничения – по именам и по единичным ассоциациям – я уже применил.

Надо выбрать критерий значимости отличий между частотами слов-ассоциаций, выдаваемых мужчинами и женщинами. У нас имеются:

  • 87 мужчин и 514 женщин;
  • частоты, с которыми они употребили данное слово.

Нас интересует доля мужчин и доля женщин, употребивших это слово как ассоциацию. Эти величины представлены в колонках Доля таблицы. Помимо самих долей, нас, конечно же, интересует, насколько значимо различие между ними – отражает ли оно какую-либо закономерность или же есть просто игра случая?

Классический критерий хи-квадрат тут применим, конечно, но у него есть суровое ограничение – частота (число в ячейке) должно быть не менее 5. Таких слов у нас 37, что составляет всего 37/9541=0,39%. О каком вообще анализе данных может идти речь, что анализировать-то?

Но есть ещё один критерий, который имеет менее суровые ограничения – угловой критерий Фишера. Ограничения его таковы:

Такие частоты встречаются у нас довольно часто: №1 – 3 раза, №2 – 27 раз и №3 – 19 раз. Т.е., наши возможности анализа выросли до 3+27+19+37=86 слов, что составляет уже 0,9% от общего числа высказанных ассоциаций.

Вот несколько примеров, показывающих зависимость значимости различий от частот для нашей выборки:

Как видим, оценки, получаемые по обоим критериям, вполне согласуются там, где они оба применимы. Но поскольку укФ дает больше возможностей, то мы применим для оценки значимости различий именно его.

Формально укФ при нулевой частоте применять не рекомендуется, поскольку он дает завышенную значимость различий. Но если он в данной ситуации показывает значимость на уровне 0,01, то после «коррекции» в сторону снижения значимости у нас все же остается уверенность в том, что такие различия значимы.

Теперь о здравом смысле. Рассмотрим, например ассоциации, что встречаются дважды, причем только у одного пола. Я полагаю, что их все-таки рассматривать не надо, и вот почему. Укф показывает значимые (и весьма) различия. Но неужели по такой, чисто формальной причине, можно сделать вывод, что мужчины значимо чаще употребляют 8 слов «антураж, волонтер, гражданин, дерьмо, кирпич, лихорадка, лосось, оракул»? А 231 слово, которое дважды употребили женщины и которые ни разу не упомянули мужчины – чистая случайность?

Поэтому я оставил в базе ассоциаций только те из слов, которые встречались в выборке не менее 5 раз. Таких ассоциаций имеется 398. Именно их я и рассматриваю в дальнейшем. Вот данные по ассоциациям в этой подвыборке:

Число М Ж Всего
респондентов 87 514 601
ассоциаций 1 392 8 149 9 541
оставлено 809 5 398 6 207
доля оставленных 58% 66% 65%

Как видим, доля оставленных ассоциаций выше у женщин, что и соответствует большей разбросанности ассоциаций у мужчин.

Более редкие ассоциации могут представлять, на мой взгляд, только специфический интерес, но никаких обоснованных выводов по ним сделать просто нельзя. А раз так, то и мне нечего с ними делать. Конечно, как неаналитику, мне было любопытно «поиграться» со словами. Куча всяческих предлагаемых «объяснений» немало развлекли меня и друзей.

5. Значимость различий

Любопытно распределение значимости различий для оставленных ассоциаций. Незначимо отличаются от равномерного распределения по буквам как числа оставленных ассоциаций, так и значимых различий. Примерно треть (31%) частот таковы, что угловой критерий Фишера к ним неприменим.

Больше всего значимых отличий приходится на букву Т, единственное отличие которой, на мой взгляд, только в том, что она идет первой в тесте. Ну и что, это как-то обуславливает число значимых различий? Не вижу связи… Конечно, можно нафантазировать гипотезу о «цикличности число значимых отличий в зависимости от номера буквы», поскольку имеются «провалы» на буквах Г, А и Н. Ну-ну…

Немного удивляет малое число значимых различий по укФ – всего 29, т.е., 7%. Но критерий хи-квадрат вообще отмечает всего 15, причем при строгом подходе, когда минимальная частота в ячейках таблицы сопряженности должна превышать 5, их остается всего 8 (5 на уровне 0,01 и 3 на уровне 0,05).

Таким образом, ценность получаемых различий очень невелика. Данный тест, скорее всего, интересен именно индивидуальными ассоциациями, со всеми вытекающими отсюда сложностями анализа персональных данных.

6. Устойчивость различий

Рассмотрим некоторые частные случаи для частот ассоциаций:

В первых трех строках таблицы общая частота слова одна и та же, но происходит «смена пола» – один голос от женщин переходит к мужчинам. Как видим, при этом может произойти «ломка значимости» — она меняется либо с незначимой на значимую, либо со значимой на весьма значимую (либо наоборот). Причем по обоим критериям – и по укФ, и по хи-квадрат!

В последних трех строках дела ещё хуже – тут просто появление или исчезновение одного голоса у мужчин приводит к «ломке значимости». Такая

неустойчивость значимости различий лишает всякого смысла выводы,
построенные на их основе

По поводу самих ассоциаций и значимости отличий скажу только одно – часть из них для меня оказалась совершенно неожиданной.

Я проводил, и не раз, как с «простыми» людьми, так и с профессионалами в данной области, следующий эксперимент. Человеку предлагается предсказать результат некоего эксперимента, например, опроса. По рассматриваемому тесту вопрос выглядел так: У кого, по вашему мнению – мужчин или женщин – на букву Т чаще возникает ассоциация телевизор? Все опрошенные женщины дружно сказали – мужики, они всю жизнь перед ним проводят. Ан нет, женщины, причем значимо чаще! Иногда результат угадывался, иногда нет – зависело от «странности» ассоциации. После объявления результата следует «усиленная работа мысли», и человек чаще всего находит «рациональное» объяснение этому результату.

Все это ещё раз утвердило меня в убеждении, что

«объяснение» полученных результатов чаще всего характеризует
исключительно «натасканность» исследователя по части такого объяснения
и редко имеет отношение к реальной сути дела

«Опора на результаты научного исследования» является в таком случае свидетельством либо глупости, либо непорядочности такого исследователя (впрочем, м.б., и того и другого вместе…).

7. Самые частые ассоциации

Критерием отбора, чисто условным, я выбрал 5% от общего числа респондентов. Таких ассоциаций оказалось 35 – самых частых. В колонках «Доля» приведены относительные частоты, равные числу ассоциаций, деленному на число мужчин (женщин). Отметим главное обстоятельство – при всех различиях в выборке и её несбалансированности по полу значимых различий в частоте ассоциаций в данной группе слов значимых различий всего 20% (7 из 35)!!!

Конечно, мама и дом – безусловные лидеры ассоциаций, в сумме они дают чуть больше 6% ВСЕХ ассоциаций, причем каждый второй выбрал мама. Даже после очистки они дают более 9%. И различия между ними просто мизерны, особенно в данных условиях. Папа тоже сумел попасть в 1-ю десятку, причем он реже упоминается мужчинами, хотя и незначимо.

Не вызывают (задним числом, разумеется!) удивления и самые большие различия для двух слов – любовь (все-таки она чаще упоминается в этой паре) и жопа. Как всегда на Руси – святое и срамное идут рядом. Обязательное говно, занявшее 6-е место по частоте, незначимо чаще употребляется мужчинами.

Неожиданным для меня оказался арбуз — 5-е место по частоте. Но, привлекая «мастерство интерпретации», тут же все «объяснил»: дело-то в букваре-азбуке! Именно на рисунке этой ягоды мы все изучали первую букву русского алфавита. Во вбили в головку-то…

Следующее значимое отличие связано со словом зуб (зубы), которое чаще вспоминалось почему-то женщинами. Как и слова солнце, река и рука (руки). Работа же значимо чаще упоминалась мужчинами.

Что сие все означает – понятия не имею. Конечно, могу накрутить кучу правдоподобных словес, но насколько они будут убедительны и, главное, иметь отношение к истине – вопрос особый.

8. Ассоциации по буквам

Маркировка ячеек совпадает с введенной ранее для таблицы самых частых ассоциаций. В кратких комментариях на каждую букву я отмечаю наиболее любопытные, на мой взгляд, ситуации. В скобках после слова приводится пол, представители которого дали значимо более высокую относительную частоту (долю) ассоциации. Таблицы приводятся по порядку предъявления букв в тесте.

Сводка параметров по всем буквам содержит число значимых отличий и число ассоциаций, чаще употребляемых мужчинами. В среднем только 40% слов мужчины употребили чаще женщин.

Т| Самые значимые различия: тюрьма (м), тарелка (ж) и торт (ж), причем значимость двух последних обусловлена нулевой частотой этого слова у мужчин. Если значимое превосходство женщин по ассоциациям телевизор, театр и тепло как-то ещё понятны, то оно же для топора, таракана и табака уже вызывает некий ступор. Конечно, смешным выглядит «превосходство» доли мужчин по слову тварь – 1 против 4. Различие незначимо, но данный случай ещё раз ясно показывает, насколько «скользкими» являются выводы, сделанные на столь шаткой основе.

Д| Явное «преимущество» мужчин по слову дебил тут же находит свое «объяснение», правда, задним числом.

Б| Единственное весьма значимое различие – ненормативная блядь. И мужчины употребляют ох как чаще женщин…

М| Ничего особенного, кроме того, что самая короткая таблица. Мне показалось любопытным, что мороз и мороженное встречаются только у женщин. И магазин значимо чаще упоминается мужчинами. К чему бы это?

Г| Ничего, кроме незначимого различия в употреблении говна….

А| Ну просто ничего интересного, кроме обсужденного арбуза

Ж| Ну жопа – это понятно, а вот жир дает неустойчивую значимость: убрать один мужской голос – и значимости нет.

О| Ничего интересного…

К| Бесспорное лидерство кошачьих тоже, конечно, легко объясняется… Какашка – детские ассоциации или деликатность? Впрочем, неустойчиво.

Р| Любопытно, что первые два значимых различия – работа и река – неустойчивы: изменение частоты у мужчин на 1 случай «ломает» значимость. А вот рука устойчива (в этом смысле, конечно).

В| С верностью все ясно заранее, не так ли? Но неустойчиво, черт возьми…

Н| Ножницы – это дело женское! Но неустойчиво…

З| Ну разве что задница, причем устойчиво, что несколько удивительно при общем небольшом числе случаев.

П| Ничего интересного.

Л| Разве что любовь, но её уже обсудили. Весьма устойчивое по значимости различие.

С| Различие солнце устойчиво (надо добавить 3 человека у мужчин, чтобы оно стало незначимым).

9. «Тематические» ассоциации

Куда интереснее посмотреть, каковы ассоциации, сгруппированные по некоторой теме. Трудность – определить как саму «тему» ассоциации, так и принадлежность термина к ней. Вот несколько примеров, показывающих только часть трудностей тематической классификации:

  • вена – это город или часть тела?
  • рак – животное или знак зодиака?
  • кол – деревяшка или оценка?
  • валенок – одежда или «определение» человека?
  • велосипед – предмет домашнего обихода или устройство?
  • зая – воспоминание о любимой или опечатка в имени Зоя? А зайка?

Ясно, что отнесение ассоциации к теме в большинстве случаев весьма произвольно. Я выделил несколько тем, название которых довольно условно. Напомню, что у нас есть ещё тьма ассоциаций, которые упомянуты менее 5 раз. Там полно представителей этих же (и, м.б., других, не менее интерсных) категорий. Но их обработать — только дипломнику такое по силам!

Мне показалось любопытным провести укрупнение слов внутри самих тем. При этом укФ следует вычислять не по числу мужчин/женщин, а по числу соответствующих ассоциаций. Я выбрал те, что остались после «сокращения», поскольку с числом исходных получаемые значения укФ разнятся мало. Маркировка обычная, N – число ассоциаций в группе.

Построение раздела таково: приводится табличка «укрупненных» категорий внутри одной темы, а всю таблицу можно просмотреть по ссылке — названию темы.

Природа

Что любопытно: «небесные» ассоциации и водоемы упоминаются женщинами значительно чаще, чем мужчинами, и весьма значимо.

Движение

Эта группа интересна тем, практически все термины мужчинами употребляются чаще, но все незначимо. Значимое преобладание у мужчин танка и трактора можно понять. Кстати, снова вылезает любовь женщин к воде (см. водный транспорт!).

Семья

Естественно, женщины чуть чаще упоминают слова из этой группы, но все незначимо. Кстати, брат и тетя тоже присутствуют среди ассоциаций, но упоминаются менее 5 раз. А в полном списке дядя не упоминается ни разу, тем более свояк или шурин. Даже теща и свекровь не упомянуты, что уж совсем странно…

Кстати, а как «по научному» называются люди, связанные родственными отношениями «на одном уровне» – муж-жена-сестра-брат-кузен-… (я их условно назвал «гомологи»)? Сиблинги (братья и сестры) – это лишь часть этого множества.

Еда

Несколько неожиданно значимое преобладание женщин по вину, а мужчин по жиру. Укрупнение выделяет слабое место женщин – сладкое! В остальном мужчины и женщины особых различий не проявляют.

«Негатив»

Явное преобладание мужчин! Но что любопытно – нет и не_знаю упоминают только женщины, а надо мужчины употребляют чаще. Впрочем, различия незначимы. Кстати, укрупнение у меня как-то не получилось…

Ценности

При всей условности подразделений любопытно, что именно по части «романтики в целом» женщины далеко обставили мужчин. Ну, это, естественно, легко «объясняется». А вот по ценностям вообще различия нет, и весьма устойчиво.

Фауна

Опять вода да ещё и с насекомыми – женские стихии, никак?

Флора

Человек

Культура

Полное отсутствие значимых различий как до, так и после укрупнения! Что меня даже удивило – как-то принято считать, что женщины у нас больше интересуются культурой и связанными с ней вещами. Ан нет – культура вызывает у них ассоциаций не больше и не меньше чем у мужчин. Единственное, в чем различие вполне существенно – в употреблении абстрактных понятий: мужчины их не употребляли совсем! Но стоило бы парочке из них употребить – и различие стало бы незначимым.

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход / Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход / Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход / Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход / Изменить )

Connecting to %s

%d такие блоггеры, как: