Аннотация

На материале онлайн-опроса показано, что использование несогласованных ответов приводит к «зашумлению» получаемых результатов. Это не позволяет выявить действительно обоснованные и значимые различия в выборке, а также приводит к выявлению необоснованных различий, т.е., артефактов.

Поэтому методика расчета балльного показателя без дополнительного контроля согласованности ответов как своеобразной «цензуры ответов» является порочной. В качестве примера такой цензуры использованы усеченные средние и показана «ломка значимости».

Иллюзия №5: илюзия кропотливого исследования
Если качество данных низкое, неважно, сколько их собрано
и насколько изощренные методы исследования применялись.
Фил Розенцвейг:
«Эффект ореола» и другие бизнес-иллюзии

Содержание

  1. Постановка задачи
  2. Однородность выборок
  3. Различие распределений
  4. Размах и сдвиг показателя
  5. Спасение утопающего
  6. «Цензура» ответов
  7. Фактор: пол
  8. Фактор: уровень образования
  9. Взаимодействие факторов
  10. Цензура ответов и предпочтения
  11. Каковы же «карьерные ориентации» в данной выборке?
  12. Выводы

1. Постановка задачи

Роль согласованности ответов в концептуальном плане уже обсуждена. Теперь следует выяснить, насколько она сказывается на получаемых показателях.

Выделим две выборки:

  • выборка 1, для которой размах не превосходит 5 (R<=5, 71 чел.);
  • выборка 2, для которой размах больше 5 (R>=6, 488 чел.).

Граница размаха, установленная тут в 5 баллов, строго говоря, слишком велика. Но при размахе, не превосходящем 4, в первую выборку попадает уж совсем мизерное количество – 15 чел. Ведь 32% всей выборки имеет максимальный размах в 9 баллов хотя бы по одному из показателей! Иными словами – треть респондентов дала на вопросы одного и того же показателя противоположные ответы.

Полагаю, что такое большое количество ответов с большими размахами обусловлено отнюдь не «глупостью» респондентов, а самим опросником «Якоря карьеры». Скорее всего, именно его конструкция сама по себе провоцирует респондента на сдвиг смысла вопроса, вследствие чего и получается такой разброс ответов на вопросы одного показателя. Поэтому согласованность ответов в данном случае показывает, что именно респонденты, показавшие «малые» размахи в своих ответах, хорошо поняли суть опроса даже в столь неблагоприятной ситуации. А раз так, то именно их ответы и должны быть ориентиром как при вычислении показателей выборки, так и при оценке самого опросника.

Ясно, что и распределения ответов, и статистики для этих выборок будут различаться. Дело только в существенности и значимости таких различий.

2. Однородность выборок

Робкое предположение-надежда, что согласованность ответов как-то связана с факторами, характеризующими респондентов, не оправдалось – по критерию хи-квадрат различий между выборками 1 и 2 нет:

Фактор Хи-квадрат ст.св. p
Пол 1,61 1 0,20
Соц. положение 9,37 11 0,59
Образование 5,32 5 0,38
Мат. положение 6,75 5 0,24

С другой стороны, это радует – значит, различие в ответах действительно связано с самими вопросами.

3. Различие распределений

Распределения ответов действительно радикально отличаются. Ожидаемо и характерно обострение «вампирских клыков» на краях диапазона для второй выборки. Кроме того, отмеченная ранее тенденция к снижению частоты в парах соседних ответов по мере приближения к центру стала более явной. А вот для первой выборки распределение стало куда более сглаженным, хотя все равно остается далеким от нормального и явно скошенным в строну больших значений баллов.

Что же касается средних значений, то тут ожидаемые различия, скорее всего, будут не столь впечатляющи. Обусловлено это сглаживающим эффектом любой статистики, характеризующей центр распределения, будь то среднее или медиана. Даже при значимых различиях в распределениях ответов, средние значения, как и положено всяческим «обобщающим» характеристикам, куда менее чувствительны к таким различиям.

4. Размах и сдвиг показателя

Большие значения размаха означают, что ответы расположены около краев шкалы. Это позволяет сделать вполне очевидные выводы относительно распределения ответов второй выборки:

  • оно сглажено и приближается к равномерному;
  • его центр (среднее значение, медиана) близок к середине шкалы (около 5,5);
  • его рассеяние (дисперсия, среднее абсолютное отклонение, межквартильное расстояние) велико.

Это и позволяет заявить:

значения показателя, полученные на основе ответов с большими размахами,
– это просто «шум», который мешает выделить значимые различия!

Для различных показателей картина, скорее всего, различна. Тогда по отличиям между 1-й и 2-й выборками мы сможем судить о «качестве» как каждого вопроса, так и о их группе в целом. А это дает возможность обоснованной критики имеющегося опросника и, надеюсь, столь же обоснованных указаний на направление его модификации.

Различия между двумя выборками и их значимость сведены в таблицу. Ограничение по размаху, разделившее общую выборку надвое, является достаточно суровым, и естественно было ожидать значительных и значимых различий в распределениях. Тем не менее, нашлось 4 вопроса, для которых эти различия оказались незначимыми по всем критериям: J04, S13, I07, E08 (их коды выделены лимонным фоном). А вот 9 вопросов (коды выделены оранжевым) дают максимальные отличия по всем критериям.

Как и предполагалось, средние значения в «строгой» выборке в основном превосходили соответствующие значения для «вольницы». При этом максимальный сдвиг равен 1,26 балла, в то время как отрицательных сдвигов всего 8, максимальный равен -0,44, причем только 4 из них значимы.

Любопытны «показания» двух тестов на значимость сдвига: параметрического t-критерия Стьюдента и непараметрического Манна-Уитни. Оба показали отсутствие сдвига у 22 вопросов (желтый фон в колонке V), наличие – у 8, а наличие сдвига по одному критерию отмечается у 13 (М-У) или у 14 (t) вопросов. Главное другое: больше половины вопросов (22 из 41) не обнаруживают значимого сдвига!!!

Что ещё раз вызывает вполне обоснованные подозрения:

является ли невзвешенное арифметическое среднее адекватным показателем?

Разности средних с доверительными интервалами и маркировкой значимых различий представлены на диаграмме.

5. Спасение утопающего

Как известно, наличие «тяжелых» хвостов и, тем более, выбросов значительно снижает эффективность среднего как меры центра распределения. Т.е., среднее – мера весьма неоптимальная. К сожалению, общепринятым является выбор именно среднего (невзвешенного арифметического) как индивидуального значения показателя. Что и порождает неоднократно высказываемые в литературе претензии к качеству получаемых «результатов». А воз и ныне там…

Тем временем для «снижения вреда» придумано много всяческих методов (робастные статистики): усечение средних, исключение резко выделяющихся значений и др. Конечно, метод определяет результат, но интересно сравнить получаемые сдвиги значений для двух наших выборок. В качестве «опорного» пришлось выбрать обычное среднее – другого просто нет. Только для двух показателей – Автономия и Стабильность работы – направление сдвига от «общевыборочного» среднего отличается от большинства (выделено фоном). Любопытно большое совпадение, чуть ли не до чисел, между результатами двух робастных методов – усеченных средних и М-оценка Хьюбера. Кстати, для других распространенных методов исключения выбросов – бивес-оценивателя Тьюки, M-оценки Хампеля и волны Эндрюса – результаты аналогичны.

Особенно велик сдвиг в показателе Стабильность места жительства – от 15,2% для обычных средних до 17,8% для М-оценки Хьюбера. Недалеко ушла и Профкомпетентность. Отметим только одно обстоятельство – для всех и показателей (исключая Менеджмент) и выборок сдвиг, отмечаемый для усеченных средних, превосходит по величине сдвиг, получаемый для обычных средних.

6. «Цензура» ответов

Рассмотрим ответы на вопросы данного показателя как выборку. Тогда мы можем и для неё ввести обычные меры центра – среднее, моду, медиану, усеченное среднее, … Правда, при малом числе вопросов имеем и малый объем выборки. М.б., поэтому применение других мер – моды, медианы и пр. даже не рассматривается. Жаль — идея-то богатая.

При этом очевидно нарушение главного обоснования любых статистических выводов: ответы на вопросы одного показателя никоим образом не являются независимыми событиями. А потому методы, основанные на этом предположении, мы использовать не можем.

Одной из попыток «спасти лицо» балльного показателя может служить усечение средних при расчете индивидуального значения показателя. Алгоритм расчета прост:

  • производится отбрасывание определенного заранее числа крайних значений из ответов по данному показателю;
  • для оставшихся ответов рассчитывается обычное среднее (невзвешенное арифметическое).

В данном опроснике число вопросов на показатель равно 5 (пока не было проведено, не очень грамотно, расщепление стабильности/безопасности надвое). Поэтому усечение здесь сводится к отбрасыванию минимального и максимального значений. Кстати, именно так и поступают в судействе по некоторым видам спорта.

Для 5-вопросных показателей остается три значения, по которым и вычисляется обычное среднее. Для 3-вопросных показателей такое усечение приводит к тому, что остается одно значение, которое просто равно медиане исходных 3-х ответов. Поэтому для таких показателей различие между обычными средними и цензурированными может оказаться либо несущественным, либо разительным.

Результаты оценки сдвига между средним и цензурированным значениями (для каждого респондента, по каждому показателю) приведены в таблице. Отметим «слабость» t-критерия в данной ситуации, обусловленную ненормальностью распределений. Естественно, что для первой выборки (R<=5) различия куда меньше и практически малозначимы (уровень значимости нигде не превышает 0,17). Но именно по наличию значимых различий для выборок можно судить о «качестве ответов», точнее, вопросов, на которые они давались.

Главное, на мой взгляд, в следующем. Максимальные по абсолютной величине сдвиги для этих выборок равны 0,31, 0,29 и 0,32, т.е. нигде не превышают трети балла. Уж очень несущественный сдвиг, в общем-то. Поэтому возникает вопрос – стоит ли овчинка выделки? Надо сравнить плюсы и минусы предлагаемого подхода.

Естественно ожидать, что среди части практиков столь незначительные различия вызовут облегчение – ну слава богу, можно пользоваться как раньше. Похоже, их не интересует адекватность получаемого показателя, им нужно только «прикрыть задницу» наукообразным заключением (см. эпиграф).

7. Фактор: пол

Проблема исследователя в том, что сами по себе величины показателей особого значения для него не имеют – просто в силу условности самого показателя. Но именно значимость различий между различными выборками является основой для всевозможных «научных» выводов типа «влияния пола (мат. положения, образования, …) на карьерные ориентации». Поэтому следует оценить, насколько меняется значимость (т.н. ломка значимости) при вычислении показателей как полных или же как цензурированных средних. Таблица значимостей различий между выборками 1 и 2 по непараметрическому критерию Манна-Уитни показывает, что цензурированные средние в подавляющем большинстве случаев дают менее значимые различия. Но для различного выделения выборок это проявляется по-разному.

Рассмотрим вначале выборки 1 (R<=5) и 2 (R>=6) и сравним различия между ними сначала для всех респондентов, а затем и отдельно для женщин и мужчин (левая часть таблицы). Вот выводы, сделанные на основе полных средних:

  • весьма значимые различия между выборками 1 и 2 наблюдаются только для показателей Профкомпетентность, Стабильность мж и Вызов;
  • значимые различия для женщин между выборками 1 и 2 наблюдаются только для показателей Стабильность мж, для мужчин эти различия незначимы;
  • значимые различия для мужчин между выборками 1 и 2 наблюдаются только для показателей Профкомпетентность и Вызов, для женщин эти различия незначимы.

При этом гендерные различия для отмеченных показателей даже если и не достигают значимого уровня, но все же меньше 0,1. Т.е., при увеличении объема выборки они могут стать и значимыми (нечто вроде «группы риска»).

Если же выводы основывать на цензурированных средних, то выводы куда более скромные:

  • значимые различия для мужчин между выборками 1 и 2 наблюдаются только для показателя Профкомпетентность, причем только для выборок в целом или же только для мужчин.

Только в трех случаях (11%) получаемые различия более значимы для цензурированных средних, нежели чем для полных. Но и тут они не достигают статистически значимых.

Но куда важнее сравнить гендерные различия в выборках 1 и 2 (правая половина таблицы). Прежде всего – в 9 случаях (из 27, т.е., треть!) наблюдаемый уровень значимости соответствующих различий меньше, нежели в случае полных средних, хотя значимых отличий и не наблюдается. Кстати, для «строгой» выборки значимость возросла для 5-ти показателей, в то время как для «вольницы» таких только 2.

8. Фактор: уровень образования

Как было показано ранее, фактор Образование удобнее укрупнить в фактор Уровень образования с 3-мя уровнями. Проведем аналогичные расчеты для этого фактора, используя непараметрический критерий Краскала-Уоллеса. Здесь доля ячеек с меньшим уровнем значимости для цензурированных средних куда выше, чем в предыдущем случае – 12 из 36 (33%) для группировки по размаху (Выборка 1 и 2) и 14 из 27 (52%) для группировки по уровню образования. Но главное – при употреблении цензурированных средних появляются значимые различия, которые не наблюдались при использовании полных средних! Например:

  • при использовании цензурированных средних показатель Автономия обнаруживает значимые различия как между выборками 1 и 2 для уровня образования среднее (р=0,042), так и между уровнями образования для выборки 1 (р=0,027);
  • показатель Служение, не показывающий никаких различий при использовании полных средних, обнаруживает их между уровнями образования для выборки 2 (р=0,026);
  • значимости 3-х различий меньше 0,1 и для показателя Стабильность мж.

Часть же различий перемещается в «зону риска», становясь менее значимыми, но оставаясь ниже 0,1. Такова, например, стабильность мж.

9. Взаимодействие факторов

Для простоты используем в качестве «пилотной» общую линейную модель, частоты в ячейках которой вполне достаточны. При всей проблематичности применения такой модели она позволяет судить о главном – «ломке значимости» при переходе от расчета показателя как полного среднего к расчету как усеченного среднего. Не вдаваясь в подробности по поводу факторов Пол и Уровень образования (см. выше), обсудим только взаимодействие этих факторов.

Оба способа расчета показателя приводят к наличию в выборке 2 взаимодействия между этими факторами для показателя Стабильность мж. Однако значимость такого различия выше для цензурированных средних, несмотря на всю сомнительность получаемых значений, поскольку модель опирается на предположение о нормальности распределений и равенство дисперсий в ячейках.

Поэтому применим непараметрический аналог однофакторного дисперсионного анализа – критерий Краскела-Уоллеса. Чтобы исследовать взаимодействие факторов Пол и Уровень образования, рассмотрим два варианта организации подгрупп для этого критерия:

  • выборка (1-я и 2-я) >> группировка по фактору Пол >> критерий по фактору Уровень образования;
  • выборка (1-я и 2-я) >> группировка по фактору Уровень образования >> критерий по фактору Пол.

Наиболее интересна для нас ситуация с цензурированными средними. Они не обманули:

  • примерно в половине ячеек уровень значимости различий выше, чем для соответствующей комбинации факторов при использовании полных средних;
  • цензурированные средние выделяют по значимости не те же комбинации факторов, что полные средние;
  • цензурированные средние показывают наличие значимых различий там, где полные их не отмечают;
  • такая ситуация наблюдается не только для 1-й («строгой») выборки, но и для 2-й.

10. Цензура ответов и предпочтения

Рассмотрим влияние усечения средних на предпочтения респондентов, получаемых на их основе. Вряд ли стоит ожидать каких-либо кардинальных изменений по сравнению с полными средними, но всё же любопытно посмотреть.

Естественно проранжировать значения якорей карьеры (показателей) для каждой из выборок и каждого типа средних. Отмечу, что для полных средних наблюдается две смены соседних рангов, а для цензурированных – только одна (отмечены серым фоном). Поэтому ранговые коэффициенты корреляции по Спирмену весьма высоки – 0,967 и 0,983 соответственно. Внутри каждой выборки соответствие рангов ещё выше: для 1-й ранги совпадают полностью, а для 2-й имеется только одна смена соседних рангов. Что лишний раз свидетельствует о роли согласованности ответов.

Практики вводят даже такой показатель, как «общая карьерная ориентация», полагая его равным среднему значению по всем показателям. Приближение к середине шкалы для 2-й выборки по сравнению с 1-й совершенно естественно, как и то, что усечение средних от той же середины удаляет. Но что характерно – для 1-й выборки усечение средних приводит к гораздо меньшему сдвигу, чем для полных.

Шут с ним, со средним, но вот такая мера разброса показателей как среднее абсолютное отклонение (САО) ведет себя достаточно любопытно (стандартное отклонение, впрочем, ведет себя точно так же):

  • САО больше для 2-й выборки, нежели для 1-й. Ну, это вполне естественно для самих показателей, но выполняется и для предпочтений.
  • САО больше для цензурированных средних по сравнению с полными. Это означает, что полные средние, даже для 1-й выборки дают более сглаженные результаты. Т.е., они «маскируют» различия.

Не менее интересно сравнить относительные различия между значениями показателей, вычисленных для двух выборок при помощи двух типов средних. Прежде всего бросается в глаза тот факт, что различие между «строгой» выборкой и «вольницей» куда больше, чем между полными и цензурированными средними. Поэтому наиболее достоверные данные о якорях карьеры (то бишь, карьерных ориентациях) соответствуют выборке R<=5 с цензурированными средними.

Для предпочтений эти изменения значительно больше, хотя ранги практически остались теми же. Приведу соответствующие результаты:

  • Предпочтения для первой выборки («строгая», R<=5), сравнение полных и цензурированных средних. Только для одного показателя (менеджмент) усечение средних привело к уменьшению предпочтения (красный прямоугольник).
  • Предпочтения для второй выборки («вольница», R>=6), сравнение полных и цензурированных средних. Усечение средних привело к уменьшению предпочтений для 3-х показателей. Но относительное изменение предпочтений тут меньше, чем в предыдущем случае.
  • Предпочтения на основе полных средних, сравнение 1-й и 2-й выборок. Предпочтения больше по значениям для «вольницы» для 7 из 9 якорей.
  • Предпочтения на основе цензурированных средних, сравнение 1-й и 2-й выборок. Предпочтения больше по значениям для «вольницы» для 7 из 9 якорей.

10. Каковы же «карьерные ориентации» в данной выборке?

Конечно, имеется в виду данная выборка, из которой после выделения согласованных ответов осталось только 71 чел. Данные приведены в таблице и представлены на диаграмме. Интересно сравнить показатели для трех выборок:

  • «строгой», для которой произведены отбор по максимальному размаху и для которой произведена цензура оценок (выборка 71);
  • «вольницы», для которой размах оценок не ограничивался и цензуры ответов не производилось (выборка 488);
  • первоначальной, с анализа которой и начался проект (выборка 1832).

Сравнение производилось как по средним значениям, так и по квартилям.

Легко видеть, что для многих показателей «выборка 488» гораздо ближе к «выборке 1832», нежели к «выборке 71». Это говорит о стабильности результатов опроса на всем его протяжении и о том, что выявленная нами картина с согласованностью ответов, скорее всего, имела место и на первой выборке.

Поэтому

результаты первого отчета, вообще говоря, малообоснованны

10. Выводы

Итак:

  • применение несогласованных ответов может привести к необоснованным заключениям о значимости наблюдаемых различий;
  • применение согласованных ответов позволяет выявить значимые отличия, маскируемые «фоном».

В целом, контроль согласованности ответов тем или иным методом позволяет получить более обоснованные и адекватно интерпретируемые результаты. Даже при использовании недоработанных методик типа «Якоря карьеры».

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход / Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход / Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход / Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход / Изменить )

Connecting to %s

%d такие блоггеры, как: