Аннотация

Исследована «ломка значимости» — изменение статистической значимости получаемых результатов при использовании различных способов укрупнения шкалы возраста и некоторых других факторов, но на одних и тех же первичных данных.
Показана принципиальная возможность такой ломки и различные варианты реакции показателей и факторов на параметры укрупнения – выбор начала отсчета диапазонов, их длину и равномерность.
Показано, что (1) если не проведено исследование получаемых результатов на «устойчивость» по отношению к различным способам укрупнения шкал, то получаемые выводы чаще всего являются необоснованными, а наблюдаемые «закономерности» – чистой воды артефактами; (2) вывод о наличии той или иной зависимости определяется не только самими данными, но и способом их получения и обработки.

Содержание

  1. Чего я жду от исследования
  2. Укрупнение переменной Возраст
    1. Исходная переменная
    2. Однородность и укрупнение
    3. Способы укрупнения шкалы возраста
  3. Сдвиг начала диапазонов
    1. Частоты
    2. Пол
    3. Образование
    4. Материальное положение
    5. Показатели
  4. Длина диапазонов
    1. Частоты
    2. Пол
    3. Образование
    4. Материальное положение
    5. Показатели
  5. Возрастная «динамика» показателей и пол
  6. Выводы


Цель расчета — не число, а понимание.

Академик А.Н. Крылов

1. Чего я жду от исследования

Пакостность переменной Возраст я уже обсудил раньше (см. Возраст как переменная). Там же обещал привести результаты подробного анализа последствий, к которым приводит применение различных способов укрупнения диапазонов такой привычной переменной, как Возраст. В качестве исходных данных я взял первые «попавшиеся под руку» – отчет по опросу «Якоря карьеры».

Изменение диапазонов приводит к изменению частот, а это обязательно влечет изменение и всех статистик. Поскольку какие-то различия между группами существуют всегда, то чаще всего интересуются значимостью этих различий, т.е., случайны они или же за ними скрывается нечто интересное.

Меня сейчас интересует «ломка значимости» — изменение значимости отличий, вычисляемая для различных шкал возраста по одним и тем же первичным данным.

Для оценки такой ломки рассматриваются 3 общепринятых порога значимости — 0,05 (значимо), 0,01 (очень значимо) и 0,001 (суперзначимо). Для удобства, в колонке ‘р’ таблиц незначимые вероятности обозначены простым шрифтом, значимые – синим, очень значимые – красным, суперзначимые – жирным красным. Соответственно, изменение «маркировки» и указывает на «ломку значимости». Число К (обычно в последней колонке) показывает, сколько различных порогов значимости участвует в строке. Если в ячейке пусто – уровень значимости не меняется.

Подобная «ломка значимости» означает, что:

    наши выводы существенно зависят от многих привычных умолчаний, которые принимаются чаще всего бездумно

Например, от способа укрупнения фактора (переменной). Впрочем, исследователь может просто и не подозревать об их наличии и коварности. Условия статистического исследования – нормальность, объем выборки и т.п. – тут не при чем. С ними все как обычно. Скорее речь идет о планировании эксперимента.

2. Укрупнение переменной Возраст

2.1. Исходная переменная

Данные по опросу «Якоря карьеры» (1877 человек) были подвергнуты очистке. Правда, была не очень уж и строгой, чтобы «и вашим и нашим» — и не совсем замусоренная, и не очень уж стерильная. После неё оставлено 1832 респондента. На основе именно этой цензурированной выборки я и буду делать анализ (см. статистики и гистограмма).

Распределение довольно гладкое. Наличие «клыка» для 17 лет объясняется эффектом края – на сайте наименьшая отметка шкалы обозначена как «до 18 лет». А на том же сайте среди респондентов по тесту Айзенка встречаются и 10-летние. Обидно, что нет единого для всего сайта стандарта переменной Возраст. Впрочем, для конкретных целей моего анализа это даже и хорошо, поскольку дает возможность показать наглядно, как

    предположения, вроде бы совсем невинные, приводят к изменению получаемых результатов.

2.2. Однородность и укрупнение

Все статистические характеристики (средние, разброс, …) имеют смысл только для статистического ансамбля. Известна «средняя температура по больнице». Участники ансамбля должны быть «неразличимыми» в каком-то отношении, которое определяется исследователем. Проверить это вполне можно — разбить ансамбль по «существенным» факторам на группы и сравнить их между собой обычными способами. Нет значимых различий — ансамбль таки-да однороден по этим факторам, и его усредненными характеристиками вполне можно пользоваться.

Но для любой выборки обязательно найдется некий параметр, по которому она разваливается на подгруппы, значимо отличающиеся друг от друга. И не всегда нам известны все параметры, которые следует рассматривать. Вдруг пол учителя физики сказывается на развитии интеллекта. Глупость, скажете? А кто проверял, что это не так?

В любом исследовании д.б. указаны как учтенные факторы (параметры респондентов), так и их структура. Некоторые факторы достаточно просты по своей структуре. Таков, например, пол. Все согласны с тем, что такое муж и жен, исключая случаи, которые (м.б., только пока) являются патологией. Они могут быть весьма интересны, но не для нас.

Проблемы с возрастом я уже обсуждал. Не буду говорить про образование и его упорядочение (как-нибудь и его надо будет обсудить), про уровень мат. положения и доходов, … — все эти факторы заслуживают пристального внимания, поскольку часто запрашиваются.

Обсудим «методологию» укрупнения. Обычно к нему нас толкает малое число случаев для той или иной комбинации факторов, а также стремление получить «обозримые» результаты. С другой стороны, получаемая группа д.б. однородной. Эти требования противоречивы – чем больше группа, тем больше шансов на её неоднородность. Кстати, это порождает стремление получить группы путем распознавания образов. Дескать, возьмем как можно больше данных, запихнем в комп, запустим прогу, и вот сбылась мечта (кого? — вспомним классика) — классы респондентов. То, что полученная структура неустойчива и рассыпается при переходе к другой выборке, так это ещё когда будет!? А уж «интерпретировать» почти все обучены, про герменевтику многие слышали, а кто-то кое-где там порой что-то и понимает.

Я твердо полагаю, что любое исследование должно начинаться с генерирования «модели» теоретиком и только потом – её проверки экспериментатором. Когда же, за неимением теоретика, его роль начинает исполнять практик — хорошего не жди. Бегун не поднимет штангу, штангист не станет прыгать. Suum cuique…

2.3.Способы укрупнения шкалы возраста

Уже само появление позиции «до 18 лет» есть укрупнение исходной переменной. Аналогичное укрупнение имеется и на противоположном конце — «за 60». В оба этих уровня может попасть довольно много респондентов. Например, в используемых данных таких «до 18 лет» 8,4%, что не так уж и мало. Да вообще это мода данного распределения.

Вначале применим «физический» подход, полагая Возраст переменной «бесчеловечной» и не интересуясь, сколько же человек попадает в тот или иной интервал. Как это делают при рассмотрении проблем демографии, страхования и т.п.

После очистки получено 30 значений возрастов. Я произвел укрупнение по 3, 4, 5 и 6. Кроме 4-ки, все остальные удачно укладываются «нацело» в 30-уровневый интервал.

Для сравнения с «равномерной» шкалой были рассмотрены ещё три способа укрупнения:

  • с нарастающей длиной интервалов;
  • диапазоны, используемые на сайте Глас Рунета (…);
  • диапазоны, полученные при квартильном разбиении респондентов по переменной Возраст.

Получаемые факторы-шкалы я буду рассматривать как порядковые. Поэтому в качестве меры связи, причем направленной, я выбрал d Сомерса. Не думаю, что выбор другой меры (например, гаммы или тау Кендалла) привел бы к принципиально иным выводам. Ведь предметом данного исследования является, как уже говорилось, принципиальная возможность «ломки значимости», её степень и характер в зависимости от способа укрупнения.

3. Сдвиг начала диапазонов

3.1. Частоты

Для упрощения анализа влияния сдвига начала диапазонов было выбрано укрупнение, получаемое объединением трех соседних значений возраста (фактор Возраст 3 (0)). Остальные два варианта получены «отщеплением» от первого участка сначала одного значения возраста (17 лет и меньше), затем двух (до 18), которые и образовывали первый диапазон. Эти факторы названы Возраст 3 (1) и Возраст 3 (2) соответственно (см. гистограммы).

Ввиду малости частот в конце шкалы и для сохранения общего числа диапазонов, равного 10, в последний диапазон пришлось включать соответственно 3, 4 и 5 значений возраста.

Таблица частот (и гистограмма):

Степень изменчивости полученных распределений я оценил через их вариацию — отношение среднего абсолютного отклонения (САО) частот для данного диапазона к их среднему значению. В последней колонке приведены ранги по убыванию. Естественно, что наибольшие изменения (22%) происходят на концах шкалы. В остальных диапазонах изменения не превышают 10%. Около «вершины» изменение, естественно, минимально (меньше 2%).

3.2. Пол

Проверим, как влияет сдвиг начал диапазонов на распределение по полу:

Здесь приведены две меры связи – d Сомерса (при рассмотрении факторов как порядковых величин) и V Крамера (как номинальных). Для контроля приведены и соответствующие характеристики для «базовой» переменной Возраст.
Конечно, величина связи мала, и её значимость обусловлена только величиной выборки. Но даже и тут можно получить, как видим, незначимые различия. Отметим неплохую согласованность обеих мер при переходе к другому фактору. Но главное, что следует отметить:

    при сдвиге начала диапазонов значимость исследуемых различий может меняться

Мера V Крамера, пригодная только для номинальных переменных, мною приведена как свидетельство того, что подобные проблемы, связанные с укрупнением диапазонов, существуют и для качественных переменных.

3.3. Образование

Поскольку этот фактор тоже подвергался укрупнению, мы имеем хорошую возможность проверить «взаимодействие» двух укрупнений.
Не стану приводить таблицу и морочить голову малоинтересными числовыми значениями, все хорошо видно на диаграмме. Отмечу только, что значимость всех полученных связей (d Сомерса) запредельна — самая «плохая» равна 8,5E-34.

Удивительного тут мало — образование по сути своей тесно связано с возрастом. Отметим, что фактор Уровень образования (3 уровня) приводит к чуть большей связи с возрастом, а вот 2-уровневый фактор Наличие высшего эту связь снижает.
Но не стоит заблуждаться по поводу «тенденции» к росту величины связи при сдвиге начала диапазонов, например, для фактора Образование. Тут явный артефакт, обусловленный спецификой именно первого диапазона.
Не очень удивляет и гендерное различие величины связи, но оно не значимо. Это хорошо видно, если вывести величины связи и их 95% доверительные интервалы (например, для фактора Наличие высшего образования). Поскольку все доверительные интервалы перекрываются, то различия незначимы. Но изменение величины связи довольно велико:
Несколькими процентами можно было бы и пренебречь, а вот десяток процентов уже стоит и принять во внимание.

3.4. Материальное положение

Укрупнение исходного фактора привело в данном случае к росту, хоть и незначительному, величины связи (d Сомерса), что хорошо видно на диаграмме. При этом средний прирост составил 6% для всей выборки, для женщин 11%, мужчин 9%. И значимость связи опять-таки обусловлена лишь величиной выборки.

Отметим весьма стабильное поведение фактора Мат. положение по отношению к гендерным различиям. Между группами женщин и мужчин имеются явные, хотя и незначимые различия. Величина связи для мужчин в 2–2,5 раза превышает величину связи для женщин, причем для обоих способов укрупнения фактора Материальное положение. Следовательно, на данном факторе сдвиг начала отсчета возраста не сказывается.

3.5. Показатели

Забудем пока о гендерных различиях и и рассмотрим респондентов как «бесполых». Критерий Ливинэ однородности дисперсий показывает, что, в зависимости от выбора начала диапазонов, для различных значений шкалы возраста дисперсии показателя могут отличаться, причем эти различия м.б. как незначимыми, так и суперзначимыми. Для 4-х показателей из 9 (почти половины!) значимость меняется, причем значительно. Особенно выделяется показатель Вызов,  Стабильность мж. Имей мы в «паспортичке» возрасты, начиная с 15 лет, объединили бы их от 15 до 17 в один диапазон, далее по три — и не ведали бы, что при начале с 14 лет все было бы по-другому!

Главное для нас вот что:

показатели по-разному реагируют на изменение начала отсчета диапазонов

Это подтверждается и оценкой наличия значимых различий между значениями показателей для различных значений шкал. 6 из 9 показателей не меняют значимость различий при любом начале диапазонов. Больше всего поражает Служение – от незначимости различий до очень значимых! И опять шкала-фактор Возраст 3 (1) дает наибольшее число изменений! Лидирует он и в числе значимых различий при множественных сравнениях по методу Тамхейна. Наш «любимый» Возраст 3 (1) для одних показателей порождает отличия (Служение), а для других – нивелирует (Менеджмент и Предпринимательство).

Выбор начала шкалы сказывается и при более сложной модели, включающей взаимодействие факторов. Фактор Пол для 3-х показателей из 9 испытывает «ломку значимости», пусть и не очень большую – в двух случаях меняется уровень значимости, но в одном (Интегрированный стиль жизни) различия становятся значимыми.

Факторы Возраст 3 (*) тоже хорош: показатель Менеджмент вообще свою зависимость от возраста меняет от очень значимой до полного отсутствия. И ведь учтите – объем выборки большой, результатам полагалось бы быть устойчивыми…

Аналогично ведет себя и взаимодействие факторов — Автономия проявляет то полное его отсутствие, то суперзначимое наличие.

4. Длина диапазонов

4.1. Частоты

В качестве «подопытных» были выбраны диапазоны, которые и определяют шкалу возраста. Все они «стартуют» с начала шкалы возрастов. Первые 4 равноинтервальны, кроме 4-го (из-за некратности 30 и 4). Возраст_7а (получена путем нарастания длин диапазонов) и Глас Рунета — 7-диапазонные шкалы с неравными длинами. Возр. группа получена путем членения возраста по квартилям. Т.е., шкалы у нас – самые разнообразные.
Для наглядности приведу гистограммы:

Распределения различны по форме, и это нам на руку в данном исследовании.

4.2. Пол

Проверим, как влияет шкала на распределение по полу:

Я проверил, насколько значимы отличия в доле женщин (и мужчин, что то же самое) в каждом из получаемых диапазонов от такой доли по всей выборке. Только Возраст_4 и Возраст_6 не имели значимых отличий, в остальных шкалах их было от 1 до 3. В частности, ГласРунета дал весьма значимые отличия, и их было 3 из 7. 3 отличия было и в шкале Возраст_3 (0).

4.3. Образование

Графики величины связи (d Сомерса) для различных шкал возраста и двух вариантов укрупнения самого фактора Образование показывают малое различие между самим фактором Образование и полученным на основе его укрупнения 3-уровневым фактором Уровень образования очень мало и нигде не превышает 3%. Похоже, что фактор Уровень образования очень хорошо заменяет исходный фактор. Думаю, обусловлено это тем, что образование как переменная очень тесно связано с возрастом.

А вот не менее тесно связанный с возрастом фактор Наличие высшего в подавляющем большинстве вариантов приводит к снижению величины связи, причем в среднем на 6%. Причем две шкалы – Возраст_7а и ГласРунета – дают снижение примерно на 10%.

Можно сделать вывод:

фактор Уровень образования вполне хорош для эффективной работы

4.4. Материальное положение

Принципиально нового на диаграмме почти ничего нет – только для шкалы Возраст_6 у мужчин величина связи значимо отличается от нуля. И это при всем том, что женщин в выборке в 3 раза больше. Общий вывод для данного фактора таков: для рассмотренных способов укрупнения

выбор шкалы возраста не сказывается на роли фактора Материальное положение

4.5. Показатели

Конечно, выбор шкалы возраста сказывается на однородности дисперсий (критерий Ливинэ). Максимальное значение К в данной ситуации равно 4. Видно, что показатель Автономия «весьма склонен» к изменению значимости, причем от полной незначимости различий до очень значимой. Предпринимательство тоже, хоть и имеет всегда значимые различия, но зато меняет их значимость в широких пределах — от значимых до суперзначимых. Три показателя всегда имеют малоразличающиеся дисперсии, а остальные 4 проявляют значимые различия только при некоторых шкалах.

Вероятности того, что наблюдаемые различия между значениями показателя для различных значений фактора (т.е., «деления» шкалы возраста) носят случайный характер (вероятность ошибки 1-го рода) тоже весьма зависит от шкалы возраста. Здесь только три показателя – Стабильность мж, Вызов и Интегр. стиль жизни – стабильны в этом отношении. Хуже всего дело обстоит с Менеджментом и Служением — они «скачут» от полной незначимости различий до суперзначимой. И Предпринимательство тоже неслабо меняет эту значимость. Профкомпетентность начинает проявлять суперзначимость при любом укрупнении возраста.

В общем — полный кошмар… Возраст – ну что в нем особенного в как таковом!? И вдруг такая неустойчивость результатов по отношению к совершенно «невинным» преобразованиям этого «простейшего» фактора…

Общая линейная модель при исследовании взаимодействия фактора Пол и различных шкал для каждого из показателей показывает, что Автономия и тут «не подвела» — от полного отсутствия взаимодействия до суперзначимости! И Предпринимательство не отстало от неё. И даже индифферентный, в общем-то, Вызов тоже отметился…

5. Возрастная «динамика» показателей и пол

Возраст и пол — два фактора, которые обычно запрашиваются при любом опросе. Поэтому рассмотрим влияние различных шкал времени на «временные зависимости» (сиречь «динамику») показателей и их гендерные отличия.

Поскольку меня интересуют не сами статистики, а изменение их значимостей, то для обоснованности выводов надо выбрать единую меру. Ввиду порядкового характера получаемых шкал времени, я выбрал направленную меру связи d Сомерса.

Были вычислены меры связи (и их значимость) каждого показателя со всеми 10-ю шкалами возраста как для выборки в целом, так и для каждого пола отдельно (см. таблицу). В ней много чисел, но все понятно. В типичном примере такой «динамики»: видно, что величина связи для женщин настолько мала, что все её отличия от нуля незначимы, несмотря на большой объем женской выборки. А вот у мужчин значимость связи меняется от незначимой до очень значимой, в зависимости от шкалы, естественно.

Вычислено среднее значение мер связи по шкалам и их стандартное отклонение. Как видим, все значения оказались вполне согласованными. Для двух показателей – Вызов и Предпринимательство – направление связи противоположно, причем это имеет место для всех шкал. «Подвела» только Автономия — для мужчин связь между нею и возрастом настолько мала, что для некоторых шкал даже меняет знак (но все незначимо).

Рассматривая показатели как интервальные переменные, приведем результаты и для другой меры связи — корреляционного отношения эта (см. таблицу).

Итак, меры связи показателей с возрастом слабо зависят от выбора шкалы возраста, но их значимость все же может меняться в широких пределах. Это уж зависит от показателя – некоторые из них практически не меняют значимость связи (и, соответственно, свою величину) со сменой шкалы, другие меняют. Причем гендерные различия тут не просматриваются.

6. Выводы

Конечно, вся конкретика данного исследования опирается на одну выборку. И полученные выводы могут не иметь места при других способах укрупнения возраста и/или других факторах и переменных. НО, по закону Мэрфи:

если какая-нибудь неприятность может произойти, она случается

Вот краткий перечень таких неприятностей, которые могут случиться при использовании различных шкал возраста:

  • на величину связи некоторой переменной с переменной Возраст и её значимость существенно влияет выбор шкалы;
  • важным может оказаться любой параметр шкалы – число диапазонов, их длина и/или начало;
  • переменные (факторы) различаются по своей «реакции» на шкалу;
  • для некоторых показателей, в зависимости от шкалы, может как появиться, так и исчезнуть взаимодействие факторов.

Господи, да откуда ж мне знать-то, что все так зависит от того, начну я регистрировать возраст с 14 или 15 лет!? Ну, грубо ответим так – а подумать слабо? Вот и получается ужасающая «неустойчивость» получаемых результатов. Они весьма чувствительны не только к выполнению условий типа нормальности и т.п. статистических страстей. Сильно сказывается, как видим, и организация даже таких простых факторов как возраст.

Итак:

  • если не проведено исследование получаемых результатов на «устойчивость» по отношению к различным способам укрупнения шкал, то получаемые выводы чаще всего являются необоснованными, а наблюдаемые «закономерности» – чистой воды артефактами;
  • вывод о наличии той или иной зависимости определяется не только самими данными, но и способом их получения и обработки.
  • Dixi.

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход / Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход / Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход / Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход / Изменить )

Connecting to %s

%d такие блоггеры, как: