Шаг 4. Сбор данных (измерения)
На следующем шаге анализа проводится сбор данных и измерения выбранных переменных. Измерение – это определение значения переменной; массив данных – это набор таких значений. Существуют разные способы измерения переменных (см. вставку «Способы измерения переменных»). Сформулированная проблема сначала представляется в виде набора переменных в процессе моделирования, а затем приобретает вид массива данных в результате измерения.
Способы измерения данных
Известны три основных метода измерения данных.
Двоичные переменные. Такие переменные имеют только два значения, и для целей статистического анализа лучше определять их как наличие или отсутствие определенного фактора со значениями 0 и 1. В качестве примера можно привести данные о поле респондентов, когда возможен выбор двух значений: женщина или мужчина (в первом случае переменная приобретает значение 1, во втором – 0), или о наличии гражданства США (либо гражданин, либо нет).
Категориальные (также называемые номинальными) переменные. В этом случае переменная может приобретать одно из нескольких заранее определенных значений. Так измеряются цвет глаз, вкус мороженого, штат или район проживания. Поскольку перевод таких значений в количественную форму представляет определенные сложности, существует отдельное направление статистики, занимающееся анализом категориальных данных.
Ординальные переменные. Эти переменные имеют упорядоченные количественные значения, причем чем оно больше, тем сильнее выражен соответствующий признак. Таким образом, у этих переменных разница между 1 и 2 – это не то же самое, что разница между 5 и 6. Типичный пример ординальных переменных – шкала Ликерта, получившая название в честь автора, социолога Ренсиса Ликерта. Обычно применяется в опросах и включает такие значения, как «полностью согласен», «отчасти согласен», «не могу выразить отношение», «отчасти не согласен», «не согласен». Несколько ординальных переменных, сведенных вместе, носят название шкалы Ликерта.
Количественные (интервальные и рациональные) переменные. Значения этих переменных выражены числами, обычно в стандартных единицах: вес в фунтах или килограммах, рост в дюймах или сантиметрах. Чем больше значение, тем сильнее выражен соответствующий параметр. Количественные переменные хорошо подходят для традиционных видов статистического анализа, например корреляционного или регрессионного.
Таким образом, массив данных организован с учетом переменных, выбранных на предыдущем шаге.
Если значения нужных вам переменных часто собирает и анализирует кто-то еще (иногда такие факты всплывают во время изучения предыдущих поисков решения), то этот этап будет несложным. Можно просто позаимствовать результаты измерений, полученные вашими предшественниками. Однако в некоторых случаях приходится вести работу самостоятельно. Нужно помнить, что даже субъективные события можно систематически измерять.
4. Сбор данных
Предположим, что вам нужно собрать данные по волнующей в наше время многих (если судить по телевизионной рекламе) проблеме мужской потенции. Оказывается, что вам повезло: на эту тему уже проводился сбор данных, которые вполне подходят для ваших целей. Однако если бы вы были первопроходцем в этой области, то пришлось бы проводить сбор данных самостоятельно.
В 1990-е годы Р. С. Розен и его коллеги разработали компактный, надежный и простой для изучения критерий потенции, чувствительный к изменениям в состоянии здоровья пациентов в результате лечения[32]. О проблемах с потенцией можно узнать только от самого пациента. Объективных диагностических тестов не существует, и это весьма усложняет жизнь практикующим врачам. Розен и его коллеги определили, что ключевыми переменными для анализа проблемы мужской потенции являются:
• регулярность эрекции
• сила эрекции
• частота возбуждения
• способность к половому акту
• удовлетворение
В их разрезе был организован сбор информации с использованием вопросов, приведенных в табл. 3.1.
Таблица 3.1
Ключевые переменные для диагностирования эректильной дисфункции