[МУЗЫКА] [МУЗЫКА] [МУЗЫКА] Прежде чем переходить к рассмотрению конкретных методов и инструментов исследования взаимосвязей между признаками, необходимо обсудить еще одну важную мелочь. Мелочь эта касается типа шкалы, которой измерены признаки, взаимосвязь между которыми нас интересует. Те из вас, кто смотрели наш предыдущий курс, возможно, помнят картинку, которая сейчас видна на экране. Эта картинка показывает три основных типы шкал, которые мы обсуждали. Три основные типа шкал делятся у нас на номинальные, порядковые и интервальные. Номинальная — это базовый тип шкалы, которая содержат у нас информацию о принадлежности объектов к группам и больше ни о чем. Порядковая шкала добавляет к этому отношение порядка, поэтому круг больше, что эта информация плюс еще что-то. Интервальная шкала содержит плюс к этим двум еще и информацию о расстоянии между значениями. Первые две шкалы, поскольку расстояния там не определены, называются неметрическими, и арифметические операции вроде расчета средних дисперсий и всего такого к ним не применимы. Интервальные шкалы — это уже шкалы метрические, и с ними мы можем делать все, что хотим: считать средние, минимумы и максимумы, преобразовывать как угодно и так далее. Например, если мы исследуем разные типы поселений и меряем их, допустим, разными типами шкал, если тип поселения у нас измерен так, как, допустим, вот в массиве RLMS, к которому мы время от времени обращаемся. Там есть переменная «статус», которая отражает четыре типа поселений: «областной центр», то есть большой город, «город», «поселок городского типа» и «село». То есть это порядковая шкала, мы понимаем, что эти объекты упорядочены у нас примерно по количеству людей, которые в них живут, но принципиален не размер этого поселения, а принципиальна какая-то культурная разница между ними, то есть мы знаем разницу между городским и сельским образом жизни, мы можем себе представить разницу между просто городом или моногородом и большим городом. То есть эти характеристики отражают разные качества населенных пунктов. Но если у нас тип поселений измерен, например, численностью людей, которые в нем живут, то здесь мы можем говорить точно совершенно, сколько человек живет здесь или там, сравнивать средние значения, минимальные и максимальные, говорить, что областные центры у нас больше городов, но при этом культурные особенности этих самых городов остаются у нас за скобками. И в том, и в другом подходе есть плюсы. Когда мы будем исследовать взаимосвязи, это будет нас ограничивать, запомним это сейчас. Еще одна важная вещь — это отношения порядка. Неважно, метрическая шкала у нас или нет. Если у нас отношения порядка определены, то есть мы знаем, можем рассуждать о значениях этого признака в терминах «больше» — «меньше», тогда мы можем измерять оба типа взаимосвязей, как линейные, так и нелинейные. Но если у нас отношения порядка не заданы хотя бы в одном признаке, допустим, одна переменная у нас номинальная, а другая у нас интервальная или порядковая, то здесь мы уже не можем измерять линейную взаимосвязь, что и понятно: если отношения порядка не определены, то как мы можем рассуждать в терминах «больше» — «меньше»? К примеру, если у нас работают сотрудники в организации, некоторые из них больше любят вставать по утрам, некоторые больше любят позже вставать и позже ложиться, — типично одних называют «жаворонками», других «совами», — и вот у нас есть и те, и другие. И, допустим, у нас есть какой-то континуум, где на одном полюсе находятся абсолютные «жаворонки»: рано встают, рано ложатся, продуктивны утром, на другом полюсе находятся абсолютные «совы»: поздно ложатся, поздно встают и лучше работают вечером, ну и есть какие-то промежуточные варианты, то есть вот такая вот шкала, которая показывает какую-то вариативность «жаворонкизма» и «совизма», если я могу так сказать. И мы, например, смотрим, оцениваем продуктивность этих людей в разное время суток и видим, что «жаворонки» у нас более продуктивны по утрам, чем более человек «сова», тем более они продуктивны вечерами, и получается вот какая-то такая картинка, когда по мере увеличения «совизма», как говорится, увеличивается вечерняя продуктивность человека. Все понятно, линейная взаимосвязь, в общем-то мы можем ее объяснить. Но что сделать, если в эту систему, вот в этот вот континуум у нас добавляется качественно другой элемент, допустим, вечно уставший «пингвин», который не любит вставать в принципе ни утром, ни вечером, и продуктивность его предсказывается, например, не временем суток, а дедлайнами? То есть это человек, который находится совсем в другой шкале измерения и никак не ложится в наш красивый континуум, который мы рассматривали в первом примере. В таком случае мы никак не можем исследовать линейную взаимосвязь, но другие способы понять, связан ли у нас тип сотрудника с типом продуктивности, есть. И о таких способах мы поговорим далее в этом курсе во второй половине модуля. Еще одна важная вещь — это то, что вне зависимости от наличия отношения и порядка метрическая шкала и неметрическая также определяют то, какими методами мы можем пользоваться, то есть порядковая шкала, у которой есть отношения порядка, но она неметрическая, или интервальная, в которой есть отношения порядка, и она метрическая, также нуждаются в разных инструментах, для того чтобы понять связи между ними, и об этом мы тоже позднее поговорим. Кроме того, упорядоченные признаки у нас могут быть связаны, но не линейно. Самый такой очевидный пример — это взаимосвязь между возрастом и доходом, например, которые описываются не линией, а квадратичной кривой. До какого-то возраста доходы у нас растут по мере того, как человек квалифицируется, профессионализируется и развивается, и потом после какого-то возраста, к сожалению, доходы начинают падать тоже по разным понятным причинам. Связаны эти признаки? Конечно, связаны. Но линейной взаимосвязи между ними не будет. Для того чтобы исследовать такие типы взаимосвязей, тоже существуют другие меры, нелинейные, и их мы тоже в этом курсе далее будем обсуждать. Зафиксируем сейчас вот эти вот вещи: тип шкалы имеет значение, в зависимости от того, какая шкала, мы можем применять разные методы, и если у нас признаки упорядочены, то у нас возможны как линейные, так и нелинейные варианты. Сейчас вы на экране видите таблицу, которая обобщает вот эти вот наши ограничения: что мы можем делать в зависимости от того, какими шкалами измерены наши признаки. Та часть таблицы, которую вы видите на экране сейчас, это вот тот полюс, в котором признаки у нас упорядочены. То есть это тот полюс, где мы можем мерять как линейные, так и нелинейные связи. Здесь у нас есть метрические и неметрические шкалы. То есть у нас есть разные инструменты измерения линейных форм связи. В этой части мы можем мерять оба типа взаимосвязи, как линейные, так и нелинейные. Но вот та часть таблицы, которая сейчас показывается на экране, здесь или оба признака, или хотя бы один, измерены номинальной шкалой. Это значит, что отношения порядка у нас отсутствуют, и это означает, что линейные взаимосвязи мы исследовать не можем. Что делать в таком случае, и какие формы взаимосвязи мы можем исследовать, если у нас нет линий и если у нас нет отношений порядка, об этом мы поговорим во второй половине модуля. Сейчас, зафиксировав это, мы можем переходить к рассмотрению конкретных мер и начнем с коэффициента корреляции, который позволяет нам исследовать линейную взаимосвязь между двумя метрическими признаками.