Вот опечатка, pclass пропущена буква c.
Отлично.
После этого можно посмотреть описательные статистики — summary набора данных t,
посмотреть описательные статистики по каждой переменной.
Например, можно посмотреть на переменную пол.
Видно, что у нас 466 женщин и 843 мужчины.
Можно посмотреть на переменную возраст.
Средний возраст был примерно 30 лет, максимальный — 80,
а минимальный — это ребенок до 1 года.
После этого необходимо обязательно построить графики,
обязательно смотрите на ваши данные на графиках.
Когда у вас есть зависимая объясняемая качественная переменная,
то, как правило, имеет смысл рассмотреть несколько графиков: график,
где вы пытаетесь ее объяснить с помощью другой качественной переменной и график,
где вы ее пытаетесь объяснить с помощью другой количественной переменной.
Давайте рассмотрим эти несколько типов графиков.
Построим замечательный мозаичный график.
mosaic, дальше рисуем тильдочку и указываем переменные,
несколько качественных переменных от двух до...
разумно, наверное, до трех, но можно и больше.
Возьмем переменные пол, класс пассажира (passenger class)
и выжил/ не выжил (survived) и установим опцию цветовой закраски shade = TRUE.
Смотрим, что у нас...
Я забыл указать набор данных.
Указываем, что данные мы берем из таблички t,
и у нас получается замечательный мозаичный график.
Что на этом графике видно?
На этом графике видно, на самом деле,
соотношение между всеми качественными переменными в нашем наборе данных.
Давайте посмотрим, сначала мы делили нашу выборку по переменной sex — по полу.
Вот мы видим, что женщин существенно меньше, чем мужчин.
Затем всех женщин мы делили на тех, кто ехал в первом классе,
во втором и в третьем.
Видно, что в третьем классе женщин ехало больше, чем во втором и больше,
чем в первом.
А во втором меньше всего ехало женщин.
Если посмотреть на отделение мужчин по классам, то, опять же, видно,
что больше половины мужчин ехало в третьем классе.
И точно так же дальше мужчины и женщины каждого класса делятся на
выживших и не выживших.
Ну, например, если посмотреть на женщин третьего класса, то видно,
что примерно половина из них выжили, а половина из них не выжили.
Если посмотреть на мужчин третьего класса,
то большая часть из них не выжили и меньшая часть из них выжили.
Ежели, например, посмотреть на женщин первого класса,
то из них не выжило очень мало и выжило большинство.
Цветовая закраска соответствует автоматической проверке гипотезы о
независимости признаков.
Соответственно, синие клеточки означают, что в эту
категорию попадает больше наблюдений, чем попадало бы при независимости признаков,
а красные клеточки означают, что в эту категорию попадает меньше наблюдений,
чем попадало бы при независимости признаков.
Построим следующий график,
построим график, который называется «виолончель».
Берем данные из набора t, по горизонтали мы
отложим выжил человек или не выжил,
а по вертикали отложим, например, возраст.
И тип графика укажем — виолончель violin.