В этом видео мы поговорим о том, как можно на графике представлять элементарные какие-то статистические анализы, которые, конечно же, иногда нужно визуализировать тоже. Так вот в системе ggplot, помимо функций семействa geom, есть еще и семейство функции stat. Эти функции позволяют применить к данным те или иные методы статистической обработки, которые сразу же реализуются в виде графиков. На самом деле геомы и статы обычно взаимосвязаны, так как многие геомы по умолчанию используют определённые статы. Предположим, мы решили выразить как изменится вес ребенка в зависимости от возраста матери. И вот для визуализации этой зависимости мы решили вычислить средний вес ребенка у матери каждой возрастной группы. И вот, используя функцию stat_summary, мы указываем, что для переменных, которые у нас указаны в базовом слое, это по оси X идет возраст - age, по оси Y идет вес младенца и матерей с разным статусом в отношении курения будем изображать данные, соответствующие матерям с помощью разных цветов. Так вот с помощью функции stat_summary мы будем прикладывать к тем данным, которые будут откладываться по оси Y в функцию mean, то бишь среднюю, а изображать все это будем в виде линий, то есть мы здесь указываем geom, который будет называться line. И далее, активировав этот график, мы увидим, что теперь появляется вот такая ломанная линия, которая отражает средний вес ребенка у матерей разного возраста. Конечно же, такой способ визуализации не верный, его нельзя применять по большому счету, потому что возраст у нас достаточно сложная величина, которой не стоит изображать в виде такого непрерывного, какой-то непрерывной величины, которая визуализируется с помощью графика. Гораздо более правильный ход - визуализация иным образом с помощью stat_smooth. Этот stat позволяет построить простенькие линии регрессии. О них мы будем специально говорить, поэтому указав в качестве параметра метод значение lm, что означает linear modul, мы увидим с вами две линии регрессий, которые соответствуют двум группам матерей в отношении курения - курящие и некурящие, и эти линии регрессий будут показывать как связаны возраст матери с весом ребенка. Вот это будет гораздо более правильный способ визуализации такой связи. Вот о нем мы будем говорить очень подробно в следующих частях нашего курса. Ну и чуть ли не самое первое, что люди, изучающие систему ggplot, спрашивают это как отложить ошибки в виде усов. Это действительно камень преткновения для многих исследователей, которые хотят такие усы нарисовать. Делается это все очень просто. Опять же, предположим, мы решили изобразить, как будет выглядеть среднее значение веса младенцев у курящих и некурящих матерей. Как мы это сделаем? Мы возьмем базовый слой, в котором, опять же, в качестве источника данных будут значения находящиеся в DataFrame baby, по оси X будем откладывать переменную, которое закодировано в переменной smoke, то есть, курящие-некурящие, а по оси Y будем откладывать то, что находится в переменной bwt, это весь младенца. Далее мы прикладываем stat_summary и к переменным будут откладываться по оси Y, будет применена функция mean. Все это будет отражено с помощью geom-а, bar, это столбцы. Эти столбцы будут залиты серым цветом, а обводка, которая регулируется параметром colour, это будет черная линия. Вот все, что мы здесь сделали. А далее рисуем усы, отражающие стандартные ошибки. Это, опять же, делается с помощью stat_summary. Здесь мы прикладываем к данным fun.data, это означает, что мы перекладываем определенную функцию к данным, функцию, которую называется mean_se. Это функция, которая будет автоматически рассчитывать значение стандартной ошибки. А в качестве geom-а будем использовать специализированный geom, который называется errorbar. И ширину вот этого горизонтального отрезка, который будет на этих усах, мы отрегулируем с помощью параметра width. И в итоге мы видим, что получаются прекрасные столбчатая диаграмма, в которое в качестве усов отложены стандартные ошибки, что и требовалось сделать.