[МУЗЫКА] [МУЗЫКА]
Уважаемые слушатели,
данный видеоурок посвящен работе в пакете Statistica, а именно,
генерации различных выборок с заданными законами распределения и работе с ними.
Для начала посмотрим, что представляет собой сам пакет.
Когда вы запускаете пакет, первое, что вы видите, это основную рабочую таблицу.
По умолчанию формируется таблица размера 10 x 10,
то есть десять строк и десять столбцов.
Как правило, все выборки, которые мы будем импортировать в пакет Statistica и которые
будем далее обрабатывать инструментами пакета, располагаются по столбцам.
Соответственно, в данном случае предполагается, что у нас в данной
таблице может быть размещено десять выборок по десять наблюдений каждая.
Если вы импортируете данные из внешнего файла, существует несколько
способов это сделать: либо можно перенести их через буфер обмена, скопировав данные,
например, из таблицы Excel и вставив их в таблицу пакета Statistica.
Тогда эта таблица будет расширена автоматически до размера той таблицы,
которую вы импортируете.
Либо можно сделать импорт файла.
Но это мы рассмотрим чуть позже.
А сейчас мы посмотрим, как непосредственно в пакете можно сформировать выборку,
подчиняющуюся заданному закону распределения.
Если генерация проходит непосредственно в данном пакете, для начала мы должны
определиться с количеством наблюдений, которые мы хотим сгенерировать.
Десять наблюдений — это не слишком большая выборка,
давайте сгенерируем 100 наблюдений, подчиняющихся различным законам.
Если мы хотим добавить наблюдения в нашу таблицу,
то есть добавить строки в нее, мы должны использовать вот эту функцию,
Cases, работая со строками или с наблюдениями.
В данном случае мы хотим добавить несколько наблюдений.
Для того чтобы получить 100, мне нужно добавить еще 90.
Открывается табличка с добавлением строк.
Мы должны указать, сколько наблюдений мы хотим добавить и после какого
наблюдения мы будем делать эту вставку.
Сейчас таблица у нас абсолютно пустая.
И в какое бы место этой таблицы мы бы ни вставили наше наблюдение,
вид ее от этого не изменится.
Если же вы работаете уже со сформированный таблицей,
в которую у вас внесены какие-то данные, нужно внимательно смотреть за тем, в
какое конкретно место таблицы у вас будет вноситься соответствующие наблюдение.
Допустим, это группа людей, имена которых упорядочены по алфавиту.
Соответственно, если вы хотите добавить нового испытуемого и хотите сохранить
алфавитный порядок, вам нужно следить за тем,
чтобы соответствующая строка попала в нужное место.
Сейчас мы можем не обращать на это внимания.
Мы добавим просто 90 наблюдений после,
например, десятого в конец нашей таблицы.
Нажимаем OK, и, как видите,
у нас добавились соответствующие наблюдения в таблицу.
Можно было поступить проще.
Поскольку исходная таблица была абсолютно пустая,
мы могли сразу создать таблицу нужного размера.
Мы создаем новый файл, это у нас будет таблица,
здесь мы определяем формат этой таблицы, размер.
Пусть переменных будет по-прежнему десять, хотя все мы их сейчас использовать не
будем, а вот количество наблюдений мне нужно указать, равное 100.
Нажимаем OK, и мы также получаем точно такую же таблицу требуемой размерности.
Можем расширить эту таблицу на весь экран, чтобы нам было удобнее с ней работать.
Теперь нам нужно сформировать непосредственно в этой таблице выборку,
подчиняющуюся заданному закону распределения.
В пакете Statistica встроены операции генерации различных распределений.
В частности, мы с вами используем сейчас генерацию равномерного и
генерацию нормального распределения.
В первую переменную я хочу сформировать выборку из 100 наблюдений,
подчиняющуюся равномерному закону.
Нажимаем два раза на имени переменной, открывается окно работы с этой переменной.
Для начала дадим ей какое-то название.
Пусть это будет равномерное распределение, соответственно,
называем его «равномерное».
Дальше, в окне функции нам нужно задать операцию генерации данного распределения.
Если вы уже знаете соответствующую команду,
вы просто можете начать набирать ее с клавиатуры.
Или же можно выбрать, нажав на кнопку «функции» из списка.
Полный список функций представлен в правом окне,
если вы выбираете all functions.
Функция, которая генерирует нам равномерное распределение, это Rnd.
Вот она в нашем списке.
Выбираем эту функцию,
и в нижнем окошке появляется информация о соответствующей операции.
То есть данная функция генерирует случайные величины в интервале от 0 до x,
где x необходимо указать в скобочках.
Аналогичная функция — это функция Uniform.
Используем данную операцию и сгенерируем равномерно распределенную
выборку в интервале от 0 до 1, то есть мы укажем в скобочках значение 1.
Если мы хотим сгенерировать, например,
выборку в интервале от −1 до +2, то есть в интервале длины 3,
мы сначала генерируем выборку в интервале от 0 до 3, а потом сдвигаем ее на 1.
Но мы не будем сейчас выполнять эти лишние действия,
сделаем обычную стандартную выборку в интервале от 0 до 1.
Выбираем заданную функцию, она у нас появляется здесь.
Обратите внимание, что в начале строки должно стоять равенство,
дальше имя функции, а в скобочках указываем ее основной аргумент.
Нажимаем OK, появляется информация о том,
что наше выражение в порядке, и продолжаем работу.
Вот теперь в первом столбце у нас появилась выборка,
которую мы назвали равномерной, и предполагаем,
что она должна подчиняться равномерному распределению.
Для того чтобы убедиться в этом, давайте построим гистограмму.
Для этого заходим в пункт «Графика», «Гистограммы».
Появляется стандартное окно,
в котором первым делом мы должны указать переменную, с которой будем работать.
Нажимаем на кнопку variables и выбираем «равномерное».
OK.
В принципе, все остальные настройки можно оставить по умолчанию.
Как правило, какой бы анализ в пакете Statistica вы ни проводили,
у вас будут два основных окна: это быстрый анализ с основными
установками по умолчанию, и также вы можете зайти в расширенный анализ,
где более тонко можете настроить основные функции.
Пока мы не будем этого делать, мы оставим установки по умолчанию и просто нажмем OK.
Перед нами появляется гистограмма для данной выборки.
При этом пакет Statistica автоматически накладывает
на график гистограммы гауссовский колокольчик.
Дело в том, что предположение о нормальности распределения
является основной многих статистических методов, поэтому очень часто нам
нужно убедиться в том, что выборка подчиняется нормальному закону.
Ну, в данном случае мы работаем с равномерным распределением.
Понятно, что ни о какой нормальности в данном случае и речи быть не может,
поэтому нам нет смысла накладывать этот график.
Мы можем просто убрать линию нормального распределения с гистограммы.
Для этого мы нажимаем правую кнопку мышки на графике, выбираем последнюю
строку Fitting (подгонка или тип подгона) и здесь убираем линию.
Снимаем галочку.
Нажимаем OK, линия уходит с графика.
[МУЗЫКА] [МУЗЫКА]
[МУЗЫКА]