[МУЗЫКА] Итак, давайте поговорим теперь о принципах работы с данными, а точнее, о культуре самих данных. О том, как их подбирать, какими они должны быть, как обеспечить их качество. Если мы посмотрим в открытых источниках, то термин «культура данных» в англоязычной своей трактовке имеет некое собирательное значение. И, фактически, этот термин определяет правила работы с данными. Не правила данных, того, какими должны быть данные, а как выстроить эффективную работу с ними. При этом имеются в виду различные совершенно типы данных: и количественные, и документы, и изображения, и так далее и тому подобное. Но здесь, мне кажется принципиальным, все-таки сделать различение этих двух историй. Культура работы с данными и культурные данные. Культура работы — это то, о чем этот англоязычный термин говорит, но это то, какие манипуляции, какие действия мы будем осуществлять по отношению к данным. Но сами данные при этом какие? И это очень важный вопрос, потому что он нас приводит к необходимости оценки качества этих данных, верификации этих данных. Механизмы, как осуществлять верификацию, мы рассмотрим с вами в следующих циклах нашего курса. Но что интересно? При попытке найти синонимы термину «культура данных» мы можем натолкнуться, например, на понятие информационная культура. И в какой-то части информационной культуры возникает этот фрагмент, когда информационная культура включает культуру работы с данными. Посмотрите. Что такое информационная культура? Это часть общей культуры, ориентированная на информационное обеспечение человеческой деятельности и организацию информационных процессов, эффективность создания, сбора, хранения, обработки, представления, использования информации, то есть весь этот процесс использования данных, работы с данными, манипуляции с данными. Но нигде в этом кусочке вы не увидите позиции, связанные с оценкой качества данных или с верификацией данных. Но при этом это принципиально важный момент: как данные отбирать, как данные получать, как оценить качество данных. И важными принципами умной аналитики являются следующие характеристики данных: данные, используемые в умной аналитике, должны быть актуальными. Это должны быть самые свежие и самые полезные данные. И в качестве примера можно привести международное исследование ICILS, посвященное оценке информационных, компьютерных, IT-компетенций школьников и педагогов. Первый срез этого исследования проводился в 2012 году, следующий в 2018 году. Российская Федерация в 2018 году не участвовала в этом исследовании, у нас нет данных по 2018 году. Можем ли мы сегодня, анализируя состояние IT-образования в школах Российской Федерации, обращаться к результатам этого исследования? Непростой вопрос. Я бы говорила, что нет. Потому что ситуация за прошедшие семь лет изменилась очень серьезно. Но ответ всегда экспертный на этот вопрос «Можем ли мы использовать такие старые данные?» — это всегда экспертный ответ, потому что я, как эксперт, определяю и говорю: «Ой, нет. За семь лет произошло столько изменений. Эти данные использовать нельзя». В другой ситуации экспертная оценка могла бы звучать так: «Какие-то семь лет прошло, в общем-то ничего не изменилось. Система образования консервативна, поэтому мы вполне можем использовать эти данные». Но экспертное отношение, анализ этих данных — это действие обязательное, прежде чем выйти на их использование. Следующий принцип данных: данные должны быть надежными. Мы с вами говорили о том, что данные должны быть качественными. У социологов, у аналитиков, у тех, кто с мат. статистикой работает, у них есть такой термин, он в разной степени жесткости звучит, но смысл его в том, что мусор на входе, приводит к мусору на выходе. Если мы будем использовать для аналитики ненадежные, некачественные данные, то и наши аналитические выводы будут ненадежными и некачественными. А из чего складывается надежность? Из того, какие источники использованы для получения данных, с помощью какого инструментария эти данные получены, насколько надежен, насколько валиден этот инструментарий и какого качества эксперты привлечены к получению данных, к обработке данных, к интерпретации данных, насколько они добросовестны в своей работе? Следующий принцип, характеризующий данные, — это принцип полноты информации. Вроде бы, не очень про данные, но на самом деле этот принцип говорит о том, что мы должны взять те данные, которые позволят нам как можно более полно раскрыть эту цепочку. У нас есть цель, мы определили объект и предмет нашего анализа. Мы выделили характеристики, к этим характеристикам подобрали показатели и индикаторы. Эти показатели, индикаторы, эти данные должны как можно более полно описывать наш объект и отвечать на вопрос, поставленный перед аналитической деятельностью. И здесь базовыми основаниями для определения полноты информации является системный подход. Это тоже философская конструкция, которая в курсах философии подробно рассматривается. Но, что нам важно из этого системного подхода помнить? О том, что целое состоит из элементов. И как тогда нам анализировать наш объект? Это раскладывать его на элементы. Все элементы имеют иерархию. Кто-то главнее, кто-то — нет. Они все связаны и взаимодействуют между собой. Аналитика должна вылавливать эти взаимосвязи. Есть вход и выход в этой системе и это выход на контекстные данные, о чем мы подробнее будем с вами разговаривать. Система не работает без внешних связей, без связи с внешним миром, без обратной связи. И система саморегулируется, саморазвивается, самообучается, и это тоже механизмы и инструменты, которые нужно учитывать при подборе данных. Таким образом можно сформулировать, что для полноты информации, данные должны описывать все факты, необходимые нам, про все элементы и связи нашей системы и со всех точек зрения. Про точки зрения есть шикарный совершенно еще из моего детства, из курса школьного черчения пример, который, в общем-то, тоже стал классическим. Я его вам готова показать. Когда мы видим один кружок, ответить на вопрос «Что здесь изображено?» крайне сложно. Мы добавляем вторую проекцию и уже по сумме этих двух проекций практически любой может сказать, что на этом рисунке изображен цилиндр. И последняя характеристика данных, которая нам важна для обеспечения умной аналитики, — это сопоставимость данных. Сравнение, сопоставление — это инструмент анализа. Без сравнения мы не можем дать оценку. Оценка — это всегда продукт сопоставления, а сравнение требует того, чтобы данные были сопоставимы между собой. Можно ли кислое сравнивать с фиолетовым? Очевидно, что нет. И тогда нам с вами нужны факторы сопоставимости. То есть те характеристики, те условия, которые нам обеспечивают сопоставимость данных. И, в первую очередь, речь идет о единой методике получения данных. И в этом отношении: почему международные сравнительные исследования используют очень маленький объем данных статистических о системе образования? Там буквально четыре, пять показателей, если мы возьмем систему ЮНЕСКО, аналитические доклады ЮНЕСКО, по сопоставлениям ОЭСР, то проблема заключается в том, что в каждой стране статистика собирается по своей методологии, по-своему рассчитываются и охваты, и соотношение учитель-ученик, и сами категории определяются по-разному. Сами когорты этих представителей, участников образовательных отношений определяются по-разному. Поэтому сопоставление статистических данных из разных стран очень часто невозможно. Единые источники данных, если мы, например, занимаемся сопоставлением разных регионов внутри одной страны, в нашей многорегиональной, федеративного строения стране, то данные по всем регионам должны быть взяты из одного и того же источника. Мы берем федеральные росстатовские данные, мы только на них будем сравнивать регионы. Взять какие-то данные у одного региона и точно такие же данные у другого региона, мы не можем. Они будут несопоставимы. Либо мы должны оговаривать, что есть такие ограничения. Третий фактор сопоставимости — это единые методы формирования выборки, если речь идет о социологических опросах. Но здесь все опять-таки понятно. А подробности можно посмотреть в курсах по социологии. Но, на что хотелось бы обратить внимание. В последние годы в анализе деятельности образовательных систем очень часто используются опросы удовлетворенности родителей. Но строятся они на разных выборах и это приводит к тому, что по сути дела, строить анализ на этих опросах и сопоставление разных регионов нельзя. Так же, как даже нельзя строить сопоставление между разными школами. Еще один фактор сопоставимости — это единые сроки сбора данных. Если мы будем в одной школе данные собирать в начале учебного года, а в другой — в конце учебного года, то эти данные между собой будут несопоставимы по ряду причин, по ряду изменившихся условий. Даже для подтверждения этой установки мы можем просто взять данные одной и той же школы на начало учебного года и наконец учебного года, и они уже будут расходиться между собой. Если данные не сопоставимы, но сравнивать необходимо, есть такое правило «Если нельзя, но очень надо, то можно». Если нельзя, но очень надо, то можно и здесь. Но тогда важным условием для обеспечения умности аналитики является точное обоснование того, почему это необходимо, почему мы берем такие не совсем сопоставимые данные, и точно указывать степень ошибки. Ее можно рассчитывать математически. Для этого существуют формулы точного расчета степени ошибки данных из разных источников. [МУЗЫКА] [МУЗЫКА]