[MÚSICA] [MÚSICA] En este video vamos a ver la primera parte de la fase de tratamiento de datos. Nos vamos a centrar en la preparación. En este momento de la metodología ya tenemos el problema de negocio, ya comprendemos los datos y ya tenemos una plataforma tecnológica preparada para trabajar. El objetivo de este vídeo es capturar, almacenar y preparar la información para que nos sirva para el modelado de datos. Las etapas que vamos a ver son las siguientes, si tiene registro, metadatado, exploración y análisis y calidad del dato y limpieza. Esta fase es una de las más críticas porque es la que requiere más trabajo. Normalmente se estima que el 80% del tiempo que emplea un científico de datos trabajando con información es realizando el tratamiento de datos. Así que es muy importante que tengamos claro las distintas etapas. Comenzamos indicando el por qué, ¿por qué se dedica tanto tiempo al tratamiento de información? La información estructurada está en formato de tablas y es la que normalmente solemos trabajar pero actualmente el 80% de la información viene desestructurada como hemos comentado, puede ser vídeo, puede ser texto, puede ser voz y esa información además no está relacionada y normalmente la calidad no suele ser máxima por lo que requerimos un trabajo y un esfuerzo muy grande en ordenar toda esa información, darle un formato adecuado para que esté lista para los algoritmos para conseguir modelos. La primera etapa es la de adquisición y registro. Una vez que tenemos identificada las distintas fuentes de información, fuentes internas, fuentes externas, open data, lo que nos tenemos que plantear es cómo vamos a capturar esa información. Hay muchas herramientas en función de la naturaleza de los datos que son estructurados o no estructurados y en función de cómo queramos hacer esa planificación de captura. Podemos hacer un proceso Batch donde vayamos capturando todos los datos en un momento determinado del día o de la semana o podemos hacer un proceso en real time, near real time, que cada poco tiempo vaya ingestando la información o directamente como se genere. En función de esa planificación y esa naturaleza pues tenemos que utilizar una o varias herramientas de ingesta o APIs, conectores, por scrapping, etcétera y además tendremos que incluir una herramienta de registro. Es importante que quede siempre claro la información, cuándo se ha capturado, donde se ha capturado, cómo se ha capturado, qué se ha capturado, antes de incluirla en nuestro almacén de datos, ya sea en ficheros, en base de datos estructuradas, o SQL, o va a ser datos no estructuradas o semi estructuradas No SQL. La siguiente etapa es el metadatado de los datos. Una vez que tenemos la información en el almacén, toda esa información que tenemos sobre esos datos, cuál es la fuente de información, cuando se ha procesado, donde se guarda. Bueno, pues todo eso es el metadata. El metadata son los datos de los datos, que hace referencia a la fecha de carga, a la fuente de origen del proceso de carga, al tamaño, al autor, a la organización y toda aquélla información que queremos o queramos que esté asociada a la tabla. Esto es muy importante y es fundamental para tener un gobierno del dato adecuado. Para eso pues necesitamos una herramienta de registro que nos permita guardar toda esta información y asociarla a cada una de las tablas, ficheros o base de datos que tengamos para que esto si se tiene que consultar en el futuro, esté disponible. La siguiente etapa es el formateo y construcción de variables. Una vez que la información ya la tenemos alojada en nuestro almacén de datos, lo primero que hay que plantearse es, ¿tiene el formato adecuado? Es decir, ¿los números están guardados como números? Cuando tenemos algo guardado como número, ¿realmente es un número? Por ejemplo, si yo tengo el número de hijos, 1, 2, 3, 4, podemos tener claro que es un número pero si yo estoy pensando en los códigos postales o en las provincias y que son las provincias y veo el número 30, a lo mejor no hace referencia al número que se tenga que sumar sino realmente hace referencia a una provincia. Entonces es importante que tengamos un formato. Esto es especialmente crítico con las fechas. Normalmente las fechas cada una puede tener un formato distinto, hay que trabajar muy bien para que la herramienta con la que estemos trabajando o el software con el que estemos trabajando, interprete estas fechas en forma adecuada. También en esta fase se hace construcción de variable sencilla. Por ejemplo, podemos crear, a partir de una fecha podemos crear que día de la semana es o en qué mes estamos o cual es el año e incluso podemos hacer transformaciones más complejas utilizando funciones matemáticas o construcciones a partir de teoremas, como el teorema de [INAUDIBLE] que nos permita construir variables que puedan ayudarnos mejor en la generación de modelos analíticos. Posteriormente lo que se hace es una exploración y análisis de variables. Para cada una de las variables y las tablas podemos hacer una serie de agregaciones, una serie de resúmenes utilizando gráficos o estadísticos, visualizando la información que tenemos. ¿Para qué? Para poder comprender lo que realmente hay en los datos, intentar identificar problemas que puedan surgir, para los nulos, atípicos, etcétera. El siguiente paso una vez identificadas las cosas que puedan tener los datos es proceder a su tratamiento y limpieza, esta es la fase de calidad del dato y limpieza. Tenemos que identificar todos esos valores vacíos, esos valores incoherentes, los valores atípicos, los outliers, los errores que puedan tener los datos y ver cómo los vamos a tratar, ¿qué queremos hacer? Aquí hay que decidir que vamos a hacer con cada uno de esos problemas que surgen. Cuando encontremos campos vacíos, los vamos a imputar, vamos a borrar los registros, ¿qué vamos a hacer? Cuando tengamos valores incoherentes, ¿los vamos a poner en cuarentena? ¿Vamos a crear variables adicionales para controlar estos valores incoherentes? Bueno así con todas las problemáticas que vayan surgiendo. Es muy importante tener claro las decisiones que se tomen aquí, ¿por qué? Porque a la hora después de poner el modelo en producción tendremos que tener en cuenta todas las decisiones tomadas en este punto. Los retos de esta fase son primero, evaluar la calidad de los datos. Sin ninguna duda es uno de los grandes problemas que tenemos siempre, ¿cuál es la calidad del dato que tengo? Por un lado hablamos de los nulos, hablamos de problemas de errores atípicos, pero también podemos hablar de, si la calidad no del dato, sino de la información subyacente es correcta o no. Si la edad de una persona pone que son 33, ¿es realmente 33 años los que tiene esa persona o no? Es importante tener claro que podemos tener incluso problemas de calidad de información. Después tenemos que plantearnos cómo vamos a tratar toda esa información estructurada. No solo en mismos procesos. Si se trata de vídeos o si se trata de textos o si se trata de imágenes. También es importante fijar los criterios de tratamiento y tienen que ser homogéneos a lo largo de toda la metodología. Si el tratamiento de los vacíos se hace de una determinada forma tenemos que hacerlo con todos los vacíos de la misma manera o es conveniente hacerlo de la misma manera y después lo tenemos que tener también en cuenta cuando vayamos a poner el modelo en producción en la fase de despliegue. Y también tenemos que crear una política de matadatado que además tendrá que ser compatible a la política de matadatado que tenga toda la compañía, para que toda la información, toda la fuente de información estén igualmente identificada. Todos los procesos estén claros y organizados. Esta fase repito, es una de las más críticas y por lo tanto aunque, no es una de las más glabulosas, sí que tendremos que dedicarle el tiempo adecuado. [MÚSICA] [MÚSICA]