[MÚSICA] [MÚSICA] En este vídeo vamos a continuar con el tratamiento de datos. En este caso vamos a ver la segunda parte, la fusión. El objetivo es construir un tablón único de datos con toda la información disponible que esté preparado para el modelado. Las etapas de esta parte del tratamiento de datos es uno, la representación de los datos, dos, el análisis de integridad, tres, la integración de las tablas y por último construcción de variables derivadas. Empezamos con la representación de datos. En la comprensión de datos estuvimos comentando que era importante relacionar los conceptos, una vez que tenemos los conceptos relacionados, you tenemos la fuente, you tenemos los datos lo importante es bajar al nivel adecuado para entender realmente cómo se relacionan los datos. Es decir, cuáles son los campos que se basan unos con otros y para eso es importante you llegar a tabla a tabla e identificar cuáles son los campos y cómo se relacionan entre sí. Para tener un esquema de la base de datos con la que estamos trabajando que integre todas las fuentes. Lo siguiente es hacer el análisis de integridad. Para cada una de las tablas puede tener claves primarias y claves foráneas. Las claves primarias son aquellos datos que son únicos que representan el registro, por ejemplo el ejemplo que tenemos en la pantalla tenemos tres tablas, una de alumnos, otra de cursos y otra de matrícula, entonces los alumnos tienen un identificador único que es el código de alumno. Ese código tiene que ser único, no puede haber dos alumnos con el mismo código, sin embargo el nombre sí puede haber dos personas que se llamen igual o la edad puede ser igual, así que no tiene que ser una clave primaria, solamente el código de alumno es una clave primaria. Sin embargo, después cuando relacionamos conceptos podemos crear las matrículas que tienen su propio código, cada matrícula tiene que ser única, pero sí que es cierto que un alumno y un curso, una combinación de alumno y curso sí que pueden estar matriculados en distintas asignaturas y de distintas formas. Por eso es muy importante tener claro cuáles son las claves primarias y cuáles son las claves foráneas. Las foráneas son aquellas claves primarias de otras tablas que se encuentran en una tercera tabla. Para analizar la integridad lo que tenemos que ver es primero la integridad de entidad. ¿Alguna clave primaria tiene algún problema en cuanto, puede ser que no aparezca en algún registro o que esté duplicada? Bueno, eso habría que verlo, si aparece lo que tenemos que hacer es corregirlo, eso no tiene sentido y después tenemos la integridad referencial, puede ser que alguna clave foránea no exista. Por ejemplo en este caso nos podemos encontrar alummos sin código de alumno, eso sería un problema de integridad de entidad. Nos podríamos encontrar una matrícula de un alumno de un curso que cuando vayamos a buscar los datos del alumno no exista, bueno eso sería un problema de integridad referencial. Entonces es muy importante establecer cuáles son las reglas que vamos a seguir para integrar la información. Una vez que hemos hecho ese análisis, toca el momento integrar las tablas. Entonces lo que queremos es juntar todos los conceptos en una única tabla que esté preparada para el modelado, y es donde entran en juego las reglas de integración, por ejemplo qué hacemos con aquellas claves foráneas que no existen. Si yo tengo una matrícula de un alumno en un curso y no existe el alumno, me cargo la matrícula you para desaparecer, lo relleno con algún dato falso, qué hago, cómo corrijo ese problema. Bueno pues, esas reglas de integración tenemos que definirlas muy bien porque van a influir después de la parte de modelado y sobre todo hay que tenerlas muy en cuenta en la parte de despliegue del modelo. Una vez que tengamos claras las reglas e integremos las tablas, nos vamos a encontrar con el tablón de modelado. El tablón de modelado es una única tabla que tiene todos los datos necesarios preparados para poder modelar, de forma que you tenemos toda la información concentrada en un único punto. Por último, una vez que tenemos el tablón de modelado, lo que podemos hacer es crear nuevas variables que incluyan conceptos de las diferentes tablas independientes que habían entre sí. Por ejemplo en este caso podríamos crear una variable que se llamase edad media del curso, estamos mezclando un concepto de los alumnos con un concepto de los cursos, de forma que lo podemos crear una vez que tengamos este tablón de modelado y no antes. Los retos de esta fase son los siguientes, lo primero hay que diseñar el modelo de datos con el que queremos trabajar. Si you está construido hay que comprenderlo pero si no está construido, ese diseño nos va a ayudar a enfocar mejor el problema. Lo segundo es ver cómo evolucionamos este modelo de datos, claro en el primer problema analítico que hagamos tendremos un modelo de datos pero conforme queramos crear más modelos y queramos introducir más información, este modelo de datos va a ir creciendo en complejidad y hay que tener muy claro cuál es la estructura, el orden y sobre todo el gobierno de este modelo de datos. Y por último la gestión de las incidencias en la integración de tablas, porque cuando hagamos un primer análisis con los datos que tengamos encontraremos unos problemas pero tenemos que definir unas reglas, ¿por qué? Porque conforme pase el tiempo tendremos nuevos alumnos, nuevos cursos, nuevas matrículas y tendremos que ir aplicando todas esas reglas de forma continua en el tiempo, por tanto tienen que estar muy claras y muy especificadas. Una vez que tengamos el tablón de modelado, you estamos listo para pasar a la siguiente fase, la fase de modelado. [MÚSICA] [AUDIO_EN_BLANCO]