[MÚSICA] [MÚSICA] [MÚSICA] Quería hablaron un poco sobre la relación entre Big data y el mundo de la investigación científica. Como probablemente you sabéis el Big data ha sido descrito por tres características, una de ellas es el volumen de los datos, otra es la velocidad con que se adquieren los datos y la otra es una cierta variabilidad de los datos, sobre todo si vienen de diferentes fuentes. Últimamente se ha añadido a esto una cosa muy importante, que es la veracidad de los datos, o sea, que ahora hablamos de cuatro v en vez de tres. Porque la veracidad en Big data es muy importante. ¿Qué tiene que ver todo esto con la investigación científica? Bueno, las experimentaciones que se hacen en física, astrofísica, en biología, en astronomía, en observación de la tierra, generan grandes cantidades de datos. Esas cantidad de datos empezaron a acumularse you empujando los límites de la tecnología de computadores you en los años 70 en el mundo, por ejemplo, de las físicas de partículas en laboratorios de aceleradores como puede ser el CERN en Ginebra con el cual nosotros trabajamos. A lo largo de las décadas se han ido perfeccionando estos experimentos y acumulan cada vez más y más datos. De hecho en este momento el Gran colisionador de hadrones, en el CERN en Ginebra you ha acumulado más de 200 petabytes de datos, que se corresponden a miles de millones de colisiones subatómicas. Evidentemente estos datos hay que analizarlos y hay que sacar señales que cada vez son más difíciles de buscar porque están enterradas dentro de procesos físicos que you conocemos y entonces hemos de buscar lo que no conocemos. Otro ejemplo puede ser la astronomía que hoy en día se mezcla con la astrofísica y con la cosmología. Queremos saber básicamente de dónde viene nuestro universo. Y para hacer eso, lo que hacemos es observar con telescopios que hoy en día you son robotizados y están todas las noches de todo el año observando el universo y generando también petabytes de datos. Una cosa que hace solo 10 años se pensaba imposible pero hoy en día es cotidiana. Un experimento con el cual trabajos, que se originó en Berkeley, en Estados Unidos es el Dark Energy Survey, you ha acumulado miles de millones de objetos medidos del universo y de hecho abre una nueva frontera que es el hacer estudios estadísticos sobre lo que vemos en el universo. Estos datos no son tan grandes como los de física de partículas, pero son extremadamente complejos y lo que queremos es buscar correlaciones entre ellos. Correlaciones que no son tan diferentes de alguna de las correlaciones que tenemos en otros ámbitos totalmente diferentes como pueden ser las redes sociales, otro ámbito en el cual se utiliza el Big data. Otro ejemplo es el de la biología y lo que queremos estudiar es estudiar la estructura de la vida. Para ello contamos con máquinas que secuencian los genomas y si en el pasado, la primera secuenciación del genoma se tardó casi 10 años, hoy en día podemos secuenciar un genoma en un día o menos. Por tanto, estamos acumulando datos, una vez más, extremadamente complejos. Estas máquinas necesitan otras de las v. No es solo el volumen, es la velocidad con que se guardan los datos. Si estamos ahora secuenciando múltiples genomas todos los días, estamos adquiriendo unos datos a gran velocidad. Variabilidad. Esto quizás es la que menos ha penetrado en el mundo de la ciencia por una razón obvia. Lo que queremos por lo de la veracidad también, es tener instrumentos todos estandarizados, todos calibrados. ¿Pero qué pasa? Que ahora lo que queremos es combinar datos. Combinar datos, por ejemplo, en astronomía. Tenemos detectores, desde telescopios de radio hasta telescopios de rayos gamma. Y lo que queremos es tener una alerta, por ejemplo, de un satélite que está observando y detecta un rayo gamma de muy alta energía, y nos envíe una alerta en tiempo real y movemos los telescopios a apuntar hacia esa zona y mezclamos toda la información de los diferentes colores o de las diferentes frecuencias de luz que estamos recibiendo. Hay muchos otros ejemplo, otro que es muy importante es observación de la tierra. que tiene you muchos aspectos prácticos, como por ejemplo el control de las condiciones para la agricultura, el control de la contaminación, etcétera. Otra cosa que quería comentar, es un poco el tipo de personas que buscamos en los equipos científicos para que nos ayuden con el Big data. Entonces esto, hoy en día se llaman científicos de datos o Data scientist, y lo que buscamos un poco son personas que tengan cierta transversalidad con respecto a digamos los pilares clásicos de la ciencia. En particular, buscamos gente que tenga bastantes conocimientos matemáticos porque contrario de lo que se pueda pensar, en el Big data, tenemos mucha modelización matemática. No es solo meter los datos en un ordenador y you está. Sino que necesitamos modelizar estos datos para que sea posible entonces extraer información útil y veraz a una velocidad razonable de estos datos. Entonces, matemáticas es uno de los pilares. Otra cosa que buscamos, por razones que quizás sean evidentes es alguien que tenga algún conocimiento pues de física, de química, de biología, para que tenga una visión sobre los datos y pueda también comunicarse con los científicos que al final son los que están produciendo estos datos y quieren extraer la información. Además, muchas veces buscamos modelos que se inspiran en algunas de estas ciencias. Hay desde modelos que se inspiran pues por ejemplo en una estructura cristalina, o hay hasta modelos de cómo se organizan las hormigas cuando hacen su trabajo. Y estos modelos, los podemos trasladar a cómo organizamos los datos en bases de datos que son mucho más complejas que las antiguas bases de datos llamadas SQL, que eran digamos muy rectangulares. Y aquí lo que buscamos son bases de datos no SQL que son mucho más versátiles. Finalmente, evidentemente necesitamos una buena dosis de informática, desde ambos puntos de vista. La ingeniería informática, o sea, el poder moverse con soltura en una plataforma de Big data, o también el conocer las últimas tendencias de cómo acelerar los programas que están analizando o adquiriendo los datos, como pueden ser el uso de GPUs y de aceleradores. Bien, con esto espero que tengais una cierta idea de cómo se relaciona el Big data con el mundo científico y que esto os sirva un poco también de inspiración para el curso que vais a seguir. Gracias. [MÚSICA] [MÚSICA]