Hola, soy Alfredo Santana y seré su guía en los temas de regresión lineal múltiple, regresión polinomial y control estadístico de proceso. Como Black Belt y consultor líder en programas Lean Six Sigma del Tec de Monterrey, estoy más preocupado por la aplicación e interpretación de las herramientas estadísticas que por las matemáticas que hay detrás de ellas. Empecemos recordando el concepto de regresión lineal simple, en donde tenemos una variable independiente, x, que utilizamos para pronosticar una variable dependiente, y. Para lograr esto, desarrollamos una ecuación lineal y igual a Beta 0 más Beta 1 por x, que minimiza la distancia entre los puntos y la línea de pronóstico. En la vida real, es muy raro encontrar una variable dependiente y que dependa solamente de una variable independiente, por lo que necesitamos modelar múltiples variables independientes. Imaginemos que agregamos una segunda variable dependiente. Nuestra ecuación cambia a y igual a Beta 0 más Beta 1 por x1, más Beta 2 por x2. Podemos ver que tenemos ahora una nube de puntos en tres dimensiones y un plano calculado con una distancia mínima a cada uno de los puntos. En la imagen en tres dimensiones, cuesta trabajo ver la relación entre x1 y x2 con respecto a y, debido a que nuestro cerebro es mejor visualizando en dos dimensiones que en tres. Por ello, es mejor utilizar curvas de nivel, para comprender mejor la interacción entre las tres variables. Ahora bien, los problemas de la vida real suelen tener decenas de variables, lo cual es imposible de visualizar para nosotros, ya que nuestro mundo es tridimensional. Sin embargo, eso no implica que los principios matemáticos no apliquen. Lo que tenemos que lograr es encontrar una manera de identificar qué variables dependientes, x, son relevantes para pronosticar la variable independiente, y. Para ello, construiremos una ecuación de regresión siguiendo la misma lógica: y igual a Beta 0 más Beta 1 por x1, más Beta 2 por x2, más Beta 3 por x3, y así hasta llegar a Beta N por xN. Ahora bien, no todas las variables son relevantes o pueden medirse. Afortunadamente, tenemos un teorema llamado el teorema de límite central, el cual establece que cuando tenemos un número grande de variables, sin importar su distribución de probabilidad, al realizar la suma de todas estas, su distribución final será normal, por lo que podemos expresar nuestra ecuación y igual a Beta 0 más Beta 1 por x1, más Beta 2 por x2, más Beta 3 por x3, hasta llegar a Beta N por xN, más el error, donde la letra griega Épsilon representa el error aleatorio generado por interacción de múltiples variables que no podemos medir, pero cuya distribución sabemos que es normal. Ahora bien, ya que no es posible visualizar la nube de puntos N dimensional, tenemos que recurrir a una serie de mediciones que nos indique la calidad de nuestro modelo y las variables que lo conforman. Primeramente, tenemos el valor de r cuadrada, el cual es un valor entre 0 y 100 por ciento, que nos indica qué tan cerca están los datos de la superficie de regresión ajustada. En este caso, lo llamaremos coeficiente de determinación múltiple. Un valor cercano a 0 indica que el modelo no explica la porción de variabilidad de los datos de la respuesta y en torno a su media, mientras que un valor cercano a 100 indica que el modelo explica toda la variabilidad de los datos de respuesta en torno a su media. Posteriormente, necesitamos analizar cuáles variables son significativas para el modelo y cuáles no lo son. Para ello, utilizamos el valor del p-value, el cual nos indica la probabilidad de que la varianza que estamos observando se deba únicamente al azar. La convención suele ser tomar valores de p-value menores a 0,05. Sin embargo, hay que ser precavido, ya que el valor de p-value depende del tamaño de la muestra, por lo que en ocasiones un valor alto puede deberse a una muestra relativamente pequeña. Finalmente, tenemos el valor de varianza inflacional o VIF, por sus siglas en inglés, el cual va de 1 al infinito y nos ayuda a detectar un fenómeno llamado multicolinealidad, es decir, cuando dos o más variables independientes x se relacionan altamente entre sí. Normalmente, buscamos valores de VIF menores que 10. Un último caso es cuando la relación entre la variable dependiente e independiente no es lineal, es decir, no puede modelarse por una línea recta, por lo que el modelo tiene que ajustarse buscando la interacción entre variables o incluyendo factores polinomiales, por lo que podemos tener ecuaciones como y igual a Beta 0 más Beta 1 por x1, más Beta 2 por x2 al cuadrado, más Beta 3 por x3, más Beta 4 por x1 por x3, y así hasta llegar a Beta N por x N más Épsilon. Aquí necesitamos un análisis matemático qué escapa los alcances de este curso, pero una pista se puede dar cuando se grafican los efectos de una variable dependiente significativa contra la variable independiente y, en vez de una recta, se observa una curva, lo cual da indicios que la relación puede ser no lineal. En el siguiente video ilustraremos esos conceptos mediante un ejemplo.