Cómo usar la regresión múltiple en Excel

Cómo usar la regresión múltiple en Excel

Excel es una herramienta poderosa para el análisis de datos, ya sea que esté trabajando con una relación simple entre una variable independiente y una variable dependiente o si hay múltiples variables independientes a considerar. Aprender a realizar un análisis multivariante en Excel, en forma de regresión múltiple, e interpretar los resultados es esencial si tiene datos complicados con los que trabajar. La buena noticia es que Excel está bien configurado para manejar estas tareas y solo necesita aprender cómo funciona una función para comenzar a dar sentido a sus datos.

¿Qué es la regresión múltiple?

La regresión múltiple es una forma de relacionar múltiples variables independientes con una sola variable dependiente al encontrar una ecuación que describa cómo cambia la variable en cuestión con cada una. Una herramienta más básica pero similar es la regresión lineal, que tiene como objetivo investigar el vínculo entre una variable independiente, como la obesidad, en una variable dependiente como el riesgo de cáncer, pero las cosas rara vez son tan sencillas. Siguiendo con el ejemplo, la cantidad de cigarrillos que se fuman al día también está relacionada con el riesgo de cáncer, al igual que la cantidad de alcohol que se bebe. Para llegar a una predicción fiable del riesgo de cáncer de una persona, debe tener en cuenta todos estos factores (y más).

La forma general de la ecuación utilizada para las regresiones múltiples es:

Y ^ =un + b x + b x + b x

Así que la Y ^ es el valor esperado para la observación, el b y así sucesivamente representan la pendiente de la relación de línea recta entre x y Y ^ y la x y así sucesivamente son las variables incluidas en el análisis. El un te dice el punto de la y -interceptar. Una regresión múltiple consiste en elegir los valores de los coeficientes (b y así sucesivamente) que minimizan la diferencia entre el valor esperado Y ^ y el valor observado Y , brindándole el mejor ajuste entre el modelo y los datos.

¿Qué le dice una regresión múltiple?

Las regresiones múltiples colocan valores numéricos en la asociación entre una multitud de variables y un resultado, por lo que puede usarlo para predicciones, para estimar las contribuciones relativas de las diferentes variables al resultado o para algunos otros propósitos, como seleccionar las variables más relevantes. para usar en un modelo matemático.

Por ejemplo, supongamos que tiene datos sobre los precios de las casas en una determinada ciudad (su variable dependiente), junto con información como si tiene piscina, cuántos pies cuadrados ocupa, cuántas habitaciones tiene, cuántos baños tiene , y cuantos garajes tiene. Una regresión múltiple le permitiría ver cómo se relaciona cada uno de estos factores con el precio de la casa, así que, después de ver cómo se relacionan con el precio, podría usar su ecuación para predecir el precio de una casa en función de estos puntos solos.

También puede usar este tipo de análisis de regresión en Excel para ver cómo un factor específico de muchos, como si la casa tiene piscina, afecta la variable dependiente (precios de la vivienda) si todas las demás variables permanecen constantes. Si convierte los coeficientes (llamados "coeficientes de regresión parcial") en coeficientes de regresión parcial estándar, que representan cuántas desviaciones estándar Y cambiaría si cambiara la variable correspondiente por una desviación estándar, entonces la ecuación también le indica qué factores son más importantes para determinar el resultado.

Cómo hacer una regresión múltiple en Excel

Puede realizar una regresión multivariable en Excel usando una función integrada a la que se puede acceder a través del Análisis de datos herramienta debajo de Datos pestaña y el Análisis grupo. Haga clic en Análisis de datos y encuentra la opción para regresión en la ventana que aparece, resáltala y haz clic en Aceptar . Haga clic en seleccionar celdas junto al rango de entrada Y y luego seleccione la columna que contiene los resultados para su variable dependiente. Luego, haga lo mismo para el Rango X de entrada pero seleccione las columnas múltiples para sus variables independientes. Estas columnas deben estar una al lado de la otra, por lo que si no lo están, debe moverlas antes de producir la regresión.

La ventana Regresión tiene una gama de opciones adicionales que puede seleccionar para adaptar el proceso a sus necesidades. Por ejemplo, puede establecer un nivel de confianza distinto al 95 por ciento si lo desea, elegir mostrar los residuales y especificar dónde se coloca la salida en su libro de trabajo. Esta última opción se establece automáticamente en Nueva hoja de cálculo, por lo que los resultados se muestran en una nueva hoja, pero puede cambiar esta o cualquier otra opción según sus necesidades. Además, revisa las Etiquetas cuadro si las columnas de sus variables independientes tienen etiquetas en la parte superior, por lo que se muestran en la salida.

Haz clic en Aceptar para generar su análisis de regresión en Excel y ser llevado a la nueva hoja.

La salida de regresión de Excel

Hay tres secciones principales en el resultado que se le presenta después de realizar una regresión múltiple en Excel:estadísticas de regresión, ANOVA y detalles sobre la línea de regresión estimada. Las estadísticas de regresión incluyen el coeficiente de correlación múltiple ("R Múltiple") que muestra la dirección y la fuerza de la correlación, de −1 a +1. El coeficiente de determinación, "R cuadrado", te dice qué porcentaje (como decimal) de la variación en la variable dependiente es explicado por las variables independientes. El "Cuadrado R ajustado" le brinda una indicación del poder explicativo, pero no es sencillo de interpretar, y el "Error estándar" le brinda una medida de la variación entre los resultados observados y su línea de regresión.

La sección ANOVA contiene información estadística sobre la cantidad de la variación explicada por la línea de regresión, con "Regresión SS" que indica la cantidad explicada por la línea y "Residual SS" que representa la cantidad no explicada. Las secciones "MS" representan "Mean Square" y la "F Statistic" es la estadística de prueba utilizada para probar un resultado significativo, con la sección "Significance F" que le brinda el valor P.

Finalmente, la última sección le informa sobre las características de la línea de regresión estimada, en particular, los valores de los coeficientes, si están significativamente relacionados con la variable dependiente y la cantidad de variación que podría haber en ellos. Los coeficientes positivos muestran una relación positiva entre la variable en cuestión y la variable dependiente, por lo que cuando una aumenta, la otra también lo hace. Los valores negativos significan que la variable dependiente disminuye a medida que aumenta la variable independiente. Por lo tanto, si el coeficiente de "pies cuadrados" en una regresión múltiple de los precios de una vivienda es 300, esto significa que un pie cuadrado adicional de espacio aumenta el costo de la vivienda en $300 en promedio.

Suposiciones y limitaciones de la regresión múltiple

Es importante recordar que la regresión múltiple es solo una herramienta y, como la mayoría de las herramientas, solo puede usarla en algunas circunstancias y hay algunas cosas que simplemente no puede hacer.

Una de las limitaciones más importantes es que es difícil concluir la causalidad sobre la base de los resultados. Por ejemplo, si tiene una regresión múltiple con el daño causado por un incendio y muchos factores potencialmente relevantes, es probable que encuentre un vínculo significativo entre la cantidad de bomberos presentes y el daño causado. Esto no significa que los bomberos causaron el daño porque otro factor como el tamaño del fuego no incluido en el modelo podría explicar estas dos observaciones.

Dos supuestos importantes de un análisis multivariado en Excel de este tipo son los supuestos de linealidad y normalidad. Está asumiendo una relación lineal entre las variables dependientes e independientes, por lo que debe comprobar que es probable que esto sea válido antes de realizar el análisis. Puede observar la relación entre cada variable individualmente para verificar, pero esta no es una estrategia perfecta. De manera similar, la prueba asume que las variables se distribuyen normalmente, por lo que debe verificar la normalidad de los resultados de cada una antes de realizar la prueba.