miércoles, 27 de mayo de 2020

5.4 Regresión y correlación


Correlación lineal


Para estudiar la relación lineal existente entre dos variables continuas es necesario disponer de parámetros que permitan cuantificar dicha relación. Uno de estos parámetros es la covarianza, que indica el grado de variación conjunta de dos variables aleatorias.





Covarianza muestral=Cov(X,Y)=∑ni=1(xi−x¯¯¯)(yi−y¯¯¯)N−1Covarianza muestral=Cov(X,Y)=∑i=1n(xi−x¯)(yi−y¯)N−1

siendo x¯¯¯x¯ e y¯¯¯y¯ la media de cada variable y xixi e yiyi el valor de las variables para la observación ii.





La covarianza depende de las escalas en que se miden las variables estudiadas, por lo tanto, no es comparable entre distintos pares de variables. Para poder hacer comparaciones se estandariza la covarianza, generando lo que se conoce como coeficientes de correlación. Existen diferentes tipos, de entre los que destacan el coeficiente de Pearson, Rho de Spearman y Tau de Kendall.


Todos ellos varían entre +1 y -1. Siendo +1 una correlación positiva perfecta y -1 una correlación negativa perfecta.
Se emplean como medida de fuerza de asociación (tamaño del efecto):
0: asociación nula.
0.1: asociación pequeña.
0.3: asociación mediana.
0.5: asociación moderada.
0.7: asociación alta.
0.9: asociación muy alta.


Las principales diferencias entre estos tres coeficientes de asociación son:


La correlación de Pearson funciona bien con variables cuantitativas que tienen una distribución normal. En el libro Handbook of Biological Statatistics se menciona que sigue siendo bastante robusto a pesar de la falta de normalidad. Es más sensible a los valores extremos que las otras dos alternativas.


La correlación de Spearman se emplea cuando los datos son ordinales, de intervalo, o bien cuando no se satisface la condición de normalidad para variables continuas y los datos se pueden transformar a rangos. Es un método no paramétrico.


La correlación de Kendall es otra alternativa no paramétrica para el estudio de la correlación que trabaja con rangos. Se emplea cuando se dispone de pocos datos y muchos de ellos ocupan la misma posición en el rango, es decir, cuando hay muchas ligaduras.


Además del valor obtenido para el coeficiente de correlación, es necesario calcular su significancia. Solo si el p-value es significativo se puede aceptar que existe correlación, y esta será de la magnitud que indique el coeficiente. Por muy cercano que sea el valor del coeficiente de correlación a +1+1 o −1−1, si no es significativo, se ha de interpretar que la correlación de ambas variables es 0, ya que el valor observado puede deberse a simple aleatoriedad.


El test paramétrico de significancia estadística empleado para el coeficiente de correlación es el t-test. Al igual que ocurre siempre que se trabaja con muestras, por un lado está el parámetro estimado (en este caso el coeficiente de correlación) y por otro su significancia a la hora de considerar la población entera. Si se calcula el coeficiente de correlación entre XX e YY en diferentes muestras de una misma población, el valor va a variar dependiendo de las muestras utilizadas. Por esta razón se tiene que calcular la significancia de la correlación obtenida y su intervalo de confianza.





t=rN−2−−−−−√1−r2−−−−−√, df=N−2t=rN−21−r2, df=N−2





Para este test de hipótesis, H0H0 considera que las variables son independientes (coeficiente de correlación poblacional = 0) mientras que, la HaHa, considera que existe relación (coeficiente de correlación poblacional ≠≠ 0)


La correlación lineal entre dos variables, además del valor del coeficiente de correlación y de sus significancia, también tiene un tamaño de efecto asociado. Se conoce como coeficiente de determinación R2R2. Se interpreta como la cantidad de varianza de YY explicada por XX. En el caso del coeficiente de Pearson y el de Spearman, R2R2 se obtiene elevando al cuadrado el coeficiente de correlación. En el caso de Kendall no se puede calcular de este modo. (No he encontrado como se calcula).


Mediante bootstrapping también se puede calcular la significancia de un coeficiente de correlación. Es una alternativa no paramétrica al t-test. Resampling: Test de permutación, Simulación de Monte Carlo y Bootstrapping).
Regresión lineal simple






La información aquí presente recoge los principales conceptos de la regresión lineal. Se puede encontrar una descripción mucho más detallada en los libros Introduction to Statistical Learning y en Linear Models with R.


La regresión lineal simple consiste en generar un modelo de regresión (ecuación de una recta) que permita explicar la relación lineal que existe entre dos variables. A la variable dependiente o respuesta se le identifica como YY y a la variable predictora o independiente como XX.


El modelo de regresión lineal simple se describe de acuerdo a la ecuación:


Y=β0+β1X1+ϵY=β0+β1X1+ϵ





Siendo β0β0 la ordenada en el origen, β1β1 la pendiente y ϵϵ el error aleatorio. Este último representa la diferencia entre el valor ajustado por la recta y el valor real. Recoge el efecto de todas aquellas variables que influyen en YY pero que no se incluyen en el modelo como predictores. Al error aleatorio también se le conoce como residuo.


En la gran mayoría de casos, los valores β0β0 y β1β1 poblacionales son desconocidos, por lo que, a partir de una muestra, se obtienen sus estimaciones β^0β^0 y β^1β^1. Estas estimaciones se conocen como coeficientes de regresión o least square coefficient estimates, ya que toman aquellos valores que minimizan la suma de cuadrados residuales, dando lugar a la recta que pasa más cerca de todos los puntos. (Existen alternativas al método de mínimos cuadrados para obtener las estimaciones de los coeficientes).





y^=β^0+β^1xy^=β^0+β^1x












β^1=∑ni=1(xi−x¯¯¯)(yi−y¯¯¯)∑ni=1(xi−x¯¯¯)2=SySxRβ^1=∑i=1n(xi−x¯)(yi−y¯)∑i=1n(xi−x¯)2=SySxR












β^0=y¯¯¯−β^1x¯¯¯β^0=y¯−β^1x¯





Donde SySy y SxSx son las desviaciones típicas de cada variable y RR el coeficiente de correlación. β^0β^0 es el valor esperado la variable YY cuando XX = 0, es decir, la intersección de la recta con el eje y. Es un dato necesario para generar la recta, pero en ocasiones, no tiene interpretación práctica (situaciones en las que XX no puede adquirir el valor 0).


Una recta de regresión puede emplearse para diferentes propósitos y dependiendo de ellos es necesario satisfacer distintas condiciones. En caso de querer medir la relación lineal entre dos variables, la recta de regresión lo va a indicar de forma directa (ya que calcula la correlación). Sin embargo, en caso de querer predecir el valor de una variable en función de la otra, no solo se necesita calcular la recta, sino que además hay que asegurar que el modelo sea bueno.

Inferencia mediante regresión lineal. Significancia e intervalo de confianza para β0β0 y β1β1






En la mayoría de casos, aunque el estudio de regresión se aplica a una muestra, el objetivo último es obtener un modelo lineal que explique la relación entre las dos variables en toda la población. Esto significa que el modelo generado es una estimación de la relación poblacional a partir de la relación que se observa en la muestra y, por lo tanto, está sujeta a variaciones. Para cada uno de los parámetros de la ecuación de regresión lineal simple (β0β0 y β1β1) se puede calcular su significancia (p-value) y su intervalo de confianza. El test estadístico más empleado es el t-test (existen alternativas no paramétricas).


El test de significancia para la pendiente (β1β1) del modelo lineal considera como hipótesis:


H0H0: No hay relación lineal entre ambas variables por lo que la pendiente del modelo lineal es cero. β1=0β1=0


HaHa: Sí hay relación lineal entre ambas variables por lo que la pendiente del modelo lineal es distinta de cero. β1≠0β1≠0


De esta misma forma también se aplica a (β0β0)


Cálculo del estadístico T y del p-value:





t=β^1−0SE(β^1) ; t=β^0−0SE(β^0)t=β^1−0SE(β^1) ; t=β^0−0SE(β^0)





El error estándar de β^0β^0 y β^1β^1 se calcula con las siguientes ecuaciones:





SE(β^0)2=σ2[1n+x¯¯¯2∑ni=1(xi−x¯¯¯)2]SE(β^0)2=σ2[1n+x¯2∑i=1n(xi−x¯)2]











SE(β^1)2=σ2∑ni=1(xi−x¯¯¯)2SE(β^1)2=σ2∑i=1n(xi−x¯)2





La varianza del error σ2σ2 se estima a partir del Residual Standar Error (RSE), que puede entenderse como la diferencia promedio que se desvía la variable respuesta de la verdadera línea de regresión. En el caso de regresión lineal simple, RSE equivale a:





RSE=1n−2RSS−−−−−−−−−√=1n−2∑i=1n(yi−y^i)−−−−−−−−−−−−−−−√RSE=1n−2RSS=1n−2∑i=1n(yi−y^i)





Grados de libertad (df) = número observaciones - 2 = número observaciones -número predictores - 1


p-value = P(|t| > valor calculado de t)


Intervalos de confianza





β^0±tα/2dfSE(β^0)β^0±tdfα/2SE(β^0)




β^1±tα/2dfSE(β^1)β^1±tdfα/2SE(β^1)




Cuanto menor es el número de observaciones nn, menor la capacidad para calcular el error estándar del modelo. Como consecuencia, la exactitud de los coeficientes de regresión estimados se reduce. Esto tiene importancia sobretodo en la regresión múltiple.


En R, cuando se genera el modelo de regresión lineal, se devuelve junto con el valor de la pendiente y la ordenada en el origen el valor del estadístico tt obtenido para cada uno y los p-valuecorrespondientes. Esto permite saber, además de la estimación de β0β0 y β1β1 , si son significativamente distintos de 0. Si se desea conocer los intervalos de confianza para cada uno de los parámetros se pueden calcular con la función conint().

Residuos del modelo






El residuo de una estimación se define como la diferencia entre el valor observado y el valor esperado acorde al modelo. A la hora de sumarizar el conjunto de residuos hay dos posibilidades:


El sumatorio del valor absoluto de cada residuo.


El sumatorio del cuadrado de cada residuo (RSS). Esta es la aproximación más empleada (mínimos cuadrados) ya que magnifica las desviaciones más extremas. En R, cuando se genera un modelo los residuos también se calculan automáticamente y se almacenados dentro del modelo.


Cuanto mayor es el sumatorio del cuadrado de los residuos menor la precisión con la que el modelo puede predecir el valor de la variable dependiente a partir de la variable predictora. Los residuos son muy importantes puesto que en ellos se basan las diferentes medidas de la bondad de ajuste del modelo.

No hay comentarios:

Publicar un comentario