Apuntes segunda prueba estadistica correlacional
cargar librerías:
::p_load(tidyverse, # Manipulacion datos
pacman# Graficos y tablas
sjPlot, # Descriptivos
sjmisc, # Correlaciones
corrplot, # Test estadísticos
psych, # Tablas
kableExtra,
rempsyc,
broom,
sjstats,
gginference)
options(scipen = 999) # para desactivar notacion cientifica
rm(list = ls()) # para limpiar el entorno de trabajo
1 Formas de correlación
Nominal Dicotómica | Nominal Politómica | Ordinal | Intervalar/Razón | |
---|---|---|---|---|
Nominal Dicotómica | Tetracórica / Chi2 | |||
Nominal Politómica | Chi2 | Chi2 | ||
Ordinal | Biserial | Chi2 | Spearman, Kendall | |
Intervalar/Razón | Punto Biserial / Prueba t | (ANOVA) | Pearson/biserial, Policórica | Pearson |
1.1 Nube de puntos (scatterplot)
::plot_scatter(data = nombredatos,
sjPlotx = variable,
y = variable)
1.2 Coeficiente de determinación (\(\mathrm{R}^{2}\))
El coeficiente de determinación es una medida estadística que indica la proporción de la varianza total de una variable que es explicada por otra(s) variable(s).
Se utiliza para evaluar cuánta de la variabilidad de una variable se debe a otra variable. Sus valores van desde 0 a 1, en donde 0 indica que ambas variables comparten el 0% de su varianza, y 1 que comparten el 100% de su varianza.
^2 correlacion
1.3 Correlación de Pearson
El coeficiente de correlación (de Pearson) es una medida de asociación lineal entre variables, que indica el sentido y la fuerza de la asociación.
Varía entre +1 y -1, donde:
- valores positivos indican relación directa (aumenta una, aumenta la otra)
- valores negativos indican relación inversa (aumenta una, disminuye la otra)
cor.test(basedatos$variable1, basedatos$variable2)
Criterios de Cohen:
r | Significado aproximado (Cohen 1988) |
---|---|
< ±0.1 | Muy pequeño |
±0.1–0.3 | Pequeño |
±0.3–0.5 | Moderado |
>±0.5 | Grande |
Para interpretar: mencionar dirección (positivo o negativo), tamaño de efecto y significación estadística (valor p).
1.4 Correlación para variables ordinales
1.4.1 Coeficiente de correlación de Spearman
Se utiliza para variables ordinales y/o cuando se se violan supuestos de distribución normal. Es equivalente a la correlación de Pearson del ranking de las observaciones analizadas. Es alta cuando las observaciones tienen un ranking similar.
cor.test(basedatos$variable1, basedatos$variable2, method = "spearman") #especificamos metodo spearman
1.4.2 Coeficiente de correlación Tau de Kendall
Recomendado cuando hay un set de datos pequeños y/o cuando hay mucha repetición de observaciones en el mismo ranking.
cor.test(basedatos$variable1, basedatos$variable2, method = "kendall") #especificamos metodo kendall
1.5 Correlación para variables categoricas
1.5.1 Correlación punto biserial
Correlación de Pearson pero para una variable categórica dicotómica y una variable continua.
1.5.2 Correlación tetracórica
La correlación tetracórica se utiliza para calcular la correlación entre dos variables binarias categóricas, es decir, variables nominales dicotómicas (solo dos posibles valores).
<- datos %>% select(variable1, variable2) # creamos matriz con var de interes
matriz
::tetrachoric(matriz, na.rm = T) psych
2 Matrices de correlación
En su forma simple en R se aplica la función cor
a la base de datos, y la guardamos en un objeto que le damos el nombre M para futuras operaciones:
<- cor(proc_data, use = "complete.obs")
M M
Listwise(por default):
::tab_corr(datos,
sjPlottriangle = "lower")
Pairwise:
::tab_corr(datos,
sjPlotna.deletion = "pairwise", # espeficicamos tratamiento NA
triangle = "lower")
2.1 Casos perdidos
Las correlaciones bivariadas requieren eliminación de casos perdidos tipo listwise, es decir, si hay un dato perdido en una variable se pierde el caso completo.
En el caso de las matrices de correlaciones es posible tomar la opción pairwise para casos perdidos. Pairwise quiere decir que se eliminan los casos perdidos solo cuando afectan al cálculo de un par específico. Pairwise permite mayor rescate de información y mayor N en el cálculo de matrices de correlaciones.
3 Tablas de contingencia y Chi-cuadrado (\(\mathrm{X}^{2}\))
Tablas de contingencia:
::sjt.xtab(var.row = datos$variable_vertical,
sjPlotvar.col = datos$variable_horizontal,
show.summary = F,
emph.total = T,
show.row.prc = T, # porcentaje fila
show.col.prc = T # porcentaje columna
)
Para determinar si existe una asociación significativa entre dos variables categóricas se utiliza la prueba de Chi-cuadrado (\(\mathrm{X}^{2}\)). Esta se basa en un test de diferencia, donde se compara nuestra tabla de contingencia y una tabla donde no existe asociación entre variables (), que representa la hipótesis nula. La lógica detrás es que si nuestra tabla es significativamente distinta de una tabla sin asociación, entonces podemos rechazar la hipóteis nula.
Test de Chi-cuadrado:
<- chisq.test(table(proc_data$m0_sexo, proc_data$educacion))
chi_results
chi_results
Versión mas amigable en una tabla:
<- tidy(chi_results, conf_int = T)
stats.table nice_table(stats.table)
Visualizacion:
ggchisqtest(chi_results)
4 Otros
4.1 Comentar código
Para separar secciones:
# Load data ---------------------------