Apuntes segunda prueba estadistica correlacional

cargar librerías:

pacman::p_load(tidyverse, # Manipulacion datos
               sjPlot, # Graficos y tablas
               sjmisc, # Descriptivos
               corrplot, # Correlaciones
               psych, # Test estadísticos
               kableExtra, # Tablas
               rempsyc,
               broom,
               sjstats,
               gginference)

options(scipen = 999) # para desactivar notacion cientifica
rm(list = ls()) # para limpiar el entorno de trabajo

1 Formas de correlación

Tipos de correlación según nivel de medición
Nominal Dicotómica Nominal Politómica Ordinal Intervalar/Razón
Nominal Dicotómica Tetracórica / Chi2
Nominal Politómica Chi2 Chi2
Ordinal Biserial Chi2 Spearman, Kendall
Intervalar/Razón Punto Biserial / Prueba t (ANOVA) Pearson/biserial, Policórica Pearson

1.1 Nube de puntos (scatterplot)

sjPlot::plot_scatter(data = nombredatos, 
                     x = variable,
                     y = variable)

1.2 Coeficiente de determinación (\(\mathrm{R}^{2}\))

El coeficiente de determinación es una medida estadística que indica la proporción de la varianza total de una variable que es explicada por otra(s) variable(s).

Se utiliza para evaluar cuánta de la variabilidad de una variable se debe a otra variable. Sus valores van desde 0 a 1, en donde 0 indica que ambas variables comparten el 0% de su varianza, y 1 que comparten el 100% de su varianza.

correlacion^2

1.3 Correlación de Pearson

El coeficiente de correlación (de Pearson) es una medida de asociación lineal entre variables, que indica el sentido y la fuerza de la asociación.

Varía entre +1 y -1, donde:

  • valores positivos indican relación directa (aumenta una, aumenta la otra)
  • valores negativos indican relación inversa (aumenta una, disminuye la otra)
cor.test(basedatos$variable1, basedatos$variable2)

Criterios de Cohen:

r Significado aproximado (Cohen 1988)
< ±0.1 Muy pequeño
±0.1–0.3 Pequeño
±0.3–0.5 Moderado
>±0.5 Grande

Para interpretar: mencionar dirección (positivo o negativo), tamaño de efecto y significación estadística (valor p).

1.4 Correlación para variables ordinales

1.4.1 Coeficiente de correlación de Spearman

Se utiliza para variables ordinales y/o cuando se se violan supuestos de distribución normal. Es equivalente a la correlación de Pearson del ranking de las observaciones analizadas. Es alta cuando las observaciones tienen un ranking similar.

cor.test(basedatos$variable1, basedatos$variable2, method = "spearman") #especificamos metodo spearman

1.4.2 Coeficiente de correlación Tau de Kendall

Recomendado cuando hay un set de datos pequeños y/o cuando hay mucha repetición de observaciones en el mismo ranking.

cor.test(basedatos$variable1, basedatos$variable2, method = "kendall") #especificamos metodo kendall

1.5 Correlación para variables categoricas

1.5.1 Correlación punto biserial

Correlación de Pearson pero para una variable categórica dicotómica y una variable continua.

1.5.2 Correlación tetracórica

La correlación tetracórica se utiliza para calcular la correlación entre dos variables binarias categóricas, es decir, variables nominales dicotómicas (solo dos posibles valores).

matriz <- datos %>% select(variable1, variable2) # creamos matriz con var de interes

psych::tetrachoric(matriz, na.rm = T)

2 Matrices de correlación

En su forma simple en R se aplica la función cor a la base de datos, y la guardamos en un objeto que le damos el nombre M para futuras operaciones:

M <- cor(proc_data, use = "complete.obs") 
M

Listwise(por default):

sjPlot::tab_corr(datos, 
                 triangle = "lower")

Pairwise:

sjPlot::tab_corr(datos, 
                 na.deletion = "pairwise", # espeficicamos tratamiento NA
                 triangle = "lower")

2.1 Casos perdidos

Las correlaciones bivariadas requieren eliminación de casos perdidos tipo listwise, es decir, si hay un dato perdido en una variable se pierde el caso completo.

En el caso de las matrices de correlaciones es posible tomar la opción pairwise para casos perdidos. Pairwise quiere decir que se eliminan los casos perdidos solo cuando afectan al cálculo de un par específico. Pairwise permite mayor rescate de información y mayor N en el cálculo de matrices de correlaciones.

3 Tablas de contingencia y Chi-cuadrado (\(\mathrm{X}^{2}\))

Tablas de contingencia:

sjPlot::sjt.xtab(var.row = datos$variable_vertical, 
                 var.col = datos$variable_horizontal, 
                 show.summary = F, 
                 emph.total = T, 
                 show.row.prc = T, # porcentaje fila
                 show.col.prc = T # porcentaje columna
                 )

Para determinar si existe una asociación significativa entre dos variables categóricas se utiliza la prueba de Chi-cuadrado (\(\mathrm{X}^{2}\)). Esta se basa en un test de diferencia, donde se compara nuestra tabla de contingencia y una tabla donde no existe asociación entre variables (), que representa la hipótesis nula. La lógica detrás es que si nuestra tabla es significativamente distinta de una tabla sin asociación, entonces podemos rechazar la hipóteis nula.

Test de Chi-cuadrado:

chi_results <- chisq.test(table(proc_data$m0_sexo, proc_data$educacion))

chi_results

Versión mas amigable en una tabla:

stats.table <- tidy(chi_results, conf_int = T)
nice_table(stats.table)

Visualizacion:

ggchisqtest(chi_results)

4 Otros

4.1 Comentar código

Para separar secciones:

# Load data ---------------------------