Error Tipo I, Error Tipo II y el Valor P.


En muchas ocasiones nos encontramos en medio de la confusión al momento de interpretar el valor p, el error tipo I y en ciertos casos el error tipo II; en algunas situaciones se habla del valor p como si se tratara del error tipo I.  En esta hoja se abordarán los conceptos antes mencionados y se intenta aclarar la diferencia entre valor p (también llamado significancia observada) y el nivel de significancia (máxima probabilidad de cometer el error tipo I).

Para comenzar, describiremos los tipos de errores que se pueden cometer al realizar un contraste de hipótesis (que pretende generalizar los resultados obtenidos en la muestra a la población o universo).

Hipótesis Estadística: Es una afirmación o enunciado que se hace acerca de los parámetros de una o más poblaciones y que todavía está por comprobar.

 

 

Situación real pero desconocida

 

A partir de la muestra

H0

Ha

DATA

Rechazo H0

Error tipo I

Decisión correcta

No se Rechaza H0

Decisión correcta

Error tipo II

Cuando probamos hipótesis podemos tener alguno de los siguientes resultados:

Figura 1. Región de rechazo y de no rechazo en la distribución normal para una prueba de dos colas.

En la figura 1. Se observa que en cada lado de la curva de distribución normal, hay dos pequeñas colas, las cuales son definidas como región crítica o de rechazo para la hipótesis nula; es, en esta región donde se acepta la hipótesis alterna (Hipótesis de trabajo) y se rechaza la hipótesis nula (Hipótesis nula: se plantea en términos de igualdad y es la hipótesis que deseamos rechazar. Ej. Efectividad A = Efectividad B), a la región de rechazo también se le conoce como región crítica. Ahora si un investigador informa que sus resultados son estadísticamente significativos, quiere decir que, según la prueba estadística, sus hallazgos podrían ser válidos y replicables con nuevas muestras de sujetos.

En el procedimiento de probar o contrastar una hipótesis, el error tipo I es establecido por el investigador antes de realizar la prueba. Cuando se define un a: 0.05 se está diciendo que se está dispuesto a cometer el error tipo I como máximo el 5% de las veces; o sea que de cada 100 veces que a partir de los datos se concluya a favor de la hipótesis alterna, se tolera equivocarse como máximo, en cinco de esas 100 veces.  Los valores más comunes de significancia son de 0.05, 0.01, 0.001, estos valores dependen de la rigurosidad que establezca el investigador para su análisis.

b (Beta): Es la probabilidad de cometer un error de tipo II, es decir, es la probabilidad de aceptar una hipótesis nula que era falsa.

Figura 2. Potencia de la prueba para detectar una diferencia de una unidad, con dos tamaños de muestra

Siempre es deseable que alfa y beta sean lo más pequeños posibles, pero estos están relacionados de tal manera que si el uno disminuye, el otro aumenta (véase figura 2).  La única manera de que uno disminuya y el otro permanezca constante o disminuya también, es aumentar el tamaño de la muestra.

Un importante concepto asociado a las dos probabilidades anteriormente definidas es el de la "Potencia de la prueba" que es definido como (1 - b) y por lo tanto no es otra cosa que la probabilidad de rechazar una hipótesis nula que es falsa, ésta es una probabilidad que se desea que sea lo más grande posible.

Potencia (1 - b): Es la probabilidad de rechazar una hipótesis nula falsa.

Ahora, para determinar el concepto de valor p, iniciemos con la definición clásica; es el valor de probabilidad o "significancia" de los resultados. El valor p (P_value = significancia observada = sig. Level) mide la probabilidad de obtener un valor para el estadístico de prueba tan extremo como el realmente observado, si la hipótesis nula fuera cierta.

Con lo anterior podemos ilustrar de manera clara que es realmente el valor p; supongamos que la diferencia observada en la evaluación de efectividad de dos fármacos (tradicional y uno nuevo) es de 15 por ciento a favor del nuevo. Un valor p de 0.02 indicará que, si el nuevo fármaco no ha tenido un verdadero efecto, habría solamente una oportunidad del 2% de obtener una diferencia de 15% o mayor.

Otro ejemplo:

Si  Ho: m =450  vs.  Ha: m > 450; fijando alpha = 0.01

Cuando se asumen poblaciones normales con varianza conocida (para simplificar la exposición) la hipótesis nula se rechaza si el estadístico de prueba (Zc = Z calculado) es mayor que Zt= 2.3267.   Si Zc = 3, entonces P_vaule = P( Z > 3)

Ahora teniendo claro la interpretación del valor p, podemos definir P_value: es la probabilidad asociada a un estadístico de prueba calculado a partir de los datos obtenidos en una investigación, e indica la probabilidad de obtener un valor tan extremo como el estadístico de prueba calculado en cualquier dirección, cuando la hipótesis nula es verdadera. Significa que existe una probabilidad menor que alfa (error tipo I) de que el resultado obtenido sea atribuible al azar, o una certeza del (1-alfa) de que el resultado obtenido por la intervención sea verdadero.

De acuerdo a la definición de valor p, nos queda claro que este valor no es igual al valor alfa o P(error tipo I), la primera diferencia se observa al momento en que el investigador fija la zona de rechazo o el nivel de significancia alfa, mientras que el valor p viene dado por el estadístico de prueba calculado a partir de los datos de la investigación y puede ser superior, inferior o igual al valor alfa y no es controlado por el investigador, ya que, es un valor asociado al estadístico de prueba. El valor p para una prueba puede definirse también como el valor más pequeño del error tipo I o alfa por el cual la hipótesis nula se puede rechazar. Si el valor p tiende a ser pequeño, menos fuerza tendrá la hipótesis nula como una explicación de los datos observados.  Además el nivel alfa para algunos autores es definido como un nivel de la probabilidad de equivocarse y se fija antes de probar hipótesis inferenciales, es un valor de certeza respecto a no equivocarse. Así, el nivel de significancia representa áreas de riesgo o confianza en la distribución muestral.

En lugar de decir que un valor observado de la estadística de prueba es significativo o no significativo a un valor alfa, muchos autores en sus obras de investigación prefieren informar la probabilidad exacta de obtener un valor tanto o más extremo que el observado, si la hipótesis nula es verdadera. En este momento los autores darán el valor calculado de la estadística de prueba junto con el valor p asociado a esta.

Cabe recordar, que el nivel de significancia establece el límite de la región de rechazo, por tanto la hipótesis nula en un estudio se rechaza cuando el valor p asociado a la prueba estadística utilizada para contrastar la hipótesis, es inferior al valor alfa establecido por el investigador (valor p < nivel de significancia).  De lo que podemos inferir que valores altos de la significancia observada constituyen evidencia a favor de la hipótesis nula, valores “bajitos” apoyan la hipótesis alterna.

Para terminar, se recomienda utilizar el valor p al momento de referirnos a la significancia estadística, cuando empleamos frases como: "existe diferencia significativa", "existe relación significativa", "es significativamente diferente de cero". Conclusiones de este tipo deben ir acompañadas del valor p asociado a la prueba, más que del nivel de significancia establecido por el investigador. El valor p como parte de los resultados de una investigación proporciona más información al lector que afirmaciones del tipo: "la hipótesis nula se rechaza en el nivel 0.05 de significancia", "los resultados no son significativos a un nivel de 0.05". Mientras que el informar el valor p asociado a una prueba permite al lector saber con exactitud que tan probable o no es el valor calculado de la prueba estadística realizada dado que la hipótesis nula es verdadera.