http://nadaesgratis.es/admin/haciendo-estadistica-sin-saberlo
Después de largos años en el laboratorio, has creado una píldora para
hacer que la gente sea mejor persona. ¿Cómo puedes comprobar que esta
píldora realmente funciona?
Una forma sería tomártela y comprobar si eres mejor persona, pero
probablemente te será difícil convencer a los demás de que la píldora
funciona solo con tu experiencia. Descubres que existe un test que mide
cuán buena persona eres, pero que sólo se puede realizar una vez (porque
la gente le pilla el tranquillo y a la segunda los resultados son muy
diferentes). Decides entonces que una forma de comprobar si tu píldora
funciona sería seleccionar a dos sujetos, darle a uno tu píldora y al
otro una píldora placebo, y comprobar después con el test si el sujeto
al que le diste tu píldora es mejor persona que el otro. Con ésto
seguramente tampoco convencerías, pues te preguntarían: “¿y si la persona a la que le diste tu píldora ya era mejor persona que la otra?”. Te
das cuenta de que la forma con la que probablemente tendrías más éxito
sería seleccionar a muchos sujetos, darles aleatoriamente tu píldora o
la píldora placebo y comprobar si, de media, los sujetos a los que les
diste tu píldora son suficientemente mejores personas que los
sujetos a los que les diste la píldora placebo. Pero, ¿cuántos sujetos
deberías seleccionar? ¿cuánto mejor personas tienen que ser los sujetos
que tomaron tu píldora para decir que la diferencia es suficientemente grande? ¿cuándo podrás concluir por fin que tu píldora funciona?
La estadística nunca despertó tu interés, así que decides ignorarla y
hacer el experimento a tu manera. Sabes que la gente puede ser buena
persona del 0 al 100 (donde tener 0 “puntos” de buena persona es ser muy
mala persona y tener 100 puntos es ser muy buena persona), y crees que
es igual de probable encontrarte a una persona con cualquier nivel de
buena persona. Decides invitar a 20 sujetos, escoger a 10 sujetos
aleatoriamente para darles tu píldora (y darles un placebo a los otros
10) y después medir cuán buenas personas son. Si los sujetos a los que
les diste tu píldora son de media al menos 5 puntos mejores personas que
los que tomaron el placebo, concluirás que tu píldora funciona. Pero
pronto te das cuenta de que algo no va bien. Dado que podrías tener la
mala suerte de que el azar envíe las mejores personas del grupo de 20
sujetos al grupo al que le das tu píldora, ¡es posible que encuentres
este efecto de 5 puntos aunque en realidad tu píldora no funcione! Peor
aún, te das cuenta de que, sea cual sea el resultado del experimento
(aunque encuentres que los del grupo de tu píldora son 40 puntos más
buenas personas que los del grupo del placebo), ¡siempre va a existir la
posibilidad de que tu píldora no tenga ningún efecto y de que, en
realidad, esta diferencia se deba al azar!
Qué golpe más duro. Toda una vida diseñando esta píldora para darte cuenta de que nunca
podrás comprobar con certeza si funciona o no. Estás a punto de dejarlo
todo atrás para empezar tu nueva vida en el paro cuando te das cuenta
de algo. Piensas: “sí que es verdad que, aunque la diferencia entre
el grupo de mi píldora y el de placebo fuera de 40 puntos, nunca podré
asegurar que esta diferencia se deba a mi píldora y no al azar. Pero sí
que puedo ver cuál es la probabilidad de que una diferencia de 40 puntos
entre los dos grupos se deba sólo al azar. Es decir, en caso de
que mi píldora no funcionase, puedo calcular en qué porcentaje de
experimentos encontraría una diferencia tan grande a causa del azar”. Tienes
entonces una idea: una buena forma de averiguar si la píldora funciona
es comprobar si la diferencia de bondad entre los dos grupos es tan
grande como para que sea improbable que se haya producido solo por el
azar. Te dices: “si encuentro una diferencia de bondad tan grande
entre los que toman mi píldora y los que toman el placebo que la
probabilidad de que ocurra solo por azar es del 5% o menos, entonces voy
a concluir que mi píldora funciona”.
Te preguntas ahora: “dada la regla que he definido para decidir
si mi píldora funciona, si hiciera el experimento con 20 sujetos ¿cuán
grande debería ser la diferencia de bondad entre el grupo que toma mi
píldora y el que toma el placebo para concluir que mi píldora funciona?
¡Voy a calcularlo!”. Te pones manos a la obra. Coges un dado de 100 caras (te aseguro que existen, pero puedes también simularlo online)
y lo tiras 20 veces, apuntando el número que te ha salido cada vez.
Cada tirada representa lo buena persona que es uno de los 20 sujetos que
ha acudido a tu experimento. Las primeras 10 tiradas representan cuán
buenas personas son los sujetos a los que les darás tu píldora, y las
segundas 10 tiradas representan los sujetos del grupo del placebo.
Calculas la media de los dos grupos (te da 56,17 para el primer grupo y
45,83 para el segundo), y te apuntas la diferencia. En este caso, la
diferencia es 10,34. Lo vuelves a hacer, -3,21. Lo vuelves a hacer,
23,89. Lo repites 10.000 veces para crear 10.000 experimentos ficticios.
Entonces ordenas los resultados de los 10.000 experimentos ficticios
según el resultado, empezando con la diferencia de bondad más grande y
acabando con la más pequeña. El número que queda en la posición 500 (el
5% más grande) es 21 puntos. Concluyes entonces que, si en tu pequeño
experimento con 20 sujetos encontrases que la diferencia de bondad entre
el grupo que toma tu píldora y el grupo que toma el placebo es de más
de 21, la probabilidad de que este resultado venga dado por el azar será
solo de un 5% o menos. Por lo tanto, concluirás que tu píldora
funciona.
Ya está todo listo para realizar el experimento. Estás a punto de
salir a reclutar a tus sujetos. Pensando en los 21 puntos, piensas: “oye,
¿y ya es razonable esperar que la diferencia entre los dos grupos sea
de 21 puntos? Yo pienso que, si mi píldora tiene algún efecto, el efecto
será que los sujetos que la tomen van a ser unos 10 puntos más buenas
personas, pero no más (¡tan potente no es!). Entonces, si el efecto real
de mi píldora fuera de 10 puntos, ¿sería factible encontrar que la
diferencia entre los dos grupos es de 21 puntos?”. Corres hacia tu
libreta con las 10.000 diferencias y piensas qué pasaría si tu píldora
en realidad tuviera un efecto de 10 puntos. Así que añades 10 puntos a
todas las tiradas que hiciste para los sujetos ficticios del grupo de la
píldora (simulando que tu píldora tuvo un efecto) y vuelves a calcular
la diferencia entre la media del grupo de la píldora y del grupo placebo
para cada uno de los 10.000 experimentos ficticios. ¡Te pegas un susto
cuando ves los resultados! ¡Aunque el efecto de tu píldora fuera real e
hiciera que la gente fuera 10 puntos más buena persona, solo 1.985 de
tus 10.000 experimentos ficticios encontrarían una diferencia superior a
los 21 puntos! ¡Es decir, aunque tu píldora realmente funcionase, la
probabilidad de que concluyeras que funciona sería inferior al 20%!
Te das cuenta de que quizás la clave está en reclutar a más sujetos: “si
recluto a más sujetos, la diferencia de la media de buena persona entre
los dos grupos va a estar más cercana a 0 (en caso de que no exista
ningún efecto) o más cercana a 10 (en caso de que exista un efecto). Por
lo tanto, si mi píldora funciona realmente, es más probable que pueda
concluir que funciona cuántos más sujetos tenga”. Como no puedes
permitirte reclutar un número infinito de sujetos (no tienes tanto
dinero), decides reclutar los suficientes para que, si en realidad tu
píldora tiene un efecto de 10 puntos, lo puedas concluir en tu
experimento con un 80% de probabilidad.
Así que vuelves a tirar los dados imaginándote que, en vez de 20,
reclutas a 100 sujetos. Haces los mismos cálculos que antes y calculas
que para concluir que existe un efecto deberías encontrar una diferencia
de 8,93. Calculas que si el efecto real fuera de 10 puntos, concluirías
que existe un efecto con un 55% de probabilidad. No es suficiente. Lo
pruebas otra vez con 400 sujetos. 94% de probabilidad. Demasiado. Hasta
que pruebas con 200 sujetos. Perfecto: “si hago el experimento con
200 sujetos y en realidad el efecto de mi píldora es de 10 puntos, voy a
concluir que mi píldora funciona con un 80% de probabilidad. Si en
realidad mi píldora no funciona, solo concluiría que funciona con un 5%
de probabilidad”.
Sin darte cuenta, técnicamente has diseñado un experimento con una potencia estadística del 80% para detectar un efecto con un 5% de significatividad.
Así, tu probabilidad de cometer un error Tipo II (es decir, de no
rechazar la hipótesis nula de no efecto cuando esta es falsa) es de un
20%, y tu probabilidad de cometer un error Tipo I (es decir, de rechazar
la hipótesis nula de no efecto cuando esta es cierta) es de un 5%.
Estos acostumbran a ser los estándares que las ciencias sociales
utilizan para calcular el número de sujetos que necesitan en sus
experimentos. Después de hacer este análisis, toca pre-registrar y realizar el experimento.
¡Ah! Al final hiciste el experimento con 200 sujetos y te salió un
efecto de 12 puntos. Calculaste que un efecto tan grande solo ocurriría
con un 0,2% de probabilidad solo por azar (el valor p es 0,002). Concluiste que tu píldora para ser mejor persona funciona.
¡Próximamente en sus tiendas!
Nota final: Por supuesto, tirar los dados tantas veces cada vez
que se quiera realizar un análisis de potencia puede cansar bastante.
Otra opción es utilizar fórmulas analíticas que ayudan en el cálculo. No
obstante, otra posibilidad (más flexible) es usar simulaciones con
algún programa matricial. En este link explico cómo hacerlo con el programa Stata.
No hay comentarios:
Publicar un comentario