jueves, 12 de diciembre de 2013

La revista Nature y las famosas p estadísticas

La revista Nature ha publicado recientemente una lista de 20 puntos a tener en cuenta a la hora de interpretar afirmaciones científicas. Aprovechando esta lista, vamos a comentar algunas afirmaciones peligrosas o susceptibles de ser “utilizadas para el mal”.

Como comienzo, podéis acceder a una traducción comentada de la mencionada lista [aquí]. Partiendo de la base obvia de que no soy nadie para criticar a una revista tal (vivan ellos y sus factores de impacto), merece la pena hacer algunas consideraciones a esta lista.

Primero, los 20 puntos están llenos de obviedades que poco aportarán a quien dedica su tiempo libre a la lectura de la revista Nature. Ejemplos de esto son los puntos 2, 3, 10, 12, 13,…

Segundo, hay al menos en esta lista 5 de los 20 puntos totalmente suprimibles por redundantes.

Tercero. En mi opinión, dos afirmaciones de la lista son muy peligrosas aunque cotidianamente las demos por válidas.
  1. “Cuanto más grande es la muestra, mejor”. Quizá la parte más polémica, pues es difícil explicar el por qué una muestra grande a veces indica más una debilidad de un estudio que una fortaleza. A ver si con unos ejemplos lo conseguimos:
Ejemplo 1

Todos estamos acostumbrados en los últimos años a leer que el laboratorio A ha publicado un ensayo clínico de pongamos 30.000 pacientes para probar su fármaco X (que bien podría ser un antihipertensivo o un hipolipemiante para el caso). Si lo han publicado (viva el sesgo de resultados positivos) es porque el resultado final es estadísticamente favorable a su medicamento. Siguiendo con el ejemplo, el fármaco X baja las cifras de TAS 1 mmHg más que el control (digamos enalapril) con una p=0.0001.

Según se publique esto, las hordas de representantes de dicho fármaco X vendrán a explicarnos por qué este artículo, realizado en 30.000 pacientes y con un resultado taaaaan significativo (¡mirar la p!) es importante en la práctica clínica.
¿Dónde está la trampa? Bien, en primer lugar, si nos separamos del panfleto y utilizamos la neurona, veremos que una diferencia de 1 mmHg es más bien insignificante por no decir directamente desdeñable. ¿Alguien cambiaría un tratamiento por otro para conseguir mejorar 1 mmHg las cifras de TAS? 

Es por ello que para diferencias tan nimias, el laboratorio A ha tenido que incluir 30.000 pacientes en seguimiento. Estos mismos resultados, realizados sobre una muestra de pongamos 3000 pacientes, quizá no habrían sido ni significativos a nivel estadístico. Por tanto, una “n” de pacientes tan grande es en este caso un maquillaje para que resultados minúsculos parezcan relevantes.

Ejemplo 2

Por continuar con los estudios de RCV, imaginemos ahora uno de los múltiples estudios de supervivencia realizados con una estatina o parecido. Hasta ahora, muchos de estos resultados sugieren que el dar estatinas a población incluso sana puede disminuir la mortalidad en ese grupo. Muy interesante, ¿no?

Digamos ahora que uno de estos megalítios estudios compara la mortalidad entre la población de 40 millones de Españoles y que el laboratorio hubiera conseguido dar estatinas al 50% durante un año. Tendríamos entonces 20 millones en el grupo intervención (estatinas) y 20 millones de personas como controles.

Supongamos entonces que el grupo de estatinas tiene una mortalidad durante el año de seguimiento de 5.000 personas y el grupo control 3.400 y que, dado el volumen de pacientes y controles que manejamos, estas diferencias hayan sido estadísticamente significativas con una p=0.03

De momento parece que las estatinas son un chollo. Si sólo leemos hasta aquí, el resultado es que todos iremos corriendo a comprar cajas y más cajas para dárselas a la familia, amigos y probablemente hasta a la mascota. Ya veo el titular de la publicación y los programas de TV abriendo con un “pastilla mágica desciende la mortalidad un 33%” (3.400/5.000: 0.68, mueren un 32% menos, no?).

El problema viene si volvemos a utilizar la neurona. ¡Con un par de intentos más, se convertirá en un hábito! Para conseguir salvar a esas 1600 personas incluso si atribuimos todo el efecto a las estatinas aceptando que el estudio no tuviera sesgos relevantes, hemos tratado a 20 millones. 

Dicho de otra manera, el número de personas a tratar para salvar a una es de 12.500 personas. Si la estatina en cuestión tiene un precio de 20 euros mensuales de tratamiento, cada “vida salvada” nos costará 3 millones de euros. No quiero decir con esto que haya que poner precio a una vida, pero si utilizamos el concepto de “coste oportunidad”, seguro que se nos ocurren medidas que se pueden aplicar con esos 3 mill de euros que serán más efectivas en términos de salvar vidas.

Está claro que ambos ejemplos tienen valores numéricos inventados por mí, pero creo que ilustran bastante bien las posibles malinterpretaciones que grandes tamaños muestrales conllevan a veces. Por tanto, decir que “cuanto más grande es la muestra, mejor” es muy matizable. Más que el tamaño muestral, en ocasiones deberíamos prestar más atención a conceptos prácticos y al manido sentido común.

  1. “La significación es importante”: esta afirmación se engloba en el mismo escenario que la anterior. Parece que la “cultura de la sagrada p” consiste en dar como buenos resultados con p <0.05 y rechazar resultados con valores superiores. Esta visión es muy limitada y nos puede llevar a no estimar en la medida apropiada cada estudio o evidencia. OS daré un ejemplo sencillo para no liar más el post de hoy. Si en un grupo de 100 pacientes, la mitad con la pastilla A y la otra con la pastilla B, la mortalidad que vemos es de 7/50 para A y 3/50 para B, al tener una muestra pequeña no tendremos significación estadística. Si ese mismo trabajo se realiza en dos centros más independientes y todos obtienen resultados iguales, aunque sigamos con estudios de pequeño tamaño y sin alcanzar una p deseada, sería interesante considerar que es probable que esos resultados tengan valor real. Este es el gran drama metodológico del estudio de tratamientos en enfermedades raras. Las muestras son tan pequeñas casi siemrpe que es casi imposible demostrar diferencias significativas a no ser que éstas diferencias sean de una magnitud enorme.

Bueno, no signo por hoy. Espero que al menos haya conseguido haceros reflexionar un poco sobre los tamaños muestrales y las “p” y que, la próxima vez que alguien os traiga un “panfleto” sobre un estudio, tengáis una visión más abierta y mejores argumentos para valorarlo.

Si os parece interesante, compartir este post en vuestras redes sociales para que poco a poco vayamos entre todos cambiando la manera de entender estos trabajos. En próximas semanas, intentaré hacer un pequeño resumen sobre “Grandes mentiras estadísticas del día a día” si veo que este primer post tiene aceptación.

1 comentario:

  1. Buen aporte. Y eso que ni mencionas los intervalos de confianza...

    ResponderEliminar