Ensayos clínicos: por qué casi todos los resultados publicados son falsos

Palabras clave: Metodología de la investigación, Ensayo clínico aleatorizado, Potencia estadística, Significación estadística, Sesgos, Multiplicidad de estudios, Análisis de subgrupos, Desenlaces compuestos.

El número de artículos de investigación publicados en las revistas médicas es enorme, y sigue creciendo a un fuerte ritmo. Existe evidencia empírica de que los estudios que arrojan resultados “negativos” se publican menos a menudo y con más retraso que los que producen resultados “positivos”. Esta práctica, corresponsabilidad de autores, editores e industria farmacéutica, perjudica los intereses de los pacientes, y desde esta óptica se ha recomendado que se de prioridad a la publicación de los estudios con resultados negativos, que tienen una indudable utilidad para salvaguardar la salud de los ciudadanos y ahorrar grandes sumas de dinero, y que se haga un escrutinio muy cuidadoso de los estudios con resultados positivos, por cuanto éstos pueden no ser veraces y conducir así a prácticas médicas erróneas.

Habitualmente consideramos a los estudios publicados que presentan resultados "positivos" (a favor de la eficacia de un determinado tratamiento) como concluyentes; sin embargo, no es infrecuente que estudios posteriores contradigan esos resultados, creando un clima de nihilismo e incredulidad que en nada beneficia ni a la investigación ni a la práctica médica.

Ioannidis ha publicado recientemente un ensayo en el que argumenta algo que a primera vista pudiera parecer sorprendente: la mayoría de los resultados positivos de la investigación médica son falsos. Se trata no de un hallazgo empírico, ya que en cada estudio individual es difícil si no imposible comprobar la veracidad de sus hallazgos, si no es a posteriori, sino de un razonamiento deductivo expresado en formulaciones matemáticas sencillas.

La “significación estadística”, arbitrariamente fijada por lo general en un valor de P menor de 0,05, no implica la veracidad de los resultados de un estudio de investigación. El valor de P mide la probabilidad de que las diferencias encontradas se deban al azar. Si la P es suficientemente pequeña, se asume que las diferencias es improbable que sean debidas al azar, pero nada más. Sin embargo, que las diferencias encontradas no se deban al azar no significa necesariamente que se deban a la intervención realizada por los investigadores, sino que pueden ser debidas a otros factores que tienen una influencia mayor en uno de los grupos estudiados. La significación estadística, por tanto, se debe interpretar siempre a la luz de la calidad del diseño y la realización del estudio, que elimine la posible existencia de sesgos, y a un correcto análisis de los datos.

Otra limitación de la “significación estadística” es la multiplicidad de pruebas de significación, en análisis intermedios, análisis de subgrupos, o comprobación de múltiples hipótesis en un único estudio, que hacen que la probabilidad de encontrar por azar un resultado positivo no sea en realidad el valor nominal de la P, sino mucho mayor. En los análisis intermedios se deben emplear correcciones a la baja, de manera que se deben considerar significativos solo valores de P bastante menores de 0,05. En análisis de subgrupos, no se deben realizar pruebas de significación estadística convencionales, sino análisis de homogeneidad de los subgrupos. Cualquier resultado positivo de análisis de subgrupos o de desenlaces considerados secundarios en el diseño del estudio, deben considerarse como hallazgos generadores de hipótesis, que deben confirmarse en estudios posteriores, y nunca como resultados "positivos".

La potencia del estudio, que depende del tamaño muestral (el número de individuos estudiados) es uno de los principales determinantes de la significación estadística, de manera que cuando el estudio incluye pocos pacientes debe haber grandes diferencias entre los grupos estudiados para alcanzar la significación, mientras que cuando el número es suficientemente grande, las diferencias, por pequeñas que sean, alcanzan significación estadística, aún cuando la magnitud del efecto (“effect size”) sea pequeña, por lo que no es sinónimo de relevancia clínica. Esto ocurre por ejemplo en los megaensayos de cardiología, donde se incluyen a menudo decenas de miles de pacientes, en los que se encuentran pequeñas diferencias a favor de un tratamiento en la ocurrencia de un desenlace compuesto por la suma de varios desenlaces individuales, que alcanzan significación en el desenlace compuesto pero son dudosamente relevantes.

Sin embargo, como Ioannidis hace lúcidamente notar, la probabilidad de que los resultados de un estudio sean ciertos depende no solo de la magnitud del efecto, la significación estadística y la potencia del estudio, sino también de un factor habitualmente olvidado, que es la probabilidad previa de que dichos resultados sean ciertos. La probabilidad previa depende de cada campo de investigación, y suele ser baja; sabemos por el teorema de Bayes que si la probabilidad previa es baja, incluso con un resultado positivo es improbable que los resultados de un estudio sean ciertos. La probabilidad previa depende de la plausibilidad biológica de la hipótesis de investigación, apoyada por datos de la investigación básica, por datos epidemiológicos sólidos, por datos experimentales preliminares y, sobretodo, por resultados de investigaciones previas realizadas con solvencia metodológica. En muchos casos estos elementos son inexistentes, y una probabilidad previa baja cuestiona cualquier resultado "positivo" de un ensayo clínico.

Además de los anteriores existen otros dos factores, que a menudo no son suficientemente apreciados y que cuando están presentes comprometen en gran medida la credibilidad de los hallazgos "positivos" de la investigación: la presencia de sesgos y la repetición de los estudios. Los sesgos son errores sistemáticos introducidos por los investigadores en la fase de diseño o en cualquiera de las fases posteriores del estudio, que alteran (falsean) los resultados. La publicación selectiva de la que hablábamos al principio del artículo es un tipo de sesgo: el sesgo de publicación, pero hay otros muchos, como la ausencia de cegamiento o aleatorización.

Por último, existe otro factor que hace aún más improbable la veracidad de los resultados positivos de un estudio de investigación: la multiplicidad de estudios. Cuando un tratamiento se prueba en múltiples ocasiones, la probabilidad de que una de ellas resulte positiva por azar es elevada. Esto ocurre a menudo en los campos “calientes” de la investigación, en los que son muchos los grupos que estudian simultáneamente cuestiones similares, en una carrera por encontrar cuanto antes resultados positivos.

Factores que influyen en la veracidad de un resultado positivo:

  • Magnitud del efecto
  • Significación estadística
  • Tamaño del estudio
  • Probabilidad previa
  • Existencia de sesgos
  • Multiplicidad de estudios

En la práctica no resulta fácil calcular matemáticamente la probabilidad de que un resultado positivo sea falso, pero es útil tener en cuenta las siguientes generalizaciones, enumeradas por Ioannidis:

  1. Cuanto menor sea el tamaño del estudio (número de individuos incluidos), más probable es que sus resultados sean falsos.
  2. Cuanto menores son las diferencias encontradas entre los grupos que se comparan (la magnitud del efecto), más probable es que esas diferencias sean falsas.
  3. Cuanto mayor sea el número de resultados investigado en un estudio, más probable es que las diferencias entontradas en alguno(s) de ellos sean falsas.
  4. Cuanto menos rígidos sean el diseño, las definiciones empleadas, los resultados estudiados y el análisis realizado, más probable es que sus resultados sean falsos.
  5. Cuanto mayores sean los intereses existentes en un determinado campo, más probable es que sus resultados sean falsos. Esto incluye no solo los intereses económicos, sino también los prejuicios de los investigadores y de las asociaciones científicas.
  6. Cuanto más actual sea un campo científico, más probable es que los hallazgos sean falsos.

El autor aboga por el cumplimiento estricto de las normas existentes para la conducción, análisis y publicación de los ensayos clínicos, así como por la revisión sistemática de toda la investigación realizada en un determinado campo, en vez de fiarse en los resultados de una única investigación. Los grandes estudios deberían reservarse para cuestiones relevantes, donde se prevea encontrar un beneficio importante para una porción importante de la población, después de un riguroso proceso de investigación básica y/o observacional, de manera que la probabilidad previa de encontrar resultados positivos con el estudio final sea elevada: esto no solo evitará perder recursos valiosos y escasos, sino también, permitirá considerar los resultados obtenidos como válidos.

Enlaces:

  • Wacholder S, Chanock S, Garcia-Closas M, El ghormli L, Rothman N. Assessing the probability that a positive report is false: An approach for molecular epidemiology studies. J Natl Cancer Inst 2004; 96: 434-442. [Resumen] [Artículos relacionados] [Texto completo]

  • Bhandari M, Montori VM, Schemitsch EH. The undue influence of significant p-values on the perceived importance of study results. Acta Orthop 2005; 76: 291-295. [Resumen] [Artículos relacionados] [Texto completo]

  • Chan AW, Hrobjartsson A, Haahr MT, Gotzsche PC, Altman DG. Empirical evidence for selective reporting of outcomes in randomized trials: Comparison of protocols to published articles. JAMA 2004; 291: 2457–2465. [Resumen] [Artículos relacionados] [Texto completo (registro gratuito)]

  • Ioannidis JP, Trikalinos TA. Early extreme contradictory estimates may appear in published research: The Proteus phenomenon in molecular genetics research and randomized trials. J Clin Epidemiol 2005; 58: 543–549. [Resumen] [Artículos relacionados]

  • Ioannidis JPA. Contradicted and initially stronger effects in highly cited clinical research. JAMA 2005; 294: 218–228. [Resumen] [Artículos relacionados] [Texto completo (registro gratuito)]

  • Sterne JA, Davey Smith G. Sifting the evidence: What's wrong with significance tests. BMJ 2001; 322: 226-231. [Resumen] [Artículos relacionados] [Texto completo]

Autor: Eduardo Palencia Herrejón. Hospital Gregorio Marañón, Madrid.

Artículo original: Ioannidis JP. Why most published research findings are false. PLoS Med 2005; 2: e124. [Resumen] [Artículos relacionados] [Texto completo].

Publicado en Revista Electrónica de Medicina Intensiva, Artículo nº A51. Vol 6 nº 6, junio 2006. ©REMI, http://remi.uninet.edu. Junio 2006.

Fuente: http://remi.uninet.edu/2006/06/REMIA051.htm