La estadística en medicina

Accesibilidad: Alt+P para escuchar o pausar, Alt+S para detener.

La estadística en medicina

La estadística en medicina introduce un cambio de marco respecto a la validación habitual en física.

Venimos de una cultura intelectual donde la deducción tiene un prestigio enorme. Si el modelo es correcto, si las simetrías están bien planteadas y si el experimento ve justo lo que debería ver, el resultado tiene una fuerza casi quirúrgica. No siempre es fácil, desde luego, pero la lógica de fondo está muy clara: del modelo salen consecuencias, y esas consecuencias permiten aceptar, corregir o derribar el modelo.

En medicina el paisaje es otro.

No porque no haya modelos, que los hay. Los hay fisiológicos, biológicos, farmacocinéticos, radiobiológicos y organizativos. Pero el núcleo de la validación médica rara vez es deductivo en el sentido fuerte al que estamos acostumbrados en física. Es, sobre todo, inductivo.

Se observa. Se compara. Se agrupa. Se estratifica. Se sigue a pacientes. Se ensaya. Se corrige. Y solo después, con suficiente volumen, tiempo y vigilancia, se acepta provisionalmente que algo parece funcionar mejor que otra cosa.

Este enfoque introduce incertidumbre estructural en la validación. Este enfoque es consistente con la naturaleza del sistema biológico y clínico.

Este texto quiere servir también como un pequeño glosario razonado para moverse por ese territorio. No solo para decidir si algo “suena mejor” o “parece peor”, sino para entender con qué palabras y con qué tipos de evidencia se acaba defendiendo una decisión clínica, una publicación, una certificación o una comparación entre técnicas.

1. Deducción en física, inducción en medicina

En física estamos cómodos con una idea muy concreta de prueba. Un ejemplo bonito es el de los kaones largos y cortos. Si en una región donde solo deberían aparecer ciertos estados aparecen otros, no estamos simplemente ante una correlación sugerente. Estamos ante una consecuencia que obliga a revisar la estructura del modelo. En el caso histórico, encontrar ciertos decaimientos donde no deberían estar tuvo el valor de señalar una ruptura de simetría, en concreto la violación de CP.

Eso tiene una limpieza intelectual difícil de igualar.

No se trata de que “parece haber una tendencia”. Se trata de que, si esto existe, entonces esto otro no puede seguir siendo exactamente cierto. El experimento no solo acompaña al modelo: lo pone en aprietos de una forma muy precisa.

La medicina trabaja rara vez así.

En medicina casi nunca tenemos una firma única y concluyente del tipo: “si este fenómeno aparece, entonces la hipótesis rival cae”. Lo que tenemos son poblaciones, respuestas variables, factores de confusión, adherencia imperfecta, historias naturales heterogéneas, comorbilidades, sesgos de selección y un largo etcétera de ruido biológico y social.

La consecuencia es incómoda pero central:

en medicina se valida casi siempre por inducción;
en medicina la certeza es normalmente gradual;
y en medicina una idea buena no queda demostrada porque sea elegante, sino porque sobrevive a comparación, seguimiento y crítica metodológica.

2. Correlación, grupos y la fragilidad de las conclusiones

La inducción trae consigo sus propios problemas.

Cuando uno trabaja con grupos poblacionales, enseguida aparecen preguntas difíciles:

¿se parecen de verdad los grupos que estamos comparando?
¿hay sesgos de acceso al sistema?
¿se está midiendo lo mismo en todos los centros?
¿la diferencia observada es clínica o solo estadística?
¿el efecto sirve para toda la población o solo para un subgrupo?

Esto sitúa la inferencia médica en un entorno donde las asociaciones están expuestas a confusión, selección y heterogeneidad.

No toda asociación es causal. No toda mejora aparente es una mejora real. No todo resultado positivo en una cohorte pequeña soporta bien el paso a práctica clínica general.

En física esto también existe, claro, pero el peso de los modelos y de la reproducibilidad experimental suele ordenar mejor el campo. En medicina, por el contrario, el objeto de estudio ya llega profundamente contaminado por el mundo real. El paciente no es un detector limpio. Llega con edad, contexto, antecedentes, adherencia variable, otras patologías y un sistema sanitario alrededor que también condiciona el resultado.

3. Selección de pacientes y sesgos de estudio

Esto introduce una limitación estructural de la medicina basada en datos: el estudio nunca observa “la realidad” en bruto. Observa una población seleccionada de una determinada manera, bajo unos criterios de inclusión y exclusión, dentro de unas condiciones clínicas e institucionales concretas.

Eso significa que la selección de pacientes no es un detalle técnico menor. Es parte del resultado.

¿A quién incluyes? ¿A quién dejas fuera? ¿Qué edad tiene la cohorte? ¿Qué comorbilidades permites? ¿Qué estadio de enfermedad aceptas? ¿Qué pacientes abandonan? ¿Qué pacientes ni siquiera llegan a entrar?

Todas esas decisiones cambian lo que el estudio puede afirmar.

Aquí entran con mucha fuerza las cohortes retrospectivas y los grupos de control imperfectos. En muchísimos problemas clínicos no trabajamos con dos poblaciones diseñadas desde cero en condiciones ideales, sino con pacientes ya tratados, historias clínicas incompletas, cambios de protocolo a mitad de camino y comparaciones hechas a posteriori. Eso no vuelve inútil el estudio, pero obliga a leerlo como lo que es: una pieza de evidencia observacional situada, no una deducción impecable.

No todos los problemas, sin embargo, tienen el mismo grado de dificultad metodológica. Comparar un sistema de localización de biopsia frente a otro puede permitir un diseño bastante más limpio si se mantiene estable el protocolo, la indicación, la población y el modo de comprobar si efectivamente se llega a las zonas de actividad o a la diana buscada. Ahí la comparación puede acercarse más a una evaluación prospectiva y controlada del rendimiento del sistema.

Caso guiado: cómo probar una mejora en un procedimiento de guiado diagnóstico Un diseño retrospectivo y prospectivo protegido para evaluar una ayuda de guiado sin retirar el método estándar ni aumentar el riesgo al paciente.

La situación cambia mucho cuando el paciente entra en un tratamiento oncológico combinado. Si además de la radioterapia hay cirugía, quimioterapia, hormonoterapia o inmunoterapia, ya no es tan sencillo atribuir el resultado final a una sola pieza del proceso. La evidencia sigue siendo posible, claro, pero se vuelve más costosa de construir y mucho más delicada de interpretar.

La literatura metodológica lleva décadas insistiendo en ello: hay sesgo de selección, sesgo de verificación, sesgo de tiempo de adelanto, sesgos por pérdidas de seguimiento, sesgos de centro, sesgos de acceso y sesgos de indicación. Muchos no invalidan automáticamente un estudio, pero sí obligan a leerlo con mucha más disciplina de la que a veces nos gustaría.

Esto, además, tiene una derivada importante para físicos e ingenieros que trabajan cerca de la medicina: muchas veces nos fijamos en la parte técnica del dispositivo o del algoritmo y no en el hecho de que el conjunto del estudio ya viene filtrado por una población concreta. Luego nos sorprende que el rendimiento cambie al pasar a otro hospital, otra edad, otro flujo clínico u otra prevalencia.

4. Lo que parece mejor no siempre lo es

En este punto, es frecuente extrapolar propiedades físicas parciales como criterio de superioridad clínica.

Cuando un físico dice que una técnica “es mejor”, muchas veces lo hace desde una propiedad física parcial. Y esa propiedad puede ser real. El problema es creer que basta.

La protonterapia es un ejemplo perfecto.

Desde el punto de vista físico, la capacidad de localizar dosis y reducir irradiación innecesaria fuera del volumen objetivo es una ventaja muy seria. No hace falta negar eso para ser prudente. Está ahí, y sería absurdo fingir lo contrario.

Pero de ahí no se sigue automáticamente que la protonterapia sea clínicamente superior en cualquier tumor, en cualquier contexto y para cualquier paciente.

Cada tratamiento es como es. Cada anatomía impone lo suyo. Cada enfermedad tiene su historia natural. Cada comparación compite con técnicas fotónicas que también han mejorado muchísimo.

Y, sobre todo, la validación clínica necesita números.

Necesita tiempo. Necesita seguimiento. Necesita toxicidad. Necesita control local. Necesita calidad de vida. Necesita supervivencia. Necesita saber en qué subgrupos hay beneficio neto y en cuáles no está demostrado o no compensa.

Una ventaja dosimétrica no implica por sí sola superioridad clínica generalizable.

En medicina, la afirmación de superioridad requiere delimitación de contexto y población. La frase correcta suele ser más incómoda:

esto parece mejor en ciertos casos,
esto es prometedor para ciertos perfiles,
esto reduce determinada toxicidad,
esto necesita más evidencia en otros escenarios.

Y esa prudencia no es cobardía metodológica. Es exactamente lo contrario.

Clave Cuántos pacientes hacen falta para demostrar algo

La validación clínica necesita números suficientes. ¿Cuántos? Depende del efecto que se quiere detectar, la variabilidad del resultado y el error tolerable.

Un ejemplo concreto: para detectar una reducción del 5% en toxicidad tardía grado ≥2 entre dos técnicas de radioterapia para cáncer de próstata (supongamos un 20% vs 15%), con potencia del 80% y significación bilateral del 5%, un ensayo aleatorizado necesita alrededor de 700–900 pacientes por brazo. Con una incidencia tratada de 200 pacientes/año en un centro grande, eso son 7–9 años de reclutamiento en un único centro — inviable sin coordinación multicéntrica.

Esto explica por qué la protonterapia tiene ventajas dosimétricas bien documentadas desde los años 90 y sigue acumulando ensayos clínicos aleatorizados décadas después: el número necesario para demostrar beneficio clínico en outcomes tardíos (supervivencia a 10 años, toxicidad tardía) excede lo que la mayoría de centros puede reclutar solos en tiempo razonable. La dificultad no es falta de interés; es matemática de potencia estadística aplicada a una enfermedad con historia natural larga.

Esto se ve muy bien en radioterapia. Comparar braquiterapia, radioterapia externa fotónica y protonterapia rara vez es tan limpio como comparar tres curvas de dosis sobre el mismo fantoma. Para muchas patologías los grupos son pequeños, los centros no tratan exactamente igual, las indicaciones cambian con el tiempo y, además, el paciente no recibe solo radioterapia: puede haber cirugía, hormonoterapia, quimioterapia, inmunoterapia o combinaciones sucesivas. A veces el problema estadístico no es que falte intuición física. Es que faltan números homogéneos y seguimiento comparable.

Caso guiado: próstata y la dificultad de comparar tratamientos Un ejemplo donde incluso una patología frecuente sigue acumulando suficientes variables como para volver delicada cualquier correlación entre técnica y resultado.

5. Ensayos clínicos, vigilancia y efectos secundarios

En medicina, una intervención requiere validación empírica más allá de su plausibilidad. Ahí empieza el trabajo de verdad.

Se ensaya. Se compara. Se vigila. Se mira toxicidad aguda. Se mira toxicidad tardía. Se revisa si el beneficio compensa el coste. Se analiza si el efecto sobrevive fuera del centro que inventó o impulsó la técnica.

Esa es una diferencia cultural enorme con la física.

En física una hipótesis elegante puede conquistar mucho terreno si explica bien y predice mejor. En medicina una intervención muy bonita sobre el papel puede caer en cuanto aparecen efectos secundarios, falta de adherencia, ausencia de beneficio clínico relevante o simple inviabilidad organizativa.

Por eso la vigilancia no es un apéndice. Es parte del conocimiento.

La farmacovigilancia, el seguimiento de eventos adversos, la reevaluación de protocolos y la revisión postcomercialización no son burocracia añadida a la medicina. Son una parte esencial del modo en que la medicina aprende.

Y esto vale también para los dispositivos. Que un dispositivo se certifique o llegue a mercado no significa automáticamente que haya demostrado superioridad clínica frente a todas las alternativas. Significa algo más acotado: que ha pasado por un marco regulatorio de seguridad, funcionamiento, documentación y evidencia adecuado a su clase, a su uso previsto y a la información disponible. La comparación fuerte entre “mejor” y “peor” suele necesitar además estudios clínicos, seguimiento y lectura crítica posterior.

Caso guiado: mejorar el guiado sobre un equipo ya certificado Un ejemplo donde la mejora técnica convive con certificación del dispositivo, límites regulatorios y variables clínicas que tardan mucho más en madurar.

Por eso las publicaciones tienen un valor que conviene no trivializar. No son un adorno para la carrera académica ni una forma elegante de repetir intuiciones previas. Son la memoria pública, discutible y corregible, de cómo un campo intenta cuantificar mejora, toxicidad, beneficio, sesgos y límites. Muchas son imperfectas. Algunas envejecen mal. Pero sin publicaciones, registros y reevaluación externa, la medicina se quedaría demasiado cerca de la impresión local del centro o del entusiasmo del fabricante.

6. Comités de ética y límites de la experimentación

Hay otra diferencia cultural importante con la física: en medicina no solo importa si un experimento está bien diseñado. Importa también si es éticamente aceptable.

Los comités de ética no están para decorar el proceso ni para retrasarlo por costumbre. Están para recordar algo elemental: el conocimiento médico se obtiene sobre personas, con riesgos reales, con desigualdades previas y con capacidad limitada de consentimiento plenamente informado en muchos contextos.

Eso condiciona el diseño del estudio desde el principio:

qué se puede comparar y qué no;
cuándo un brazo control deja de ser aceptable;
cuánto riesgo adicional es tolerable;
cómo se informa al paciente;
qué monitorización de seguridad hace falta;
y cuándo hay que detener un estudio.

Este condicionamiento limita diseños experimentales ideales, porque introduce condicionantes donde uno querría una comparación limpia. Pero esos condicionantes no son un obstáculo ajeno a la ciencia. Son parte de la ciencia médica bien hecha.

Además, la ética también modela la estadística. No siempre se puede diseñar el estudio perfecto. A veces hay que trabajar con estudios observacionales, registros, comparaciones indirectas o vigilancia postcomercialización precisamente porque el ideal experimental no es ética o prácticamente desplegable.

7. Incluso definir el éxito es difícil

Otra dificultad relevante es que ni siquiera el “éxito” está siempre perfectamente definido.

¿Qué significa que un tratamiento funcione?

Puede significar:

más supervivencia global;
menos mortalidad específica;
más supervivencia libre de progresión;
menos recaída local;
menos toxicidad;
mejor calidad de vida;
menos secuelas;
menos necesidad de tratamiento posterior;
o simplemente una combinación razonable de varias de estas cosas.

Y no siempre apuntan en la misma dirección.

Un tratamiento puede mejorar una variable intermedia sin mejorar la supervivencia global. Puede reducir una toxicidad y aumentar otra. Puede beneficiar a un subgrupo y no al conjunto. Puede parecer extraordinario en un centro experto y mediocre cuando se despliega de forma general.

Eso obliga a una disciplina estadística y clínica mucho más incómoda que la búsqueda de una señal única y elegante.

8. Ni siquiera el exitus es una variable trivial

A veces se habla del fallecimiento como si fuera una variable obvia. No siempre lo es.

La causa de muerte se certifica, se codifica y se interpreta dentro de sistemas sanitarios y administrativos concretos. Intervienen la patología de base, las causas intermedias, los factores contribuyentes y, en determinadas situaciones, criterios organizativos que afectan a la velocidad y homogeneidad del registro.

La pandemia evidenció esta dependencia.

En tiempo real, los números no eran solo biología. También eran definición, certificación, disponibilidad de personal y capacidad administrativa. La OMS y los CDC tuvieron que publicar guías específicas para certificar y codificar fallecimientos relacionados con COVID-19 precisamente porque sin una cierta estandarización la comparación se degradaba muy deprisa.

Eso no significa que “todo fuera arbitrario”. Significa algo más interesante y más serio: hasta las variables que parecen más duras necesitan convención, método y capacidad institucional.

9. El sistema sanitario también es una variable física

Esto introduce una dependencia adicional: una medicina estadísticamente correcta puede ser operativamente insuficiente si se olvida del sistema.

En papel, un 2 o un 3 por ciento puede parecer poco. En un sistema de salud, ese porcentaje puede absorber camas, personal, urgencias, UCI, logística, derivaciones y tiempos de respuesta. La pandemia mostró con brutal claridad que un porcentaje relativamente pequeño de casos graves, si llega de manera sostenida y simultánea, basta para tensionar o desbordar el sistema entero.

Eso vale para infecciones, pero también para screening, terapias nuevas, circuitos de seguimiento y tecnologías que parecen asumibles mientras se piensan paciente a paciente, pero cambian por completo cuando se llevan a escala poblacional.

Por eso los modelos en medicina sí importan, pero no como prueba central del beneficio. Importan para:

planificar capacidad,
distribuir recursos,
estimar carga asistencial,
diseñar circuitos,
y anticipar cuellos de botella.

Los modelos ayudan a gobernar.

La validación clínica, en cambio, sigue descansando en evidencia empírica, comparativa e inductiva.

10. La puerta hacia la IA

Todo esto pertenece todavía a la estadística clásica. Y precisamente por eso es también la puerta correcta hacia la IA en medicina.

Porque la IA no llega a un terreno limpio. Llega a un terreno ya lleno de:

selección de pacientes;
sesgos de estudio;
endpoints discutibles;
pérdidas de seguimiento;
centros con prácticas distintas;
prevalencias distintas;
y decisiones clínicas que no siempre están perfectamente codificadas.

Si el dato de partida está sesgado, la IA aprende sesgo. Si el criterio de verdad es pobre, la IA optimiza una verdad pobre. Si el estudio solo representa a un subgrupo, la generalización del modelo será frágil aunque el rendimiento interno parezca magnífico.

Caso guiado: IA en mamografía y retrospectivo local Cómo diseñar una evaluación local con BI-RADS, lectores y biopsias conocidas, evitando la colisión entre el retrospectivo del centro y el entrenamiento del modelo. Caso guiado: CAD y segmentación con aceptación clínica Un caso donde el médico siempre puede aceptar o corregir, y por eso la validación debe mirar también riesgo-beneficio, aceptación y sesgo de automatización.

Por eso la IA médica no sustituye a la estadística tradicional. La hereda. Y hereda también sus límites.

De hecho, una forma bastante buena de desconfiar sanamente de un resultado de IA es hacer preguntas clásicas:

¿qué población hay detrás?
¿cómo se seleccionó?
¿qué variable se está optimizando de verdad?
¿qué significa el éxito en ese estudio?
¿qué pasa cuando cambiamos de hospital, de prevalencia o de flujo clínico?

Si esas preguntas no están bien contestadas, la sofisticación algorítmica arregla bastante poco.

11. La medicina no demuestra peor: demuestra de otra manera

Desde una perspectiva física, este enfoque difiere en el tipo de validación. No lo es.

La medicina no demuestra peor. Demuestra en un territorio mucho más ruidoso, mucho más heterogéneo y mucho más humano.

No trabaja sobre un sistema cerrado ni sobre una simetría exacta. Trabaja sobre organismos, poblaciones, conductas, instituciones y recursos.

Esto implica:

en medicina la elegancia teórica no basta;
la intuición física no basta;
la plausibilidad mecanística no basta;
y la belleza técnica tampoco basta.

Hace falta número. Hace falta seguimiento. Hace falta comparación. Hace falta vigilancia. Hace falta sistema.

12. Una diferencia de cultura científica

La diferencia puede formularse así:

En física nos gusta pensar que entendemos cuando podemos deducir. En medicina muchas veces se entiende cuando, después de mucho observar, comparar y corregir, algo resiste.

Eso no hace la medicina menos racional. La hace menos pura y más incómoda.

Y quizá por eso mismo la estadística en medicina resulta tan central. No como adorno matemático. No como capítulo de apoyo. Sino como el marco donde una hipótesis se somete a comparación, seguimiento y validación clínica.

Relacionado

Para ampliar

Todos los temas Volver a Física médica

La estadística en medicina

La estadística en medicina

1. Deducción en física, inducción en medicina

2. Correlación, grupos y la fragilidad de las conclusiones

3. Selección de pacientes y sesgos de estudio

4. Lo que parece mejor no siempre lo es

5. Ensayos clínicos, vigilancia y efectos secundarios

6. Comités de ética y límites de la experimentación

7. Incluso definir el éxito es difícil

8. Ni siquiera el exitus es una variable trivial

9. El sistema sanitario también es una variable física

10. La puerta hacia la IA

11. La medicina no demuestra peor: demuestra de otra manera

12. Una diferencia de cultura científica

Relacionado

Para ampliar

La mamografía

ALARA

Braquiterapia

Calibración y verificación de sistemas de imagen para guiado

Cómo leer este curso

Dosimetría hospitalaria

El PET

El TAC