Estadística médica - sin dolor (parte 2)
Dr. Pedro M. Politi
Oncólogo clínico, Equipo Interdisciplinario de Oncología.
Profesor Adjunto, II Cátedra de Farmacología, Facultad de Medicina, UBA
e-mail: cancerteam@fibertel.com.ar
En un documento previo (http://www.cancerteam.com.ar/poli166_estadistica_en_medicina.html), se presentaron las variables que definen una población, el concepto de test estadístico y una somera idea de cómo se procede en uno de ellos.
Del mismo modo que un medicamento o procedimiento diagnóstico, cada test estadístico tiene sus "indicaciones", según el tipo de variable analizada:
- para variables continuas (peso, presión arterial, recuento de neutrófilos, eritrocitos, glucemia, etc), el test de t (test de Student) es apropiado, si se comparan solamente dos grupos. Si se comparan más, se requiere otro tipo de test: el análisis de varianza. Hay numerosas formas de análisis de varianza, pero este tipo de test básicamente "está indicado" cuando se comparan más de dos grupos de tratamiento.
- para proporciones (porcentaje o fracción de pacientes que repermeabilizaron completamente una arteria coronaria, porcentaje o fracción de pacientes vivos, porcentaje de pacientes internados, porcentaje en remisión, porcentaje de pacientes que encaja en cietra categoría predefinida de respuesta, etc) se utiliza el test de Chi cuadrado (o Ji cuadrado)
- para puntajes, se utilizan tests de tipo "no paramétrico" como el análisis de varianza no-paramétrico. Este grupo de tests ha sido diseñado específicamente para comparar la distribución de puntajes en un cierto orden, entre dos o más grupos. Si por ejemplo, en el grupo tratado con A los puntajes suelen ser 1 o 2, y en el grupo tratado con B fuesen mayormente puntajes de 3, 4 y 5 en una hipotética escala de 1 a 5, esto señala una tendencia, y el test está diseñado para definir si esa diferencia en la distribución se debería al azar o no
- el caso de la comparación entre dos o más curvas de sobrevida (la representación gráfica de la fracción o porcentaje de pacientes vivos a tiempos dados (por ejemplo uno, dos, tres, cuatro y cinco años luego de una cirugía de by-pass o de un diagnóstico de cáncer de mama) suele analizarse con el método de log-rank. Este método se basa en cálculos simples sobre cuántos individuos "en riesgo" (en riesgo de morir, para curvas de sobrevida) se hallan al inicio de cada período, y cuántos llegan vivos al punto de "control" preasignado. Se calcula una proporción o fracción de los sobrevivientes para cada punto de control. El valor inicial, por definición, es 1.00 y llegará a 0.00 cuando no quede nadie vivo en el seguimiento. Un punto a favor de este test es que cada paciente contribuye información por el tiempo en que ha sido seguido, es decir que si se comienza con muchos pacientes, ellos suman información y precisión al cálculo de la evolución inicial, hasta que fallecen o son perdidos de seguimiento. Sigue de esto que las "colas" de las curvas de sobrevida se basan en datos obtenidos de un número reducido de pacientes, y tienen por tanto un elevado margen de error. Por eso, sacar conclusiones sobre la "cola" de curvas de sobrevida, o peor aún, compararlas, expone a graves imprecisiones y errores, ya que en general hay un puñado de pacientes en ellas, particularmente si el seguimiento no ha sido suficientemente prolongado. Es lo que se llama un ensayo clínico "cuyos datos no han madurado". El método de log rank, entonces, asume que ambas experiencias de sobrevida (para dos tratamientos) pueden ser representadas por dos semirrectas, originadas en el momento inicial de seguimiento, y analiza si la pendiente de caída puede ser declarada "significativamente diferente" entre ambas (es decir, no debida al azar)
- para ensayos en que los tratamientos son breves, y los pacientes "se crucen" de uno a otro en cierto punto (y no se generen superposiciones o efectos residuales de los tratamientos), hay un test llamado "de preferencias". Este test adjudica un punto por cada paciente que prefiere un tratamiento determinado, A, con lo que su representación gráfica va siendo desviada hacia arriba de una línea horizontal. En contraste, por cada paciente que prefiere B, la gráfica se mueve en un punto hacia abajo. Los "empates" (ausencia de preferencia) son descartados. El método estadístico fija límites superiores e inferiores, de modo que si un tratamiento acumula suficientes "puntos" como para traspasar el límite, se lo declara "ganador".
Test estadísticos para comparaciones de riesgo de un evento. Hazard ratio
Son numerosos los ensayos clínicos que comparan el porcentaje o fracción de pacientes tratados con A o con B que desarrollan un evento (generalmente, adverso, tal como muerte, infarto agudo de miocardio, accidente cerebrovascular). El objetivo de estos ensayos es evaluar si un nuevo tratamiento A reduce o no el riesgo de presentar tal evento.
Si aceptamos llamar "riesgo" a la probabilidad de que un determinado evento suceda, tenemos que entonces, riesgo (R ) es un cociente, del mismo modo que la probabilidad lo es:
Riesgo = número de individuos a quienes sucede el evento predefinido / número de individuos en riesgo de sufrir ese evento.
El valor numérico de riesgo es por lo tanto, un valor entre 0.00 y 1.00. Esta expresión en forma de cociente (proporción) permite comparar muestras o poblaciones de diverso tamaño y estimar su riesgo. Del mismo modo, comparamos el riesgo de (por ejemplo) muerte en una población definida (pacientes hipertensos, fumadores, hipercolesterolémicos y en sobrepeso) a lo largo de un tiempo de observación predefinido:
Riesgo de muerte con el tratamiento A vs riesgo de muerte con el tratamiento B
Surge de esto que una forma de comparar sería el cociente entre riesgos. A este cociente se lo llama "riesgo relativo" (relative risk, RR). Podemos expresarnos en términos de "cociente de riesgos" o hazard ratio (HR). En otras palabras, se trata de expresar, en un quebrado (para el HR, valor numérico entre 0.00 y 1.00) la probabilidad relativa de reducción del riesgo. Es un detalle técnico, pero obviamente podría haber interés en estimar en cuánto aumenta una intervención o factor el riesgo de infarto, y podría invertirse el cociente, que entonces podría ser superior a 1.00. Por ejemplo, el riesgo de infarto de miocardio a 10 años en individuos fumadores suele ser 10 veces superior al de los no-fumadores, a todo lo demás igual. En este caso, el riesgo relativo (RR) se expresaría RR= 10.0. Si por el contrario buscáramos mostrar si una intervención (por ejemplo, aspirina en bajas dosis) reduce o no el riesgo de infarto de miocardio, preferiríamos poner en el denominador el riesgo del grupo control (placebo, en los primeros ensayos clínicos realizados), y en el numerador, el riesgo del grupo tratado con aspirina. Si la proporción (riesgo) de infarto fuese menor en el grupo aspirina (que lo es, en muchos ensayos), entonces, el riesgo relativo sería menor que 1.00. Bastante menor. La tarea del test utilizado sería examinar si esa diferencia con el valor de 1.00 (que señalaría un "protector ineficaz") es significativa o se podría deber al azar.
Otra forma de brindar información para que el lector saque sus propias conclusiones es proveer un importante "producto intermedio" del cálculo estadístico: el intervalo de confianza del 95% para esos datos (IC95). Este valor señala los límites numéricos dentro de los cuales cae el 95% de los datos obtenidos en el grupo en estudio. Para el caso de un cálculo de riesgo, si el cociente fuese de (digamos) 0.70 (70% de probabilidad del evento) con A, el IC95 dependerá críticamente del número de pacientes incorporados en esa rama. En otras palabras, el IC95 da idea de la precisión de la estimación de riesgo (a los fines de extrapolarla a la "verdadera" población general). Así, una forma típica de expresión sería: con A, riesgo de infarto : 0.45 (IC95 0.12-0.72). Para los pacientes tratados con B, el riesgo (pongamos por caso) podría ser 0.92 (IC 95: 0.83-1.09). El cálculo de riesgo relativo (RR) aquí es de 0.45 / 0.92 = 0.489. Esto significa que el tratamiento A se asoció con una reducción del riesgo levemente superior al 50%, respecto del tratamiento B. Esta diferencia... será significativa?
Si el test estadístico debe responder si la probabilidad de obtener una X diferencia entre dos tratamientos tiene o no menos de 5% de probabilidad de haberse debido al azar, se sigue que entre dos tratamientos A y B, el mero hecho de ver una superposición entre los IC95 implica que la diferencia es "no-significativa". Expliquemos: si los IC95 obtenidos para el grupo A y el grupo B tienen alguna superposición, esto significa que la probabilidad de obtener por azar esa diferencia entre valores es igual o superior al 5%. Según el criterio prefijado, declararemos no-significativa a la diferencia hallada.
En el ejemplo numérico brindado, al ver que los IC95 no tenían superposición, ya sabíamos que la diferencia era significativa.
Reducción de riesgo: relativa o absoluta?
Muchos argumentan que con una gran capacidad de incorporación de pacientes (decenas de miles), un ensayo clínico podría detectar diferencias minúsculas, médicamente irrelevantes. Esta afirmación es básicamente cierta. Lo "estadísticamente significativo" no siempre tiene valor médico. Corresponde a los médicos decidir sobre ese punto. ¿Son los "endpoints" (1) relevantes para la práctica médica?. ¿ De qué magnitud de diferencia estamos hablando?. ¿Vale la pena todo el esfuerzo para reducir la tensión arterial diastólica en un promedio de 2 mmHg?.
Para clarificar este punto es útil tener a mano los resultados, expresados tanto en forma relativa (por ej: "la aspirina redujo el riesgo de infarto en 40% respecto de placebo"), lo cual está expresado por un riesgo relativo o hazard ratio de 0.60, y también en forma absoluta (por ej: "en esta población, en que el riesgo de infarto era naturalmente bajo, la reducción absoluta de riesgo fue de 0.4 puntos porcentuales: de 1.0% bajó a 0.6% con aspirina"). Verdaderamente, son dos formas muy diferentes de comunicar los resultados, y tienen diferente impacto a la hora de tomar una decisión, tanto en las mentes de los médicos como de los pacientes.
(continuará).
Buenos Aires, abril de 2006.
- Endpoints: eventos predefinidos (por ejemplo, muerte, remisión completa de una leucemia, hospitalización, accidente cerebrovascular, fractura de cadera), considerados como "línea de llegada" en un ensayo clínico, a los fines de evaluar comparativamente los tratamientos o intervenciones.