Taller de matemáticas: El papel de la Estadística en las ciencias Biomédicas


Hoy he tenido el placer de asistir a una conferencia en la que se ha expuesto de una manera muy clara y amena la estrecha y fructífera, aunque no siempre fácil, relación simbiótica entre las matemáticas y las ciencias de la salud. En concreto se ha hablado de la relación entre la estadística y la medicina, que tiene el nombre de bioestadística. En una hora y media se ha explicado la aplicación de técnicas y métodos estadísticos con la inevitable ayuda de la computación a diversas áreas de la medicina con ejemplos prácticos concretos.

La conferencia fue impartida por la profesora Carmen Cadarso Suárez, miembro del Departamento de Estadística e Investigación Operativa de la Universidad de Santiago de Compostela (USC), que además es directora del Máster de Bioestadística que imparte la USC.

La profesora Cadarso Suárez, aparte de aportar una información de primera mano de la experiencia en casos concretos de una profesional de la matemática en el mundo de la medicina, expuso su experiencia personal del trato entre diversos profesionales de diversas disciplinas de los grupos multidisciplinares que trabajan actualmente en biomedicina (biólogos, psicólogos, médicos, físicos, ingenieros bioinformáticos y matemáticos) y en especial de la relación con los profesionales de la medicina, que cada vez más han ido acudiendo a los matemáticos para resolver diversos problemas de su campo. La profesora puso el acento en la capacidad del matemático de escuchar de forma abierta a los profesionales de la medicina y ayudarles a comprender el punto de vista matemático. De hecho indicó que en muchas publicaciones en revistas científicas del campo de la estadística han aparecido como coautores de artículos de aplicación de técnicas estadísticas novedosas al campo de la medicina, donde han aportado el punto de vista médico. También expresó la inmensa satisfacción que produce ver cómo las matemáticas y las soluciones que han propuesto los matemáticos se han abierto paso en el mundo médico y han aportado grandes avances, sobretodo en el software utilizado por los profesionales como apoyo en su trabajo diario.

Ya hablando de la conferencia, se comenzó justificando la entrada de la estadística en el cambio de las ciencias biomédicas. La investigación biomédica actual es una empresa compleja que se realiza dentro de un grupo multidisciplinar de biólogos, psicólogos, físicos, bioinformáticos y médicos. La bioestadística se encuadra en un triángulo formado por la estadística, la medina y la computación, siendo el intercambio bidireccional entre estadística y medicina con el apoyo en ambos casos de la computación como un ente instrumental habilitador de ambos campos. En la transparencia en la que mostraba está relación aparecía una referencia a un paper (que me he preocupado de buscar en Internet):

Paper Celebrating the 25th Anniversary of Statistics in Medicine. Biostatisticians, Biostatistical Science and the Future. Marvin Zelen. Department of Biostatistics, Harvard School of Public Health, Harvard University, Boston, U.S.A. STATISTICS IN MEDICINE. Statist. Med. 2006; 25:3409–3414. Published online 23 August 2006 in Wiley InterScience (www.interscience.wiley.com) DOI: 10.1002/sim.265

que como se puede leer es un paper que celebra el 25 aniversario de la introducción de la estadística en la medicina. Toda una joya para leer.

Siguiendo con la conferencia, la profesora nos explicó por encima las ciencias de la salud, divididas en tres grandes grupos: básica (de la biología a la biotecnología pasando por la neurociencia), clínica (diagnóstico y tratamiento: cardiología, …) y epidemiológica (en donde lo importante es prevenir) La ciencias de la parte básica han pasado de tener un mero papel de generadoras de conocimiento para su aplicación en las otras dos, a tener un papel activo aplicado tras el descifrado del genoma humano (por ejemplo en el descubrimiento de la base genética de muchas enfermedades) La estadística ha entrado en todas las áreas con técnicas como la asociación (ayudando a responder a preguntas del tipo, ¿fumar provoca (es la causa del) cáncer de pulmón? mediante Hazard Ratio, Odds Ratio, Relative Risk, …), clasificación (diagnosis clínica) y predicción.

Una vez explicado todo esto se pasó a las explicaciones prácticas de técnicas estadísticas concretas aplicadas a la medicina …

Epidemiología

Estudios de factores de riesgo de enfermedades y/o muerte. Son estudios de causalidad donde se intenta cuantificar de alguna manera la incidencia de los llamados factores de exposición en ciertas enfermedades. Si llamamos F al factor y E a la enfermedad, se trata de estudiar a grupos de individuos libres de la enfermedad en el momento de iniciar el estudio, divididos en dos grupos. El primer grupo no está expuesto al factor de riesgo y el segundo sí. Se realiza un seguimiento en el periodo del experimento (que puede ser largo, de muchos años, con el consiguiente riesgo de pérdida de sujetos por el camino …) y al final se calcula un cociente de probabilidades:

RRF/[F] = p (E/F) / p (E/[F])

donde el numerador representa la probabilidad condicionada de tener la enfermedad si se fuma y el denominador la probabilidad condicionada de tener la enfermedad si no se fuma. Si el cociente es 1, no hay asociación entre E y F. Si el cociente es mayor que 1 entonces F se convierte en un factor de riesgo. Si el cociente es menor que 1, entonces F se convierte en un factor de protección.

A esto se le llama estudio de cohortes y permite definir si un factor de riesgo es causa de una enfermedad. Se puso el ejemplo del tabaco como F y el cáncer como E. Si el cociente es mayor que uno se puede decir que el tabaco causa cáncer y ponerlo en una cajetilla de tabaco.

NOTA: He puesto como notación compatible para poder meterla en el blog F = fumar; [F] = No Fumar (en realidad esta última de representa con una raya horizontal por encima)

Debido a la dificultad de llevar a cabo estos proyectos temporales tan largos (aunque en la realizada se hacen, se hacen pocos) se puede llevar el camino contrario. En los hospitales los médicos disponen de conjuntos de pacientes con historiales médicos completos. Se puede coger una muestra (conjunto) de estos casos y dividirlos en dos grupos, según hayan fumado o no. Al segundo grupo se le llama grupo de control. Se examinan los datos de la muestra, obteniendo la nueva información de si fuman o no y sabiendo cuál ha sido el resultado de enfermedad. Entonces de calculan las ventajas (odds, siguiendo el símil de apuestas deportivas):

odds (E) = p (F/E) / p ([F]/E)

odds ([E]) = p (F/[E]) / p ([F]/[E])

y al final se halla el odds ratio (cociente entre los dos odds):

ORF/E = Odds(E) / odds ([E])

Si es igual a 1, entonces no hay asociación. Si es menor que 1, entonces F es un factor protector. Si es mayor que 1, entonces F es un factor de riesgo.

Esto se llama un estudio de caso-control. En este estudio, no obstante, al partir del resultado hacia las causas, perdemos la causalidad, quedando simplemente la relación más débil de asociación. Ahora solamente podemos decir que fumar PUEDE causar cáncer de pulmón.

¿Qué pasa si los factores de exposición no son discretos (si/no) sino que son variables continuas, por ejemplo, una medida de glucosa en sangre. Ahora tendríamos que intentar contestar a una pregunta como: ¿es la glucosa un factor de riesgo para la infección post-quirúrgica?

En este caso la técnica estadística que se emplea es una OR temporal, una función continua y suave que se obtiene mediante logistic generalized additive models (GAM) (Hastie-Tibshirani), un tipo de logistic regression donde se tiene un cociente de logaritmos (logit) que se puede poner como una suma de factores entre ellos uno que es función del nivel de glucosa f(glucosa) que se denomina efecto principal.

logit = beta0 + f(glucosa)

Las gráficas que suelen salir tienen forma de cuchara (spoon) con el mínimo en el factor con valor 0. Esto significa, en el caso de la glucosa, que hay riesgo tanto si se tienen valores positivos como si se tienen negativos (hipoglucemia) El asunto de las curvas es curioso por cuanto tradicionalmente los médicos manejaban relaciones lineales (rectas) por defecto y no entendían cómo un fenómeno podía seguir otra forma de curva (curvas U, curvas J, …) que están más en consonancia con los modelos biógicos.

NOTA: las gráficas suelen tener la línea de la función y una zona alrededor de ella que la envuelve que da una medida del intervalo de confianza o significación estadística de la curva calculada.

El análisis anterior solamente tiene en cuenta un factor o variable, es decir, es univariante. Pero la realidad biológica es que intervienen más variables, que además pueden estar relacionadas entre sí. Para esto se hace un análisis multivariante. Esto nos va a dar gráficas en 3D por ejemplo para el caso de dos variables que además de los efectos principales considera las interacciones entre las variables. La ponente puso un ejemplo extendido del de la glucosa pero no lo recuerdo bien (cuando cuelguen la presentación en MATESCO lo completaré)

Neurociencia

Aquí el ejemplo fue el estudio de la actividad neuronal y su relación con la conducta. El campo de las neurociencias que se encarga de esto se llama neurofisiología. El objetivo es obtener una teoría neuronal de la decisión.

Se trata de estudiar el tiempo de diparo (spike time) de una neurona de la región del cerebro que se dedica al procesado de la visión en un animal, ante un estimulo visual cambiante (un segmento de recta grueso en una pantalla que se muestra en variias posiciones de giro) De ese experimento se sacan unas series temporales (señales) de la actividad eléctrica de la neurona que codifican la actividad neuronal, donde se puede ver la frecuencia de disparos (spikes) y los intervalos entre disparos en relación con las imágenes de test mostradas. Al repetir el experimento un número de veces se obtiene un conjunto (ensemble) de señales llamado raster plot. A este rater plot se le aplican análisis de estadística descriptiva como la obtención de un histograma (PSTH)

Los estudios no se limitan a una neurona sino que se extiende a dos, para estudiar el fenómeno de la sincronía neuronal entre parejas de neuronas. Aquí se secan gráficas bidimensionales donde se pueden observar las coincidencias o no de activación etre ambas neuronas. También se pueden acar tablas de contingencia de disparos (spike contingence tables) en las que el análisis se ve dificultado por la dominancia de los valores 00 (i.e aquellos en los que ninguna de las neuronas está disparada) Existe una gran actividad investigadora en el campo de herramientas matemáticas que puedan utilizarse para estudiar esta sincronía sin que influya esa dominancia. Una propuesta que se comentó es la utilización de sincronía condicional una cantidad función del tiempo obtenida a partir de un cociente de tasas marginales y conjuntas de disparos (siento no dar más detalles …)

Y al final el estudio se extiende hacia grupos de N neuronas (population based neuron analysis) En función de los experimentos se pueden trazar las mismas curvas OR(t) que vimos en epidemiología (aquí la variable discreta es disparo/no disparo de la neurona)

Es decir, que como en el primer caso de epidemiología empezamos con un estudio univariante (1 neurona) para continuar con uno bivariante (dos neuronas, sincronía neuronal) para acabar con estudio de grupos (poblaciones) de neuronas, es decir, análisis multivariante.

Radiología

El ejemplo que se puso es la detección de tumores a partir de imágenes obtenidas de radiología (placas) Los sistemas software (que utilizan técnicas estadísticas y tratamiento digital de la imagen) que realizan la localización de los tumores de llaman Computer Aided Diagnosis. Por ejempo se mostró una imagen de una mamografía con concentraciones de nódulos precursores del cáncer.

Se explicó que para calibrar estos sistemas se utilizan técnicas estadísticas. La calibración consiste en pasarle al sitema imágenes de casos en los que ya sa sabe el resultado y obtener del sistema la localización de los nódulos. Los resultados de la calibración podrán ser positivos verdaderos (true positives) o falsos positivos (false positive) En el primer caso elsistema localiza correctamente los nódulos donde los hay, mientras que en el segundo indica que hay uno cuando no lo hay. Existe una tercera posibilidad, los falsos negativos (false negative) El sistema indica que no hay nódulos cuando en realidad los hay. El coste de los errores en un sistema como este no es simétrico. Está claro que el coste de un falso negativo es mucho mayor que el del falso positivo. La herramienta gráfica que se utiliza es el ROC, cuya curva característica indica lo bueno que es el CAD. La bisectriz de la gráfica representa “adivinar” el resultado. La curva ROC suele ser cóncava sobre esa línea. El área debajo de la curva (hasta la línea recta) se llama AUC y es la que hay que maximizar.

Existe una variante llamada ROC condicional, que es una curva 3D que depende de un parámetro adicional. Permite responder a preguntas como si el tamaño del nódulo o el nivel de gris de la imagen o la densidad del tejido (si es tejido graso o no) afectan a la calidad del CAD (a su curva ROC) En los ejemplos que se puso se demostró que el nivel de gris no influye mientras que el tipo de tejido si influye en el nivel de gris que hay que poner para que la detección sea máxima.

Medicina Forense

El ejemplo más interesante en mi opinión que se puso fue el de la medicina forense. Establecer las causas de la muerte o el tiempo que lleva muerto un cadáver, el intervalo post mortem (PMI) Existen muchos métodos tradicionales (algunos se han posido ver en películas como CSI o Rex) para determinar este tiempo como la temperatura corporal, el rigor mortis, … Pero existe también otro sistema a base del análisis de las sustancias bioquímicas presentes en el humor vítreo del ojo: urea, hipoxantina y potasio.

Se han desarrollado programas informáticos, accesibles a través de la web de la Academia Internacional de Medicina Legal, que permiten estimar el tiempo de muerte de un cadáver a partir de los valores de la presencia de las sustancias químicas que hemos indicado, que se pueden obtener en el trabajo de campo de los médicos forenses (su medio habitual) ¿Cómo se obtienen esas estimaciones? A partir de la aplicación de modelos como Logistic Regression, SVM,modelos aditivos ( AM, AM2), … La ponente mencionó un software para la PMI desarrollado por su grupo en la USC llamado pmicalc, que está escrito en R.

Claro que, no todos esos modelos tienen capacidad de producir una explicación completa de cómo han llegado al valor estimado, es decir, son una caja negra, y suelen ser los más rápidos y con un intervalo de confianza más alto. Esta cualidad de caja negra los hace inválidos en los juicios. Por lo tanto la utilización de un modelo u otro ya no solamente tiene una consideración de eficacia o de eficiencia, sino que se debe incluir la transparencia para el usuario.

Conclusión

El software es un producto muy importante resultado de la investigación matemática aplicada, el pasar de unos modelos a unos programas que los apliquen y sean fácilmente utilizados y comprendidos por los usuarios que tienen que interpretar los resultados (médicos, sí, pero también abogados o jueces, como hemos visto)

2 comentarios en “Taller de matemáticas: El papel de la Estadística en las ciencias Biomédicas

  1. En la búsqueda por Google que hice para encontrar el paper de Zelen que aparecía en la transparencias me apareció en primer lugar un enlace a un artículo de la profesora Cadarso Suárez y un colega sobre el mismo tema en la revista Arbor del CSIC:

    STATISTICS IN BIOMEDICAL RESEARCH.

    Carmen Cadarso-Suárez.
    Biostatistics Unit, Department of Statistics and Operations Research,
    University of Santiago de Compostela, Spain.

    Wenceslao González-Manteiga
    Department of Statistics and Operations Research,
    University of Santiago de Compostela, Spain

    ARBOR Ciencia, Pensamiento y Cultura CLXXXIII 725 mayo-junio (2007) 353-361 ISSN: 0210-1963

    RESUMEN: La Bioestadística es hoy en día una componente científica fundamental de la investigación en Biomedicina, salud pública y servicios de salud. Las áreas tradicionales y emergentes de aplicación incluyen ensayos clínicos, estudios observacionales, fisología, imágenes, y genómica. Este artículo repasa la situación actual de la Bioestadística, considerando los métodos estadísticos usados tradicionalmente en investigación biomédica, así como los recientes desarrollos de nuevos métodos, para dar respuesta a los nuevos problemas que surgen en Medicina. Obviamente, la aplicación fructífera de la estadística en investigación biomédica exige una formación adecuada de los bioestadísticos, formación que debería tener en cuenta las áreas emergentes en estadística, cubriendo al mismo tiempo los fundamentos de la teoría estadística y su metodología. Es importante, además, que los estudiantes de bioestadística reciban formación en otras disciplinas biomédicas relevantes, como epidemiología, ensayos clínicos, biología molecular, genética y neurociencia.

  2. Me ha encantado este artículo.
    Debo señalarle que en Departamento de Estadística de la Universidad de Panamá estamos organizando un seminario-taller en el cual queremos desarrollar cursillos sobre biomédica y bioinformática, podría recomendarme a un investigador en estas disciplinas, si fuera posible la misma profesora Carmen Cadarso Suárez.
    Muchas gracias.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s