La revisión se utiliza para detectar el cáncer de mama en una etapa temprana en las mujeres que no tienen signos obvios de la enfermedad. Esta tarea de análisis de imágenes es un desafío porque el cáncer a menudo se oculta o enmascara en las mamografías al superponerse el tejido mamario “denso”.
El problema ha estimulado los esfuerzos para desarrollar sistemas de inteligencia artificial (IA) basados en computadora para mejorar el desempeño diagnóstico. Escribiendo en Nature, McKinney et al. reportan el desarrollo de un sistema de IA que supera a los radiólogos expertos en la interpretación exacta de los mamogramas de los programas de detección. El trabajo es parte de una ola de estudios que investigan el uso de la IA en una gama de contextos de imágenes médicas.
Detalles del estudio
A pesar de algunas limitaciones, el estudio de McKinney y sus colegas es impresionante. Sus fortalezas incluyen la gran escala de los conjuntos de datos utilizados para el entrenamiento y la posterior validación del algoritmo de IA.
Se usaron mamografías para 25.856 mujeres en el Reino Unido y 3.097 mujeres en los Estados Unidos para entrenar el sistema de IA. El sistema se usó luego para identificar la presencia de cáncer de mama en los mamogramas de mujeres que se sabía que habían tenido cáncer de mama probado por biopsia o resultados de imagenología de seguimiento normal al menos 365 días después.
Estos resultados son el estándar de oro ampliamente aceptado para confirmar el estado de cáncer de mama en las personas que se someten a la prueba de detección de la enfermedad. Los autores informan que el sistema de IA superó tanto las decisiones históricas tomadas por los radiólogos que evaluaron inicialmente los mamogramas, como las decisiones de 6 radiólogos expertos que interpretaron 500 casos seleccionados al azar en un estudio controlado.
Resultados
Los resultados de McKinney y sus colegas sugieren que la IA podría algún día tener un papel en ayudar a la detección temprana del cáncer de mama, pero los autores señalan con razón que se necesitarán ensayos clínicos para evaluar más a fondo la utilidad de esta herramienta en la práctica médica. El mundo real es más complicado y potencialmente más diverso que el tipo de ambiente de investigación controlado reportado en este estudio. Por ejemplo, el estudio no incluyó todas las diferentes tecnologías de mamografía actualmente en uso, y la mayoría de las imágenes fueron obtenidas usando un sistema de mamografía de un solo fabricante.
El estudio incluyó ejemplos de dos tipos de mamografía: tomosíntesis (también conocida como mamografía 3D) y mamografía digital convencional (2D). Sería útil saber cómo el sistema funcionó individualmente para cada tecnología.
La demografía de la población estudiada por los autores no está bien definida, salvo por la edad. El rendimiento de los algoritmos de IA puede ser altamente dependiente de la población utilizada en los sets de entrenamiento. Por lo tanto, es importante que se utilice una muestra representativa de la población general en el desarrollo de esta tecnología, para asegurar que los resultados sean ampliamente aplicables.
Detección asistida por computadora
Otra razón para moderar el entusiasmo sobre este y otros estudios similares de IA son las lecciones aprendidas de la detección asistida por computadora (CAD, por sus siglas en inglés) del cáncer de mama. La CAD, un sistema de computadora anterior dirigido a mejorar la interpretación de la mamografía en la clínica, mostró una gran promesa en las pruebas experimentales, pero se quedó corta en los escenarios del mundo real. La CAD marca las mamografías para llamar la atención del intérprete sobre las áreas que podrían ser anormales.
Sin embargo, el análisis de una muestra grande de interpretaciones de mamografía clínica del registro del Consorcio de Vigilancia del Cáncer de Seno de los Estados Unidos demostró que no había ninguna mejora en la exactitud diagnóstica con CAD. Además, ese estudio reveló que la adición de CAD empeoró la sensibilidad (el desempeño de los radiólogos para determinar que el cáncer estaba presente), aumentando así la probabilidad de una prueba de falso negativo. La CAD no resultó en un cambio significativo en la especificidad (el desempeño de los radiólogos para determinar que el cáncer no estaba presente) y en la probabilidad de una prueba positiva falsa.
Se ha especulado que la CAD no era tan útil en la clínica como los datos experimentales sugerían que podría ser porque los radiólogos ignoraron o usaron mal su entrada debido a la alta frecuencia de marcas en las imágenes que no eran hallazgos sugestivos de cáncer. Algunos atribuyeron este resultado al limitado poder de procesamiento disponible para la EAC, lo que significaba que no era posible hacer comparaciones con estudios previos de imágenes de la misma persona. Por lo tanto, la EAC podría marcar regiones que no cambiaban con el tiempo y que podrían ser fácilmente descartadas por los lectores expertos.
Otro factor que limitó la DAC es que se desarrolló utilizando el rendimiento del diagnóstico basado en el ser humano. Fue entrenada usando mamografías en las que los humanos habían encontrado signos de cáncer y otros que eran falsos negativos – casos en los que los humanos no podían ver signos de cáncer aunque la enfermedad estaba efectivamente presente. También se pueden encontrar dificultades similares con las ayudas para la toma de decisiones basadas en la IA.
Inteligencia artificial
Un sistema por el cual la inteligencia artificial encuentra anormalidades que los humanos pasan por alto requerirá que los radiólogos se adapten al uso de estos tipos de herramientas. Imagine un sistema en el que un algoritmo marca un área de mama densa en un mamograma de exploración y el radiólogo humano no puede ver nada que parezca potencialmente maligno. Con CAD, los radiólogos examinan las áreas marcadas, y si deciden que la marca probablemente no es cáncer, asignan el mamograma como negativo para malignidad.
Sin embargo, si los algoritmos de inteligencia artificial van a hacer una diferencia más grande que la CAD en la detección de los cánceres que actualmente se pasan por alto, una anormalidad detectada por el sistema de IA, pero no percibida como tal por el radiólogo, probablemente requeriría investigación adicional. Esto podría resultar en un aumento en el número de personas que reciben llamadas para evaluación adicional. Un ensayo clínico mostraría el efecto del sistema IA en la detección del cáncer y la tasa de diagnósticos falsos positivos. Mientras que también permitiría el desarrollo de una práctica clínica efectiva en respuesta a los mamogramas marcados como anormales por la inteligencia artificial pero no por el radiólogo.
Además, sería esencial desarrollar un mecanismo para monitorizar el desempeño del sistema de IA a medida que aprende de los casos que encuentra, como ocurre en los algoritmos de aprendizaje automático. Tales métricas de desempeño tendrían que estar disponibles para aquellos que usan estas herramientas, en caso de que el desempeño se deteriore con el tiempo.
Es aleccionador considerar el gran volumen de datos necesarios para desarrollar y probar los algoritmos de IA para las tareas clínicas. El tamizaje del cáncer de seno es quizás una aplicación ideal para la inteligencia artificial en la imagenología médica porque los conjuntos grandes de datos curados adecuados para el entrenamiento del algoritmo y la prueba ya están disponibles, y la información para validar los puntos finales clínicos directos es fácilmente obtenible.
Programas de cribado
Los programas de cribado de cáncer de mama miden de forma rutinaria su rendimiento diagnóstico, tanto si el cáncer se detecta correctamente (un verdadero positivo) como si no se detecta (un falso negativo). Algunas áreas encontradas en las mamografías pueden ser identificadas como anormales, pero en pruebas posteriores resultan no ser cancerosas (falsos positivos). Para la mayoría de las mujeres, los exámenes de detección no identifican anormalidades. Cuando todavía no hay evidencia de cáncer un año después, esto se clasifica como un verdadero negativo.
Sin embargo, la mayoría de las otras tareas médicas tienen resultados clínicos más complicados, en los cuales la decisión del médico no es binaria (entre la presencia o ausencia de cáncer), y por lo tanto también se deben considerar otros signos y síntomas. Además, la mayoría de las enfermedades carecen de conjuntos de datos fácilmente accesibles y validados en los que la “verdad” se define con relativa facilidad. La obtención de conjuntos de datos validados para problemas clínicos más complejos requerirá un mayor esfuerzo por parte de los lectores y el desarrollo de herramientas que puedan interrogar las historias clínicas electrónicas para identificar y anotar casos que representen diagnósticos específicos.
Para lograr la promesa de la IA en la atención de la salud que implica el estudio de McKinney y sus colegas, los datos anonimizados en los registros de salud podrían por lo tanto tener que ser tratados como recursos preciosos de beneficio potencial para la salud humana. De manera muy similar a como se tratan actualmente los servicios públicos como el agua potable. Sin embargo, si tales sistemas de inteligencia artificial van a ser desarrollados y usados ampliamente, se debe prestar atención a la privacidad del paciente, y a cómo se almacenan y usan los datos, por quién y con qué tipo de supervisión.