La IA puede descifrar la complejidad del cáncer — si construimos primero la infraestructura de datos

23 mar 2026

Investigadores analizando datos de oncología mientras la IA ayuda a generar hitos científicos y agilizar el trabajo en el laboratorio.

La investigación del cáncer está evolucionando: de laboratorios aislados a descubrimientos impulsados por la IA y datos compartidos. Image: Unsplash/National Cancer Institute

Alicia Zhou

CEO, Cancer Research Institute

Los enormes conjuntos de datos compartidos permitieron que la IA moderna domine tareas complejas como la programación y el razonamiento humano.
Actualmente, los silos de información fragmentada impiden que el machine learning logre hitos que salven vidas en la inmunoterapia contra el cáncer.
Una infraestructura estandarizada y la colaboración global podrían acelerar el descubrimiento de fármacos mediante la creación de redes de investigación listas para la IA.

Los grandes modelos de lenguaje (LLM) aprendieron a escribir, programar y razonar porque fueron entrenados con enormes conjuntos de datos compartidos —desde las obras de Shakespeare hasta repositorios de software. La escala, la estandarización y el acceso abierto hicieron posible la IA moderna.

La investigación del cáncer merece el mismo trato.

Los modelos de IA ya pueden detectar patrones en miles de millones de variables. Aplicados a la medicina, estos sistemas podrían predecir qué pacientes responderán al tratamiento, descubrir por qué fallan las terapias y simular combinaciones de fármacos antes de que lleguen a un ensayo clínico. En la inmunoterapia —donde los resultados dependen de millones de interacciones dinámicas entre las células inmunitarias y los tumores— ese tipo de reconocimiento de patrones podría ser transformador.

“

Los sistemas de aprendizaje automático solo funcionan tan bien como los datos con los que se entrenan.

”

La ciencia está lista. Lamentablemente, la infraestructura de datos no lo está. Hoy en día, la mayor parte de la investigación sobre el cáncer sigue ocurriendo laboratorio por laboratorio, conjunto de datos por conjunto de datos. Información valiosa se queda atrapada en silos: bloqueada tras firewalls institucionales, dispersa en archivos complementarios o almacenada en formatos incompatibles. Incluso cuando se publican los hallazgos, los datos subyacentes suelen estar incompletos (con un sesgo hacia los resultados positivos) o son imposibles de reproducir.

Los sistemas de aprendizaje automático solo funcionan tan bien como los datos con los que se entrenan. Bases de datos fragmentadas e inconsistentes producen conclusiones fragmentadas e inconsistentes. Sin estándares compartidos y datos agrupados, la IA no podrá ayudarnos a descifrar la complejidad del tratamiento contra el cáncer, por muy potentes que sean los algoritmos.

Si queremos que la IA acelere las curas, primero tenemos que construir la base de datos adecuada para su entrenamiento.

Por qué importan los datos compartidos

Este momento es único por su trascendencia. Por un lado, la biología ha entrado en una nueva era. Las tecnologías de célula única y espaciales ahora nos permiten observar el sistema inmunitario con una resolución extraordinaria; no solo qué células están presentes, sino dónde se ubican, cómo interactúan y cómo evolucionan con el tiempo. Podemos medir el cáncer (y su tratamiento) como un sistema vivo y dinámico. Por otro lado, las arquitecturas de IA han madurado para procesar precisamente este tipo de datos multimodales —genómicos, espaciales y longitudinales— a escalas que los humanos simplemente no podemos procesar.

Por primera vez, las herramientas de medición y las herramientas computacionales están alineadas. Pero sin una infraestructura coordinada, corremos el riesgo de perder una oportunidad inmensa.

Las consecuencias no son teóricas. La investigación que no se puede reproducir desperdicia un estimado de 28 000 millones de dólares al año solo en Estados Unidos, y el problema empieza con el acceso. Cuando el Center for Open Science intentó verificar 193 experimentos de los estudios de cáncer más influyentes, no pudo obtener información suficiente ni siquiera para intentar la mayoría de ellos. De los 50 experimentos que lograron completar en ocho años, menos de la mitad produjo los mismos resultados. Los datos estaban bloqueados tras muros de pago, enterrados en cajones de archivos o simplemente nunca se compartieron. Un estudio de BMC Medicine encontró que solo el 16% de los datos oncológicos está disponible públicamente, y esa cifra cae por debajo del 1% cuando se coteja con los estándares que permitirían a otros investigadores utilizarlos realmente.

En un campo en el que las vidas dependen de la rapidez, esta ineficiencia es inaceptable. Y en un momento en el que la inteligencia artificial tiene el potencial de acelerar los descubrimientos, se ha convertido en nuestro mayor obstáculo.

Sentando las bases: CRI Discovery Engine

En el Cancer Research Institute, lanzamos recientemente el CRI Discovery Engine para cerrar esta brecha —no como una base de datos privada, sino como una infraestructura compartida para todo el sector.

Trabajando junto a investigadores de la Facultad de Medicina de la Universidad de Stanford, la Facultad de Medicina Perelman de la Universidad de Pensilvania y el Memorial Sloan Kettering Cancer Center, así como con nuestro socio tecnológico 10x Genomics, estamos estandarizando cómo se generan, estructuran y comparten los datos de inmunoterapia. El objetivo es simple: crear un conjunto de datos extenso, armonizado y listo para la IA que cualquier investigador calificado pueda utilizar.

Los científicos participantes se han comprometido a derribar los silos de la investigación académica aportando sus propios hallazgos iniciales a la base de datos. Tras la fase inicial, investigadores de todo el mundo podrán añadir sus datos, creando un recurso vivo que seguirá aumentando su valor. Nuestro objetivo es crear un lenguaje común para la investigación en inmunoterapia del cáncer que haga que los resultados sean reproducibles, comparables y accesibles para la IA.

Es importante destacar que este tipo de esfuerzo solo funciona cuando los incentivos están alineados. Es comprensible que las empresas protejan su propiedad intelectual y que los laboratorios individuales compitan por reconocimiento y financiamiento. Pero enfermedades como el cáncer no respetan las fronteras institucionales. La colaboración precompetitiva —donde se comparte la infraestructura de datos incluso mientras las terapias compiten entre sí— es esencial.

Aquí es donde las organizaciones sin fines de lucro y las alianzas público-privadas pueden desempeñar un papel fundamental: convocando a las partes interesadas, estableciendo estándares y construyendo activos que ninguna entidad por sí sola podría justificar crear.

Próximos pasos

Los próximos hitos en la lucha contra el cáncer no vendrán de un solo laboratorio ni de un solo algoritmo. Vendrán de las redes: científicos, clínicos, tecnólogos y responsables de políticas públicas trabajando desde la misma base.

Imaginemos modelos de IA entrenados con datos armonizados de miles de combinaciones de cáncer y tratamientos. Los investigadores podrían probar hipótesis en experimentos simulados antes de realizar los reales. Los médicos podrían identificar quiénes responderán mejor antes de comenzar el tratamiento. Los descubrimientos realizados en una institución podrían acelerar inmediatamente el progreso en otra.

Esto no es una utopía. Es infraestructura. Y como cualquier proyecto de infraestructura —carreteras, redes eléctricas, el internet— requiere coordinación, estándares e inversión colectiva.

La IA nos ayudará a descifrar la complejidad del cáncer. Pero los algoritmos por sí solos no salvarán vidas. El verdadero trabajo es construir una base común que permita que la inteligencia (tanto humana como artificial) aprenda en conjunto. Si logramos eso, podemos comprimir décadas de descubrimientos en solo unos años.

Para los pacientes, ese tiempo no es una métrica trivial. Es supervivencia.

¿Has leído?

No te pierdas ninguna actualización sobre este tema

Crea una cuenta gratuita y accede a tu colección personalizada de contenidos con nuestras últimas publicaciones y análisis.

Inscríbete de forma gratuita

Licencia y republicación

Los artículos del Foro Económico Mundial pueden volver a publicarse de acuerdo con la Licencia Pública Internacional Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0, y de acuerdo con nuestras condiciones de uso.

Las opiniones expresadas en este artículo son las del autor y no del Foro Económico Mundial.