La IA borra las líneas entre datos reales y sintéticos. Una gobernanza sólida es clave

En la mayoría de las organizaciones, la gobernanza de los datos sintéticos surge de la colaboración entre diferentes grupos. Image: Unsplash/LeifChristophGottwald
Arun Sundararajan
Harold Price Professor, Entrepreneurship and Technology, NYU Stern School of Business- Los datos sintéticos (información generada artificialmente que imita los datos del mundo real) pueden llenar lagunas de datos, proteger la privacidad y permitir probar nuevos escenarios.
- A medida que se borran las líneas entre los datos sintéticos y los reales, surgen nuevas oportunidades, pero también riesgos importantes.
- Los líderes empresariales deben dar prioridad a la supervisión y el cumplimiento normativo, creando sistemas sólidos de trazabilidad y procedencia para regular el uso de los datos sintéticos.
Antes una herramienta especializada utilizada para solucionar lagunas de datos o proteger la privacidad, los datos sintéticos (información generada artificialmente que imita los datos del mundo real) están transformando el uso de la inteligencia artificial (IA) en muchos sectores. Estos datos pueden llenar las lagunas, proteger la privacidad y permitir la prueba de nuevos escenarios, proporcionando una alternativa escalable y rentable ante la escasez o el carácter sensible de los datos del mundo real.
Sin embargo, a medida que prolifera el uso de datos sintéticos, la línea entre lo real y lo artificial se diluye, amenazando la confianza, distorsionando el conocimiento y generando riesgos sistémicos.
Las oportunidades para utilizar datos sintéticos son enormes, pero el éxito dependerá de una gobernanza sólida, de prácticas de datos inclusivas y de alta calidad, y de una colaboración transparente entre desarrolladores, científicos, responsables políticos y líderes de organizaciones.
Evolución de los datos sintéticos
Los datos sintéticos surgieron como una solución para suplir la falta de datos de alta calidad cuando los datos reales resultaban incompletos, sesgados o estaban sujetos a restricciones de privacidad. Esto era especialmente importante cuando los datos requeridos simplemente no existían. Hoy en día, los datos sintéticos continúan complementando los conjuntos de datos reales, cubriendo idiomas, condiciones de salud y grupos demográficos poco representados. Esta técnica mejora la equidad en ámbitos que van desde los ensayos clínicos y la justicia penal hasta la inclusión financiera.
Pero el panorama de los datos sintéticos se ha ampliado drásticamente desde aquellos primeros días. Los datos sintéticos ya no son solo una herramienta necesaria, sino un motor de innovación. Un reciente informe estratégico del Global Future Council on Data Frontiers del Foro Económico Mundial aborda la gama de nuevos métodos para generar datos sintéticos en muchos nuevos ámbitos.
Ahora se pueden replicar entornos urbanos completos para probar vehículos autónomos, como hizo Waymo, empresa de vehículos autónomos. Empresas de tecnología de la información como ByteDance pueden generar nuevos conjuntos masivos de datos sintéticos de entrenamiento para sus sistemas de algoritmos. En la salud, se están utilizando datos sintéticos de pacientes para probar planes de tratamiento a gran escala sin revelar historiales médicos.
Los datos simulados se han vuelto especialmente poderosos, ya que ofrecen entornos controlados para realizar pruebas de estrés en los mercados financieros, modelar los impactos climáticos o ejecutar escenarios de "gemelos digitales" para la planificación de infraestructuras.
Datos sintéticos: nuevos retos
Pero esta promesa acarrea nuevos riesgos. Dado que los datos sintéticos son omnipresentes, realistas y fundamentales para configurar los sistemas de IA, pueden llegar a ser indistinguibles de las fuentes de datos auténticas. Esto genera varios riesgos:
Amplificación de sesgos o errores
Si los datos subyacentes utilizados para generar datos sintéticos son sesgados o incorrectos, los resultados pueden reforzar las desigualdades en lugar de reducirlas –especialmente si el proceso de generación de los datos sintéticos es sesgado. Este problema se ve agravado por la frecuencia cada vez mayor con la que se crean conjuntos de datos con el fin de entrenar sistemas de IA.
Autofagia de la IA
A medida que los sistemas de IA se entrenan con resultados generados por IA, la precisión y la fiabilidad se degradan, lo que socava el funcionamiento en ámbitos como la visión artificial o el procesamiento del lenguaje natural. Más allá del contexto bien documentado del "colapso del modelo" de IA generativa, este riesgo puede presentarse de formas más sutiles. Por ejemplo, los sistemas de visión artificial pueden verse comprometidos si se entrenan con datos de imágenes y vídeos generados por IA que proliferan rápidamente y en los que la iluminación, el movimiento o los objetos superpuestos no se representan de forma realista.
Erosión de la confianza
Desde los deepfakes hasta el robo de identidad por clonación de voz, los medios sintéticos no autorizados amenazan la confianza pública en la autenticidad de los datos. Si las personas ya no creen lo que ven, oyen o leen, las consecuencias se extienden mucho más allá de los sistemas técnicos.
Estos riesgos, aunque son conocidos, se ven magnificados por la dificultad de distinguir entre los datos generados por IA y los datos del mundo real. En otras palabras, las ventajas de los datos sintéticos se convierten en un problema cuando la gobernanza es débil.
Colaborar para la gobernanza de los datos sintéticos
Los datos sintéticos pueden generar mejores resultados cuando las organizaciones hacen hincapié en una gobernanza sólida, transparencia y colaboración entre múltiples partes interesadas. El éxito consiste en tender puentes entre dos mundos: los desarrolladores y usuarios finales que crean y aplican la tecnología, y los ejecutivos, asesores jurídicos y expertos en políticas que determinan su uso. Cada parte interesada desempeña una función de gobernanza distinta, que ninguna otra puede cumplir.
Los desarrolladores y los usuarios finales pueden impulsar una gobernanza técnica más sólida, por ejemplo, mejorando la calidad y la transparencia de los modelos que generan sus conjuntos de datos sintéticos, y defendiendo medidas de protección como las marcas de agua y las etiquetas nutricionales de los conjuntos de datos.
Pero quizás la intervención más importante es la inversión en la trazabilidad de los datos. Unos sistemas de procedencia sólidos permiten a las organizaciones identificar cómo y cuándo se han introducido los datos sintéticos, lo que favorece la rendición de cuentas y reduce riesgos como el sesgo y la autofagia de la IA. Dado el alto costo de la trazabilidad retroactiva, las inversiones iniciales en sistemas sólidos de procedencia de datos deben ser una prioridad para las empresas.
Priorizar la gobernanza de los datos sintéticos
Sin embargo, como ocurre en muchos casos, la gobernanza técnica no es suficiente. Los directivos y expertos en políticas deben tratar la gobernanza de los datos sintéticos como una prioridad estratégica independiente, y no simplemente integrarla en cuestiones más amplias relacionadas con la gobernanza de la IA.
Se deben adoptar enfoques específicos para la gobernanza de los datos sintéticos, entre ellos:
- Desarrollar estándares sensibles al contexto que reconozcan las propiedades únicas de los datos sintéticos y simulados.
- Colaborar estrechamente con los reguladores de privacidad e inteligencia artificial para garantizar alineación con los marcos emergentes.
- Promover la educación en el seno de la organización sobre las oportunidades, los riesgos y las mejores prácticas.
Lograr los beneficios de los datos sintéticos y mitigar los riesgos conocidos es una responsabilidad compartida entre ingenieros, asesores en políticas, ejecutivos y usuarios trabajando de manera colaborativa y proactiva. Juntos, estos grupos pueden construir un futuro que permita aprovechar de manera segura el inmenso potencial de esta nueva generación de datos sintéticos.
No te pierdas ninguna actualización sobre este tema
Crea una cuenta gratuita y accede a tu colección personalizada de contenidos con nuestras últimas publicaciones y análisis.
Licencia y republicación
Los artículos del Foro Económico Mundial pueden volver a publicarse de acuerdo con la Licencia Pública Internacional Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0, y de acuerdo con nuestras condiciones de uso.
Las opiniones expresadas en este artículo son las del autor y no del Foro Económico Mundial.
Mantente al día:
Generative Artificial Intelligence
Temas relacionados:
La Agenda Semanal
Una actualización semanal de los temas más importantes de la agenda global
Más sobre Tecnologías emergentesVer todo
Inna Tokarev Sela
13 de noviembre de 2025






