Las líneas rojas que la IA no debe cruzar: oportunidades y desafíos de establecer límites

¿Hasta dónde se debe permitir que llegue la IA?
Image: Getty Images/iStockphoto
Mantente al día:
Riesgo y resiliencia
- Las líneas rojas conductuales son necesarias para garantizar que la IA se mantenga en conformidad con las normas sociales.
- Las líneas rojas regulan tanto el uso dañino de la IA por parte de los humanos como el comportamiento autónomo perjudicial de los sistemas de IA.
- Para ser efectivas y aplicables, tales líneas rojas deben cumplir con tres características clave.
A medida que las capacidades de la IA continúan avanzando, garantizar que los sistemas permanezcan seguros, éticos y alineados con las normas sociales es una preocupación crítica. Las líneas rojas conductuales son una propuesta proactiva para abordar comportamientos inaceptables de la IA que representan riesgos graves.
Las líneas rojas demuestran límites específicos que los sistemas de IA no deben cruzar, como participar en autorreplicación no autorizada, ingresar en sistemas informáticos o habilitar el desarrollo de armas de destrucción masiva (ADM). Un concepto similar fue explorado en los Diálogos Internacionales sobre la Seguridad de la IA y posteriormente publicado en la declaración de Beijing.
Tales líneas rojas no tienen la intención de ser exhaustivas en cuanto a delimitar todas las formas de comportamiento indeseable por parte de los sistemas de IA. Al establecer límites conductuales claros, las líneas rojas pueden servir como un punto de partida crítico para definir comportamientos inaceptables de la IA y como base para construir sistemas de IA demostrablemente seguros y beneficiosos.
Existen muchas oportunidades y desafíos asociados con la definición, el cumplimiento y la aplicación de las líneas rojas conductuales para la IA. Aquí destacamos ejemplos clave, propiedades deseables de las líneas rojas y los mecanismos necesarios para asegurar que los sistemas de IA se ajusten a estos límites críticos.
Definir líneas rojas conductuales
Las líneas rojas se dividen en dos categorías amplias: usos inaceptables de la IA y comportamientos inaceptables de la IA.
Los usos inaceptables de la IA están vinculados a restricciones sobre cómo los humanos pueden hacer un mal uso de las tecnologías de IA. El Reglamento de IA de la UE, por ejemplo, impone restricciones sobre cómo los humanos pueden utilizar herramientas de videovigilancia basadas en IA. Los comportamientos inaceptables de la IA son acciones que los sistemas de IA no deben realizar, independientemente de si la acción está al servicio de una solicitud humana. Por ejemplo, un sistema de IA agente no debe llevar a cabo una vigilancia indebida a través de cámaras web, incluso si hacerlo ayudaría a satisfacer una solicitud legítima de ayuda de un humano.
Los mecanismos de gobernanza para estas dos categorías son algo distintos. La gobernanza para las líneas rojas de uso, como otras restricciones sobre el comportamiento humano, típicamente sería ex post, imponiendo sanciones por violaciones. La gobernanza para las líneas rojas conductuales, como otras restricciones sobre los sistemas tecnológicos, podría implicar una combinación de enfoques ex ante (por ejemplo, requisitos de diseño) y ex post, dependiendo de la gravedad del daño y la viabilidad de la prevención.
Las líneas rojas conductuales son particularmente importantes para abordar daños no intencionados derivados de sistemas de IA que pueden actuar e influir en el mundo real con mayores grados de autonomía. Al identificar y prohibir estos comportamientos inaceptables, las partes interesadas pueden construir una base para un ecosistema de IA más seguro, mientras fomentan el desarrollo de herramientas para monitorear y hacer cumplir el cumplimiento.
Acepte nuestras cookies de marketing para acceder a este contenido.
Estas cookies están actualmente deshabilitadas en su navegador.
Propiedades de las líneas rojas
Las líneas rojas más efectivas y aplicables deberían exhibir idealmente tres propiedades deseables:
- Claridad: el comportamiento que se prohíbe debe estar bien definido y ser medible.
- Inaceptable de manera evidente: las violaciones deben constituir daños graves y alinearse claramente con las normas sociales sobre lo que es inaceptable.
- Universalidad: las líneas rojas deben aplicarse de manera consistente a través de contextos, geografías y tiempos.
Para que una línea roja tenga el efecto deseado de avanzar en los estándares de ingeniería de seguridad de la IA, también necesitaría implicar desafíos de cumplimiento no triviales, mucho más allá de filtros simples de salida, por ejemplo. Esto significa requerir salvaguardias más completas, como monitoreo a nivel del sistema, pruebas rigurosas y medidas de responsabilidad aplicables para garantizar que la IA se comporte según lo previsto en situaciones de alto riesgo.
Ejemplos de potenciales líneas rojas
Exploramos una amplia gama de posibles líneas rojas conductuales. Todas las que se enumeran a continuación involucran comportamientos claramente indeseables, pero, como discutimos, algunas de ellas pueden no cumplir con todas las propiedades deseables mencionadas anteriormente.
Destacamos que la inclusión de una línea roja en esta lista no implica que defendamos su implementación en regulaciones. Tampoco implica que los sistemas de IA ya la hayan cruzado. Proporcionamos enlaces a ejemplos de violaciones que ya han ocurrido o que se ha demostrado que son factibles en pruebas.
- No autorreplicación. Los sistemas de IA no deben crear copias de sí mismos de manera autónoma. La autorreplicación socava el control humano y puede amplificar el daño, particularmente si los sistemas de IA evaden los mecanismos de apagado.
- No intrusión en sistemas informáticos. El acceso no autorizado a sistemas por parte de los sistemas de IA no debe ocurrir, ya que viola los derechos de propiedad, amenaza la privacidad y la seguridad nacional, y socava el control humano.
- No asesoramiento sobre armas de destrucción masiva. Los sistemas de IA no deben facilitar el desarrollo de ADM, incluidas las armas biológicas, químicas y nucleares, por parte de actores maliciosos.
- No ataques físicos directos a humanos. Los sistemas de IA no deben infligir daño físico de manera autónoma, excepto (posiblemente) en contextos explícitamente autorizados, como aplicaciones militares reguladas en cumplimiento con las leyes de la guerra.
- No suplantación de identidad humana. Los sistemas de IA deben divulgar su identidad no humana, evitando el engaño en las interacciones humanas. La suplantación socava la confianza y puede facilitar el fraude, la manipulación y el daño emocional.
- No difamación de personas reales. El contenido generado por IA no debe dañar la reputación de las personas mediante representaciones falsas y perjudiciales. Esta línea roja apunta a la desinformación generada por IA, los deepfakes y contenido inventado.
- No vigilancia no autorizada. Los sistemas de IA no deben llevar a cabo monitoreos no autorizados e inapropiados (visuales, de audio, de teclados, etc.) de terceros.
- No divulgación de información privada. Los sistemas de IA no deben divulgar información privada a terceros sin autorización, a menos que sea legalmente requerido hacerlo. Esto se aplica tanto a la información en los datos de entrenamiento como a la obtenida durante la interacción con el usuario.
- No acciones discriminatorias. Los sistemas de IA no deben exhibir sesgos o discriminación inapropiados, ya sea intencionales o inadvertidos.
Como se mencionó anteriormente, no todas estas líneas rojas cumplen completamente con los tres criterios mencionados. Por ejemplo, "asesorar sobre armas de destrucción masiva" es difícil de definir con claridad, ya que lo que se considera un consejo efectivo depende de la intención y el conocimiento previo del usuario. De manera similar, existen varias áreas grises en la legislación sobre difamación, que, además, no está definida de la misma manera en todas las jurisdicciones. Lo que se considera discriminación tampoco está universalmente acordado, ya que las categorías protegidas varían ampliamente según la jurisdicción y el contexto de aplicación.
Se debe hacer mucho trabajo para llegar a un acuerdo sobre qué líneas rojas son más adecuadas y sobre cómo deben ser definidas e implementadas en las regulaciones. También existen preocupaciones vinculadas a la viabilidad tecnológica del cumplimiento y a la adecuación de los mecanismos actuales para la aplicación.
Cumplimiento y aplicación
Garantizar que los sistemas de IA cumplan con las líneas rojas conductuales requiere un enfoque integral que combine mecanismos de cumplimiento y herramientas de aplicación.
En términos de cumplimiento, la regulación ex ante se refiere a medidas que se aplican antes del despliegue de un sistema de IA, como el registro, la licencias y la certificación.
Los requisitos de certificación podrían incluir un caso de seguridad: como lo define el Ministerio de Defensa del Reino Unido, "un argumento estructurado, respaldado por un conjunto de pruebas, que proporciona un caso convincente, comprensible y válido de que un sistema es seguro para una aplicación dada en un entorno determinado".
El estándar de oro para garantizar las propiedades de los sistemas de software es la prueba formal, pero existen otros enfoques posibles. Además de diseñar sistemas que eviten cruzar las líneas rojas, es una buena idea agregar salvaguardias incorporadas para prevenir infracciones reales de las líneas rojas en los casos en que el caso de seguridad falle. Este enfoque preventivo combinado refleja las prácticas de seguridad establecidas en industrias de alto riesgo como la aviación y la energía nuclear.
Complementando las medidas preventivas, la regulación ex post implica imponer consecuencias después de que un sistema de IA infrinja las líneas rojas establecidas.
Las consecuencias podrían incluir multas, responsabilidad u otras sanciones dirigidas a disuadir futuras violaciones. La supervisión organizacional es otro pilar crítico que puede involucrar juntas de ética, iniciativas de gobernanza colaborativa e informes de transparencia. Sin embargo, para aplicaciones de IA de alto riesgo, la regulación ex post por sí sola podría no ser suficiente y debe complementarse con medidas proactivas para garantizar la seguridad y prevenir resultados indeseables.
Otro mecanismo crucial es la supervisión continua, que implica herramientas en tiempo real para detectar y señalar violaciones, respaldadas tanto por auditorías automatizadas como por supervisión humana. Esta supervisión se desarrolla dentro de un contexto de responsabilidad compartida, donde desarrolladores, implementadores y usuarios finales asumen la responsabilidad de garantizar el cumplimiento y fomentar un enfoque colaborativo hacia la seguridad.
Además de los requisitos de cumplimiento, los mecanismos de aplicación juegan un papel crucial. Las medidas técnicas de aplicación incluyen mecanismos de seguridad, como protocolos de apagado automático que pueden activarse cuando los sistemas de monitoreo detectan una violación.
Sin embargo, la aplicación real enfrenta varios desafíos. Estos incluyen la variabilidad jurisdiccional, las limitaciones de recursos y el riesgo de medidas excesivamente punitivas que podrían limitar la innovación en algunos casos. El rápido desarrollo de los sistemas de IA de vanguardia complica aún más este panorama, lo que requiere marcos que sean lo suficientemente flexibles como para adaptarse a nuevos y emergentes riesgos, al mismo tiempo que mantienen una supervisión y control efectivos.
Líneas rojas para un futuro más seguro
El enfoque actual de la seguridad en IA a menudo implica intentos retroactivos de reducir las tendencias dañinas después de que se ha desarrollado un sistema. Este modelo reactivo puede ser insuficiente para abordar los riesgos planteados por la IA avanzada, especialmente cuando tales sistemas muestran mayores grados de autonomía.
Las líneas rojas conductuales para la IA podrían contribuir a fomentar un cambio proactivo hacia la creación de IA segura por diseño. Al exigir a los desarrolladores que proporcionen garantías de cumplimiento de alta confianza, similares a las que se esperan en industrias de alto riesgo como la energía nuclear y la aviación, el establecimiento de líneas rojas conductuales para la IA podría contribuir a una ingeniería de seguridad más avanzada, mayor predictibilidad y verificabilidad, y una mejor colaboración regulatoria entre jurisdicciones. Esto, a su vez, fomentará la confianza y garantizará que los sistemas de IA sirvan como herramientas para el progreso, no como fuentes de daño.
Los siguientes miembros del Consejo Global del Futuro sobre el Futuro de la IA contribuyeron a este artículo: Stuart Russell, Universidad de California, Berkeley; Edson Prestes, Universidad Federal de Rio Grande do Sul, Brasil; Mohan Kankanhalli, Universidad Nacional de Singapur; Jibu Elias, Fundación Mozilla; Constanza Gómez Mont, C Minds; Vilas Dhar, Centro para la Tecnología Confiable, Foro Económico Mundial; Adrian Weller, Universidad de Cambridge y el Instituto Alan Turing; Pascale Fung, Universidad de Ciencia y Tecnología de Hong Kong; Karim Beguir, Cofundador y CEO de InstaDeep.
Acepte nuestras cookies de marketing para acceder a este contenido.
Estas cookies están actualmente deshabilitadas en su navegador.
No te pierdas ninguna actualización sobre este tema
Crea una cuenta gratuita y accede a tu colección personalizada de contenidos con nuestras últimas publicaciones y análisis.
Licencia y republicación
Los artículos del Foro Económico Mundial pueden volver a publicarse de acuerdo con la Licencia Pública Internacional Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0, y de acuerdo con nuestras condiciones de uso.
Las opiniones expresadas en este artículo son las del autor y no del Foro Económico Mundial.
La Agenda Semanal
Una actualización semanal de los temas más importantes de la agenda global
Más sobre Tecnologías emergentesVer todo
Fujiyo Ishiguro
18 de marzo de 2025
Marie-Lyn Horlacher and Nora Rösch
18 de marzo de 2025
Chet Kapoor
11 de marzo de 2025
Nii Simmonds and Nii Ahele Nunoo
11 de marzo de 2025
Kaiser Kuo
11 de marzo de 2025
Cathy Li and Andrew Caruana Galizia
11 de marzo de 2025