La "oportunidad perdida" con la brecha de diversidad lingüística de la IA
La brecha de la diversidad lingüística en la IA fue uno de los temas de debate en la sesión "IA para el bien mundial" de las Reuniones de Impacto sobre el Desarrollo Sostenible 2024. Image: Foro Económico Mundial
- La brecha de la diversidad lingüística en la IA amenaza con excluir a miles de millones de personas de la economía digital, ya que la mayoría de los sistemas actuales solo están entrenados en 100 de las más de 7.000 lenguas del mundo.
- Las iniciativas emergentes están mostrando el potencial de la IA lingüísticamente diversa para impulsar la innovación y la inclusión.
- El futuro de la IA debe ser diverso, subrayaron los líderes en las Reuniones de Impacto sobre el Desarrollo Sostenible celebradas esta semana en Nueva York.
En 2050, más de un tercio de la juventud mundial vivirá en África. Pero, ¿tendrán igualdad de acceso para participar en la economía digital?
Actualmente, de las 34 lenguas más utilizadas en Internet en todo el mundo, ninguna es africana. Los avances en áreas como el procesamiento del lenguaje natural (PLN), los grandes modelos lingüísticos y la investigación en inteligencia artificial (IA) también continúan sin una representación adecuada de las lenguas africanas.
"Es a la vez un reto y también una de las mayores oportunidades", afirma Crystal Rugege, Directora Gerente del Centro para la Cuarta Revolución Industrial de Ruanda, al referirse a la rica diversidad lingüística del continente y a la incapacidad actual de los sistemas de IA para atender a esta diversidad. "Puede que no tengamos aplicaciones que puedan interactuar en 1.400 dialectos, pero desde luego, deberíamos ser capaces de dar servicio a la mayoría de nuestras poblaciones. Este mercado también puede convertirse en la mano de obra digital del mundo, y deberíamos crear un entorno propicio."
Esta brecha lingüística en la IA no es solo un problema africano: es un reto mundial con implicaciones de largo alcance.
Brecha lingüística en la IA: ¿un problema cada vez más grave?
Hay más de 7.000 idiomas en el mundo, pero la mayoría de los chatbots de IA se entrenan en unos 100 de ellos. El inglés se considera el primer idioma de la IA, lo que no es de extrañar, ya que simplemente hay más datos en inglés disponibles en línea para recopilar y entrenar modelos.
Hay indicios de que esta tendencia a la concentración lingüística en torno al inglés en la IA -a pesar de que menos del 20% de la población mundial habla este idioma- se está acentuando: algunos modelos de IA generativa entrenados para responder a indicaciones en otros idiomas ahora "piensan" en inglés. En contraste con esta "lengua de altos recursos", diferentes lenguas de "bajos recursos" o desatendidas se están quedando atrás debido a la falta de bases de datos, herramientas y técnicas de calidad que sustenten estos sistemas de IA.
Pero el reto de la diversidad lingüística en la IA no es solo un problema técnico: es una oportunidad para remodelar el panorama digital, impulsar el crecimiento económico y garantizar que los beneficios de la IA sean verdaderamente globales.
Si no se controla, significaría que los grupos y naciones que ya están luchando por aprovechar los actuales sistemas de IA y se enfrentan a retos adicionales de acceso inadecuado a los servicios de Internet, potencia informática limitada y falta de disponibilidad para la formación sectorial "probablemente se quedarán aún más rezagados", como señala Cathy Li, Jefa de IA, Datos y Metaverso del Foro Económico Mundial.
Primeros esfuerzos para abordar el problema
Hay casos de uso emergentes en todo el mundo, desde la India y Norteamérica hasta países africanos, que demuestran el valor de invertir en la capacidad de la IA para trabajar en diversos idiomas.
En Ruanda, por ejemplo, la IA lingüísticamente diversa está permitiendo a los trabajadores de la salud de la comunidad prestar servicios a través de estas divisiones. Crystal Rugege afirma que el país cuenta con unos 70.000 de estos trabajadores de primera línea que no hablan inglés, y que a menudo disciernen si las personas necesitan una atención más crítica.
"Hemos creado un modelo de traducción basado tanto en la voz como en el texto, para que puedan interactuar con él y discernir si alguien tiene dolor de cabeza o tos". Con ChatGPT 4.0 de OpenAI, explica, han conseguido alcanzar una precisión del 71% en ensayos de interacciones con pacientes. Eso significa que más personas reciben tratamiento para sus enfermedades porque la diversidad lingüística era una característica, no una idea de última hora, de esta aplicación de IA.
Pero una consideración igual de importante, dice, es contar con las barandillas adecuadas para garantizar que se protegen los derechos de las personas y que la tecnología se utiliza de forma responsable. "Los datos son el oxígeno de la IA... [garantizar] que las personas puedan tomar decisiones sobre cómo se utilizan sus datos es un principio fundamental que debe incorporarse, pero más allá de eso, también hay que asegurarse de que las políticas y las leyes se ponen en marcha para estimular la innovación."
La IA de código abierto y las asociaciones ofrecen soluciones
En su participación en las Reuniones sobre el Impacto en el Desarrollo Sostenible (SDIM) del Foro Económico Mundial en Nueva York, Yann LeCun, Vicepresidente y Científico Jefe de IA de Meta, señaló como otro ejemplo las medidas de atención sanitaria digital que están surgiendo en Senegal.
"Es difícil conseguir cita con un médico en Senegal, sobre todo en las zonas rurales." Pero plataformas impulsadas por IA como Kera Health, explica, permiten a la gente "hablar ahora con un asistente de IA para esto. Pero tiene que hablar wolof, además de francés, y otras tres lenguas oficiales de Senegal."
Hay dos motores principales para lograr más avances, afirma LeCun. El primero es la IA de código abierto: "Lo que necesitamos es una infraestructura abierta muy sencilla -piénsese en ella como en una 'Wikipedia para la IA'- que permita a la gente crear sistemas útiles para las poblaciones locales."
En segundo lugar están las asociaciones que pueden impulsar el cambio. "Por ejemplo, existe una asociación entre Meta y el gobierno de la India para que las futuras versiones del LLM de código abierto de Meta (llamado LLaMA) puedan hablar al menos las 22 lenguas oficiales de la India y, tal vez, todos los cientos de lenguas y dialectos locales."
También cree que la oportunidad se trasladará al espacio físico, donde habrá dispositivos como gafas que ofrecerán traducción simultánea entre hablantes de dos lenguas distintas. "El futuro del hardware serán cosas como las gafas inteligentes... que permiten la interacción entre las personas en sus propios idiomas", afirma.
"Estamos empezando a tener sistemas que pueden traducir lenguas no escritas... así que directamente para hablar por voz, podemos hacer de texto a texto, de texto a voz, de voz a texto y de voz a voz, incluso para lenguas que no están escritas, que son muchas."
Pascale Fung, investigadora centrada en la mejora del procesamiento del lenguaje natural para lenguas con pocos recursos o infrarrepresentadas, afirma que debemos aspirar a construir sistemas que faciliten la comunicación entre comunidades lingüísticas con pocos y muchos recursos. "En el caso de los grandes modelos lingüísticos, significa recopilar datos adicionales en una lengua de bajos recursos para ajustar los modelos de modo que rindan al mismo nivel que los modelos en inglés."
Hacia un "futuro diverso"
Se están realizando esfuerzos para facilitar el intercambio fluido de datos, incluidos los lingüísticos. La Alianza para las Tecnologías Lingüísticas (ALT-EDIC) de la Comisión Europea, por ejemplo, contribuirá a paliar la escasez de datos de lenguas europeas para el entrenamiento de soluciones de IA y apoyará el desarrollo de grandes modelos lingüísticos europeos.
Otros países, como los Emiratos Árabes Unidos (EAU), han "producido y exportado" nuevos modelos lingüísticos de gran tamaño (LLM) como NANDA, que atenderá específicamente a los usuarios de habla hindi, al tiempo que realiza una campaña mundial concertada para su LLM de código abierto "Falcon". "Algo que también estamos haciendo es trabajar en diferentes zonas geográficas para ver cómo podemos adaptar Falcon a las necesidades de los gobiernos que no tienen la capacidad de construir su propio modelo de gran tamaño", afirma Omar Sultan Al Olama, Secretario de Estado de Inteligencia Artificial, Economía Digital y Aplicaciones de Trabajo a Distancia de los EAU.
La Alianza para la Gobernanza de la IA del Foro Económico Mundial reúne a diversos actores y es crucial para construir un ecosistema de IA más equitativo y responsable a nivel mundial. La corriente de trabajo sobre IA inclusiva, en particular, da prioridad a un desarrollo inclusivo de la IA que respete y tenga en cuenta las necesidades de todas las personas. También está desarrollando un marco para la cooperación entre los sectores público y privado, además de destacar y promover las aplicaciones de IA que apoyan los objetivos de las personas y el planeta.
¿Qué está haciendo el Foro Económico Mundial en el ámbito de la diversidad, equidad e inclusión?
El futuro tiene que ser diverso, subraya LeCun, de Meta. "Por la misma razón que necesitamos acceder a una amplia diversidad de fuentes de información, desde la prensa a las redes sociales, también necesitamos una gran diversidad de sistemas de IA para atender a todos nuestros diversos intereses, normas culturales, sistemas de valores e idiomas."
Vea la sesión completa "AI for Global Good" a continuación:
No te pierdas ninguna actualización sobre este tema
Crea una cuenta gratuita y accede a tu colección personalizada de contenidos con nuestras últimas publicaciones y análisis.
Licencia y republicación
Los artículos del Foro Económico Mundial pueden volver a publicarse de acuerdo con la Licencia Pública Internacional Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0, y de acuerdo con nuestras condiciones de uso.
Las opiniones expresadas en este artículo son las del autor y no del Foro Económico Mundial.
Mantente al día:
Economía digital y creación de nuevos valores
La Agenda Semanal
Una actualización semanal de los temas más importantes de la agenda global
Más sobre Tecnologías emergentesVer todo
Albert Bourla
22 de enero de 2025