La IA generativa solo se entrena en una fracción de los 7000 idiomas del mundo. ¿Qué se está haciendo al respecto?

27 may 2024

Las empresas están incorporando más idiomas a sus modelos de IA. Image: Unsplash/Solen Feyissa

Madeleine North

Senior Writer, Forum Stories

La IA generativa se entrena principalmente en inglés, lo que da lugar a sesgos y, en algunos casos, a errores de graves consecuencias.
Empresas y gobiernos están tomando medidas y creando sus propios modelos de IA para hacer que una mayor proporción de las 7000 lenguas del mundo estén integradas en la tecnología.
Preservar el patrimonio cultural es una de las acciones sugeridas en las recomendaciones Presidio Recommendations on Responsible Generative AI, del Foro Económico Mundial.

"¿Ka pai te AI Whakaputanga i ngā reo?"

Según ChatGPT -y esperemos que para cualquier persona Māori- la frase anterior significa: "¿Es la IA generativa buena en idiomas?".

La respuesta: sí y no.

Dado que la mayoría de los grandes modelos lingüísticos (LLM) están entrenados en textos en inglés, si eres, por ejemplo, un estudiante de Odisha, India, que utiliza la IA para analizar un trabajo de investigación en tu lengua materna, el odia, es posible que los modelos ChatGPT, Claude y Google Gemini no te sirvan tanto.

Esto puede tener graves consecuencias en algunos casos. Un traductor de Estados Unidos declaró a Reuters Context que cuatro de cada diez de sus casos de asilo a afganos se complicaron en 2023 debido a la inexactitud de las aplicaciones de traducción basadas en IA.

¿Qué ocurre? En el mundo se hablan más de 7000 idiomas, pero la mayoría de los chatbots de IA se entrenan en unos 100 de ellos. El inglés, a pesar de ser hablado por menos del 20% de la población mundial, representa casi dos tercios de los sitios web y es el principal impulsor de los LLM, afirma el Center for Democracy & Technology (CDT).

% de los principales idiomas utilizados en Internet

El inglés domina Internet y también los modelos generativos de IA. Image: Reuters Context

¿Has leído?

La IA generativa y su sesgo lingüístico

Inevitablemente, este desequilibrio lingüístico está dando lugar a problemas.

Entre los errores flagrantes detectados en las solicitudes de asilo se incluían nombres que se traducían como meses, detalles cruciales que faltaban e incluso sentencias de inmigración que se invertían. Ariel Koren, fundador de Respond Crisis Translation, explicó a Reuters Context que "las máquinas no funcionan ni siquiera con una fracción de la calidad necesaria para poder realizar un análisis de caso aceptable en una situación de alto riesgo".

Gabriel Nicholas y Aliya Bhatia, del CDT, comparten esta opinión y señalan que, a pesar de la progresiva aparición de los modelos lingüísticos multilingües (MLM), estas aplicaciones "suelen entrenarse de forma desproporcionada con textos en inglés, por lo que acaban transfiriendo valores y supuestos codificados en inglés a otros contextos lingüísticos ajenos". Ponen el ejemplo de la palabra "paloma", que un MLM podría interpretar en varias lenguas como asociada a la paz, pero cuyo equivalente vasco ("uso") es en realidad un insulto.

Lo que hace falta es desarrollar aplicaciones de Procesamiento del Lenguaje Natural (PLN) que no estén en inglés, dicen los expertos, para ayudar a reducir el sesgo lingüístico de la IA generativa y "preservar el patrimonio cultural". Esta última es una de las 30 acciones sugeridas en las recomendaciones del Foro Económico Mundial sobre IA Generativa, Presidio Recommendations on Responsible Generative AI. "Los sectores público y privado deberían invertir en la creación de conjuntos de datos seleccionados y en el desarrollo de modelos lingüísticos para lenguas subrepresentadas, aprovechando la experiencia de las comunidades y los investigadores locales y poniéndolos a su disposición".

Descubre

¿Qué está haciendo el Foro Económico Mundial en el ámbito de la cuarta revolución industrial?

Combatiendo prejuicios lingüísticos de la IA

Hay casos en que los gobiernos, la comunidad tecnológica e incluso la sociedad civil están tomando medidas para resolver el problema del lenguaje de la IA.

El gobierno indio está construyendo Bhashini, un sistema de traducción por IA entrenado en lenguas locales. Hay 22 oficiales, pero pocas son captadas actualmente por aplicaciones de PNL. Karya, una empresa de tecnología, busca fomentar el equilibrio lingüístico creando conjuntos de datos para que empresas como Microsoft y Google los utilicen en modelos de IA. Es un proceso meticuloso, en el que la gente lee palabras en su lengua materna en una aplicación.

Lanzado en los EAU en 2023, Jais AI es un modelo capaz de generar textos de alta calidad en árabe, incluso en dialectos regionales, señala Digital Watch. Sus creadores, G42, tienen previsto lanzar el primer asistente robótico en árabe del mundo.

En Nueva Zelanda, la emisora local Te Hiku Media está aprovechando la IA para ayudar a la "preservación, promoción y revitalización del te reo maorí", según explicó su director de tecnología a Nvidia, que ayudó a crear los modelos de reconocimiento automático del habla que, según afirma, pueden transcribir el te reo con una precisión del 92%.

En una iniciativa similar, la organización Masakhane trabaja para "reforzar e impulsar la investigación en PNL en las lenguas africanas". En África se hablan alrededor de 2000 lenguas, pero "apenas están representadas en la tecnología".

El gobierno nigeriano también ha tomado iniciativa al lanzar su primer LLM multilingüe. "El LLM se formará en cinco lenguas de pocos recursos y en inglés acentuado para garantizar una representación lingüística más sólida en los conjuntos de datos existentes para el desarrollo de soluciones de inteligencia artificial", anunció en LinkedIn el Dr. 'Bosun Tijani, ministro de Comunicaciones, Innovación y Economía Digital.

En la Amazonia brasileña, los indígenas hablan 300 lenguas, pero sólo algunas de las principales están reconocidas por los LLM.

Tras no poder comunicarse con la comunidad amazónica con la que vivía y trabajaba, el artista turco Refik Anadol, co-creador de la obra de arte digital indígena "Winds of Yawanawá", transformó su frustración en acción, liderando la creación de una herramienta de IA de código abierto para permitir a "cualquier pueblo indígena (...) preservar su lengua mediante la tecnología", según declaró en la más reciente Reunión Anual del Foro Económico Mundial en Davos.

"¿Cómo es posible que creemos una IA que no conozca a toda la humanidad?", se preguntó.

Con la desaparición de una lengua cada quince días, según la Unesco, la IA generativa podría ser la sentencia de muerte -o la salvación- de muchas de ellas.

No te pierdas ninguna actualización sobre este tema

Crea una cuenta gratuita y accede a tu colección personalizada de contenidos con nuestras últimas publicaciones y análisis.

Inscríbete de forma gratuita

Licencia y republicación

Los artículos del Foro Económico Mundial pueden volver a publicarse de acuerdo con la Licencia Pública Internacional Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0, y de acuerdo con nuestras condiciones de uso.

Las opiniones expresadas en este artículo son las del autor y no del Foro Económico Mundial.