Estudio 2025 revela brechas críticas en modelos multilingües de contexto largo


Inteligencia artificial
Inteligencia artificial
Thanakorn Lappattaranan

Redacción HC

Un estudio publicado en 2025 en arXiv revela cómo los modelos de lenguaje multilingües con contexto largo muestran rendimientos desiguales según el idioma, incluso en tareas avanzadas de recuperación y agregación de información.

Resumen técnico del estudio sobre evaluación multilingüe de contexto largo
Características del estudio Descripción y resultados
Año de publicación 2025
Número de idiomas evaluados 26 lenguas
Longitud máxima de contexto 128 000 tokens
Número de tareas 7 tareas sintéticas
Diferencia máxima de rendimiento entre idiomas Hasta 34 %

¿Puede un modelo de inteligencia artificial comprender mejor textos extensos en polaco que en inglés? Esta es una de las conclusiones más llamativas de un estudio publicado en 2025 en arXiv, elaborado por investigadores de la University of Maryland y Microsoft, que analiza el desempeño de modelos de lenguaje multilingües con contexto largo.

El trabajo, titulado One ruler to measure them all: Benchmarking multilingual long-context language models, propone una evaluación sistemática que amplía las pruebas tradicionales, habitualmente centradas en inglés y textos breves. Según la revista de prepublicación arXiv, los resultados ponen en evidencia brechas significativas entre idiomas y cuestionan supuestos ampliamente aceptados en el desarrollo de modelos de lenguaje.

En un contexto donde estos sistemas se emplean para resumir documentos extensos, analizar información compleja o asistir en múltiples idiomas, comprender sus limitaciones técnicas resulta clave para investigadores, desarrolladores y responsables de políticas tecnológicas.

Un problema técnico con implicaciones globales

Los modelos de lenguaje de gran tamaño han ampliado su capacidad de contexto hasta cientos de miles de tokens, lo que permite procesar textos equivalentes a libros completos. Sin embargo, como señalan Yekyung Kim y sus coautores, “la mayoría de los benchmarks existentes no reflejan el comportamiento real de estos modelos en escenarios multilingües y de largo alcance”.

El estudio identifica una brecha crítica: las evaluaciones estándar no capturan adecuadamente cómo los modelos recuperan y agregan información cuando el texto es extenso y está escrito en lenguas distintas del inglés. Esta limitación afecta especialmente a idiomas con menor representación en los datos de entrenamiento.

“La capacidad de manejar más tokens no garantiza un desempeño equitativo entre idiomas”, advierten los autores en el estudio.

Metodología ONERULER: evaluación a gran escala

Para abordar este problema, los investigadores desarrollaron ONERULER, un benchmark que extiende el marco RULER hacia 26 idiomas. La metodología se basa en siete tareas sintéticas diseñadas para medir dos capacidades fundamentales: recuperación de información y agregación de contenidos relevantes.

Entre los elementos clave del enfoque metodológico destacan:

  1. Pruebas tipo “aguja en un pajar” para evaluar la localización de información específica.
  2. Tareas de agregación que exigen sintetizar datos dispersos en textos largos.
  3. Evaluaciones progresivas desde 8 000 hasta 128 000 tokens de contexto.
  4. Comparación entre modelos abiertos y sistemas comerciales cerrados.

Los autores reconocen limitaciones importantes, como el uso de tareas sintéticas y la dependencia de traducciones, factores que pueden no reflejar por completo escenarios reales de uso.

Hallazgos que desafían supuestos

Los resultados muestran patrones consistentes y, en algunos casos, inesperados. A medida que aumenta la longitud del contexto, las diferencias de rendimiento entre idiomas se amplifican, superando el 30 % en los casos más extremos.

Uno de los hallazgos más sorprendentes es que el polaco lidera el rendimiento general, mientras que el inglés ocupa el sexto lugar. Este dato contradice la creencia de que el idioma dominante en los datos de entrenamiento ofrece siempre mejores resultados.

Además, los modelos presentan dificultades para reconocer la ausencia de información. En tareas donde la respuesta correcta es “no existe”, muchos sistemas generan respuestas incorrectas, un fenómeno asociado a la llamada alucinación en modelos de lenguaje.

“Incluso en lenguas con abundantes recursos, los modelos tienden a inventar respuestas cuando la información no está presente”, señala el análisis.

Relevancia práctica y recomendaciones

Aunque ONERULER es un benchmark sintético, sus implicaciones son amplias. Para el desarrollo de aplicaciones multilingües, los resultados subrayan la necesidad de entrenar y evaluar modelos con datos diversos y pruebas específicas para contextos largos.

En el ámbito de políticas públicas y educación, el estudio aporta evidencia para promover la creación de corpus de alta calidad en lenguas menos representadas, reduciendo desigualdades tecnológicas. Los autores recomiendan integrar evaluaciones multilingües desde las primeras etapas de diseño de los modelos.

El estudio confirma que la expansión del contexto en los modelos de lenguaje no resuelve automáticamente los desafíos del multilingüismo. Por el contrario, revela brechas estructurales que deben abordarse para avanzar hacia sistemas más equitativos y fiables.

Tecnología

Referencia: Kim, Y., Russell, J., Karpinska, M., & Iyyer, M. (2025). One ruler to measure them all: Benchmarking multilingual long-context language models. arXiv. https://doi.org/10.48550/ARXIV.2503.01996

Licencia

Licencia Creative Commons 4.0. Lee las condiciones de nuestra licencia
Beneficios de publicar

Últimas noticias

Asistente virtual
Estudio 2024 en PNAS revela cómo los modelos de lenguaje históricos transforman las ciencias del comportamiento
Concentración
7 hallazgos clave sobre discapacidad cognitiva en adultos de Estados Unidos (2013-2023)
Moss Point
Restauración de humedales en el Mississippi 2025: estudio revela mejoras significativas en la calidad del agua