7 hallazgos críticos sobre MLLM y relojes analógicos 2025

^{Nino Souza}

Redacción HC
17/03/2026

Descripción: Los modelos de lenguaje multimodal y su capacidad para leer relojes analógicos revelan límites clave en la comprensión visual de la inteligencia artificial.

Resumen técnico del estudio sobre comprensión de relojes analógicos en MLLM
Características del estudio	Descripción y resultados
Modelo evaluado	GPT-4.1
Tipo de dataset	Sintético, distribución uniforme de posiciones
Tipo de estudio	Experimental con evaluación de rendimiento
Métrica principal	Media de error absoluto (MAE) en segundos
MAE relojes estándar	232.48 segundos
MAE relojes deformados	1380.69 segundos
MAE con manecillas alteradas	3726.93 segundos
Repositorio	arXiv, 2025

¿Puede una inteligencia artificial realmente entender algo tan básico como la hora en un reloj analógico? Aunque los modelos de lenguaje multimodal prometen capacidades avanzadas, un estudio reciente publicado en arXiv (2025) plantea dudas profundas sobre esta supuesta comprensión.

La investigación, liderada por Tairan Fu de la Nanjing University of Aeronautics and Astronautics junto con un equipo internacional, examina si modelos como GPT-4.1 interpretan conceptos o simplemente reconocen patrones. El resultado desafía una creencia extendida: que estos sistemas poseen una comprensión visual comparable a la humana.

¿Comprensión real o reconocimiento de patrones?

El estudio parte de una pregunta clave: ¿los modelos multimodales entienden el tiempo o solo replican ejemplos vistos?

Leer un reloj analógico implica interpretar relaciones espaciales entre manecillas. Para los humanos, esto es intuitivo. Sin embargo, el análisis revela que:

Los modelos dependen de patrones visuales previos.
No construyen una representación abstracta del tiempo.
Fallan ante variaciones no vistas.

"El rendimiento observado sugiere un aprendizaje basado en correlaciones, no en comprensión conceptual".

Este hallazgo pone en duda la narrativa dominante sobre la inteligencia artificial como sistema “comprensivo”.

Metodología: un experimento sin sesgos visuales

Para evitar sesgos comunes en imágenes de internet, los investigadores diseñaron un dataset sintético que cubre todas las posiciones posibles de las manecillas.

El enfoque incluyó:

Evaluación inicial sin entrenamiento adicional.
Aplicación de fine-tuning con datos equilibrados.
Medición mediante MAE en segundos.

Este diseño permitió aislar el comportamiento del modelo frente a variaciones controladas, evitando influencias externas.

Resultados: mejoras aparentes, fallos estructurales

Rendimiento inicial limitado

Sin ajuste, el modelo presentó un desempeño bajo, lo que indica falta de exposición adecuada en su entrenamiento previo.

Mejora tras entrenamiento específico

Tras el fine-tuning, se observó una mejora en condiciones similares al dataset. Sin embargo, esta mejora no fue robusta.

Colapso ante variaciones

Cuando se introdujeron cambios visuales, el modelo falló significativamente:

232.48 segundos de error en relojes estándar
1380.69 segundos con deformaciones
3726.93 segundos con cambios en manecillas

Estos resultados implican errores de más de una hora.

"Pequeñas variaciones visuales provocan errores desproporcionados en la predicción del tiempo".

Implicaciones: límites críticos de la inteligencia artificial

1. Fragilidad en aplicaciones reales

La incapacidad de generalizar sugiere riesgos en aplicaciones críticas como:

Diagnóstico médico por imágenes
Sistemas de transporte autónomo
Seguridad basada en visión computacional

2. Brecha entre percepción y cognición

Los modelos actuales no desarrollan comprensión conceptual profunda, sino asociaciones estadísticas.

3. Riesgo de sobreestimación tecnológica

Existe una tendencia a asumir que estos sistemas “entienden”, cuando en realidad:

Operan sobre correlaciones
No poseen razonamiento simbólico robusto
Son sensibles a cambios fuera de distribución

Recomendaciones del estudio

Crear datasets más diversos y representativos
Diseñar métricas que evalúen comprensión real
Desarrollar métodos que fomenten aprendizaje conceptual

El estudio sobre MLLM y relojes analógicos revela una realidad incómoda: los modelos más avanzados aún no comprenden conceptos básicos como lo hacen los humanos.

Este hallazgo invita a replantear expectativas y a exigir evaluaciones más rigurosas antes de implementar inteligencia artificial en entornos críticos.

Temas relacionados

Tecnología

Referencia: Fu, T., González, M., Conde, J., Merino-Gómez, E., & Reviriego, P. (2025). Have multimodal large language models (MLLMs) really learned to tell the time on analog clocks? arXiv. https://doi.org/10.48550/arXiv.2505.10862