7 hallazgos críticos sobre MLLM y relojes analógicos 2025
Redacción HC
Descripción: Los modelos de lenguaje multimodal y su capacidad para leer relojes analógicos revelan límites clave en la comprensión visual de la inteligencia artificial.
| Características del estudio | Descripción y resultados |
|---|---|
| Modelo evaluado | GPT-4.1 |
| Tipo de dataset | Sintético, distribución uniforme de posiciones |
| Tipo de estudio | Experimental con evaluación de rendimiento |
| Métrica principal | Media de error absoluto (MAE) en segundos |
| MAE relojes estándar | 232.48 segundos |
| MAE relojes deformados | 1380.69 segundos |
| MAE con manecillas alteradas | 3726.93 segundos |
| Repositorio | arXiv, 2025 |
¿Puede una inteligencia artificial realmente entender algo tan básico como la hora en un reloj analógico? Aunque los modelos de lenguaje multimodal prometen capacidades avanzadas, un estudio reciente publicado en arXiv (2025) plantea dudas profundas sobre esta supuesta comprensión.
La investigación, liderada por Tairan Fu de la Nanjing University of Aeronautics and Astronautics junto con un equipo internacional, examina si modelos como GPT-4.1 interpretan conceptos o simplemente reconocen patrones. El resultado desafía una creencia extendida: que estos sistemas poseen una comprensión visual comparable a la humana.
¿Comprensión real o reconocimiento de patrones?
El estudio parte de una pregunta clave: ¿los modelos multimodales entienden el tiempo o solo replican ejemplos vistos?
Leer un reloj analógico implica interpretar relaciones espaciales entre manecillas. Para los humanos, esto es intuitivo. Sin embargo, el análisis revela que:
- Los modelos dependen de patrones visuales previos.
- No construyen una representación abstracta del tiempo.
- Fallan ante variaciones no vistas.
"El rendimiento observado sugiere un aprendizaje basado en correlaciones, no en comprensión conceptual".
Este hallazgo pone en duda la narrativa dominante sobre la inteligencia artificial como sistema “comprensivo”.
Metodología: un experimento sin sesgos visuales
Para evitar sesgos comunes en imágenes de internet, los investigadores diseñaron un dataset sintético que cubre todas las posiciones posibles de las manecillas.
El enfoque incluyó:
- Evaluación inicial sin entrenamiento adicional.
- Aplicación de fine-tuning con datos equilibrados.
- Medición mediante MAE en segundos.
Este diseño permitió aislar el comportamiento del modelo frente a variaciones controladas, evitando influencias externas.
Resultados: mejoras aparentes, fallos estructurales
Rendimiento inicial limitado
Sin ajuste, el modelo presentó un desempeño bajo, lo que indica falta de exposición adecuada en su entrenamiento previo.
Mejora tras entrenamiento específico
Tras el fine-tuning, se observó una mejora en condiciones similares al dataset. Sin embargo, esta mejora no fue robusta.
Colapso ante variaciones
Cuando se introdujeron cambios visuales, el modelo falló significativamente:
- 232.48 segundos de error en relojes estándar
- 1380.69 segundos con deformaciones
- 3726.93 segundos con cambios en manecillas
Estos resultados implican errores de más de una hora.
"Pequeñas variaciones visuales provocan errores desproporcionados en la predicción del tiempo".
Implicaciones: límites críticos de la inteligencia artificial
1. Fragilidad en aplicaciones reales
La incapacidad de generalizar sugiere riesgos en aplicaciones críticas como:
- Diagnóstico médico por imágenes
- Sistemas de transporte autónomo
- Seguridad basada en visión computacional
2. Brecha entre percepción y cognición
Los modelos actuales no desarrollan comprensión conceptual profunda, sino asociaciones estadísticas.
3. Riesgo de sobreestimación tecnológica
Existe una tendencia a asumir que estos sistemas “entienden”, cuando en realidad:
- Operan sobre correlaciones
- No poseen razonamiento simbólico robusto
- Son sensibles a cambios fuera de distribución
Recomendaciones del estudio
- Crear datasets más diversos y representativos
- Diseñar métricas que evalúen comprensión real
- Desarrollar métodos que fomenten aprendizaje conceptual
El estudio sobre MLLM y relojes analógicos revela una realidad incómoda: los modelos más avanzados aún no comprenden conceptos básicos como lo hacen los humanos.
Este hallazgo invita a replantear expectativas y a exigir evaluaciones más rigurosas antes de implementar inteligencia artificial en entornos críticos.
Temas relacionados
TecnologíaReferencia: Fu, T., González, M., Conde, J., Merino-Gómez, E., & Reviriego, P. (2025). Have multimodal large language models (MLLMs) really learned to tell the time on analog clocks? arXiv. https://doi.org/10.48550/arXiv.2505.10862



