La ilusión de pensar: lo que revela el nuevo estudio de Apple sobre los límites del razonamiento en la IA


English
Biorobot
Biorobot
Freepik

Redacción HC

La inteligencia artificial (IA) ha dado pasos sorprendentes en los últimos años, especialmente con la llegada de los modelos de lenguaje capaces de generar cadenas de razonamiento paso a paso, conocidos como Large Reasoning Models (LRMs). Estos sistemas prometen algo más que respuestas: aparentan “pensar” en voz alta, dejando un rastro de explicaciones intermedias. Sin embargo, ¿es este razonamiento auténtico o solo una ilusión convincente?

Un nuevo estudio de Apple Machine Learning Research explora esta pregunta desde un ángulo inusual: someter a los modelos a rompecabezas de complejidad creciente para observar no solo sus resultados, sino también la calidad de sus “pensamientos internos”. Publicado en junio de 2025 en arXiv, bajo el título The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity, el trabajo aporta hallazgos clave para comprender cómo y hasta dónde estos modelos pueden ser confiables.

El dilema del “pensamiento” en la IA

Los LRMs han ganado popularidad porque pueden explicar cada paso de su proceso antes de dar una respuesta final. Esto genera la percepción de que “razonan” de forma parecida a los humanos. No obstante, las métricas tradicionales para evaluar IA (como pruebas matemáticas o de programación) se centran solo en la respuesta final, lo que no permite distinguir si el modelo está razonando o simplemente imitando patrones aprendidos en sus datos de entrenamiento.

El equipo liderado por Parshin Shojaee, Iman Mirzadeh, Keivan Alizadeh, Maxwell Horton, Samy Bengio y Mehrdad Farajtabar buscó resolver esta incógnita: ¿qué ocurre con los LRMs cuando enfrentan problemas cuya dificultad se incrementa de manera controlada?

Una metodología distinta: puzzles controlados

Para eliminar sesgos y evitar contaminación de datos, los investigadores crearon entornos de rompecabezas artificiales, como variantes de la clásica Torre de Hanoi. La clave fue que podían aumentar gradualmente la complejidad composicional: más piezas, más pasos, más ramas de decisión.

Los experimentos compararon LRMs con modelos de lenguaje estándar (LLMs) bajo la misma capacidad de cómputo. Se analizaron dos aspectos:

  1. La exactitud de la respuesta final.
  2. Las trazas internas de razonamiento, es decir, los pasos intermedios que el modelo produce antes de responder.

Aunque se trata de entornos artificiales, esta aproximación permitió aislar patrones de comportamiento imposibles de detectar en benchmarks tradicionales.

Resultados: fortalezas y límites inesperados

El análisis reveló un patrón claro dividido en tres niveles de complejidad:

  • Problemas simples: Los LLMs tradicionales a veces igualan o incluso superan a los LRMs. El exceso de pasos puede llevar a errores innecesarios, una especie de “sobrerazonamiento”.
  • Complejidad intermedia: Aquí los LRMs brillan. Al generar cadenas de razonamiento, logran mejores resultados que los modelos sin traza, justificando el costo adicional de procesamiento.
  • Alta complejidad: Tanto LRMs como LLMs colapsan. No solo disminuye la precisión, sino que los LRMs reducen la longitud de sus trazas, incluso cuando disponen de tokens para continuar. Es decir, dejan de intentar “pensar” al enfrentar problemas que superan su capacidad.

Los investigadores describen este fenómeno como un “límite de escalado contraintuitivo”: hasta cierto punto, más complejidad genera más esfuerzo de razonamiento; después de un umbral crítico, ocurre lo contrario.

Implicaciones prácticas y sociales

El estudio advierte contra una interpretación ingenua de los LRMs como sistemas de razonamiento general. Que un modelo “explique” sus pasos no significa que entienda realmente lo que hace.

En aplicaciones críticas —como diagnósticos médicos, evaluaciones legales o planificación de recursos naturales— confiar ciegamente en las trazas de un LRM puede ser riesgoso. La recomendación es validar siempre la robustez en contextos específicos y, en problemas de alta complejidad, complementar con métodos algorítmicos exactos o enfoques híbridos que combinen estadística e inferencia simbólica.

En América Latina, por ejemplo, su uso en sistemas de apoyo a agricultores o en plataformas de administración pública debería evaluarse cuidadosamente mediante pilotos controlados antes de implementaciones masivas.

Conclusión

El trabajo de Apple muestra que los LRMs ofrecen ventajas en escenarios de dificultad intermedia, pero también deja claro que la “ilusión de pensar” se desvanece cuando la complejidad alcanza niveles elevados. Esto obliga a replantear cómo evaluamos, regulamos y comunicamos las capacidades de la IA.

El mensaje central es contundente: no basta con que una máquina “hable como si pensara”; lo esencial es comprobar hasta dónde puede sostener ese razonamiento sin caer en ilusiones.


Temas relacionados

Tecnología

Referencia: Shojaee, P., Mirzadeh, I., Alizadeh, K., Horton, M., Bengio, S., & Farajtabar, M. (2025). The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity. arXiv. https://doi.org/10.48550/arXiv.2506.06941

Licencia

Licencia Creative Commons 4.0. Lee las condiciones de nuestra licencia
Beneficios de publicar

Últimas noticias

Obesidad
Tendencias mundiales de bajo peso y obesidad entre 1990 y 2022: qué revela el mayor análisis global reciente
Rainforest
La biodiversidad forestal dispara la productividad: la clave está en la arquitectura del dosel
Graduándose
Maestrías en silvicultura: una nueva vía para transformar la gestión forestal en el siglo XXI