El secreto detrás del razonamiento aritmético en IA


Inteligencia artificial
Inteligencia artificial
Jcomp/Freepik

En el vertiginoso mundo de la inteligencia artificial, una pregunta clave ha surgido en torno a la forma en que los modelos de lenguaje grandes (LLM) resuelven problemas complejos: ¿acaso dependen de algoritmos robustos y generalizables o se basan en la memorización de datos? Una investigación reciente ha arrojado luz sobre esta cuestión al examinar de cerca el razonamiento aritmético en estos modelos, revelando un mecanismo fascinante y sutil que podría cambiar la forma en que entendemos su funcionamiento.

El dilema que enfrentan los investigadores se centra en si los LLM pueden desarrollar una comprensión algorítmica similar a la humana—por ejemplo, como cuando un niño aprende a sumar mediante la técnica de la suma vertical—o si, en cambio, se limitan a recordar patrones específicos de los enormes volúmenes de datos con los que han sido entrenados. Si bien la memorización podría ser suficiente para resolver ciertos problemas predecibles, la capacidad de generalizar a nuevas situaciones es la verdadera prueba de un algoritmo robusto y adaptable.

Para abordar este interrogante, los investigadores han centrado su atención en el razonamiento aritmético, una tarea en la que se pueden aplicar diversos métodos: desde algoritmos matemáticos conocidos hasta la mera memorización de pares de entrada-salida. A través de un meticuloso análisis causal, el equipo logró identificar un subconjunto del modelo —un "circuito"— que es responsable de gran parte del comportamiento del modelo al resolver operaciones aritméticas básicas.

Al profundizar en el nivel de neuronas individuales dentro de este circuito, se descubrió que un conjunto disperso de estas unidades actúa de manera clave. Cada una de estas neuronas implementa lo que los investigadores denominan heurísticas simples: reglas que se activan ante patrones específicos en los números de entrada y que, de forma conjunta, generan las respuestas correctas. Por ejemplo, se identificó una neurona que incrementa la probabilidad de seleccionar ciertos tokens en un rango específico cuando se trata de operaciones de resta.

Uno de los hallazgos más intrigantes es la hipótesis de que, en lugar de depender de un único algoritmo coherente, los LLM resuelven tareas aritméticas mediante una "bolsa de heurísticas". Esto significa que el modelo no recurre a una única estrategia robusta, sino a la combinación desordenada y complementaria de múltiples heurísticas. Cada neurona, categorizada en distintos tipos según la función que desempeña —por ejemplo, aquellas que responden a operandos que caen dentro de un cierto rango— se suma a un sistema que, en conjunto, proporciona respuestas precisas a los desafíos aritméticos.

Este enfoque híbrido sugiere que la precisión del modelo en tareas aritméticas se basa en una colaboración entre varias reglas memorizadas, en lugar de en la implementación de algoritmos sofisticados que se puedan aplicar de manera universal. Así, la "bolsa de heurísticas" actúa como el pilar fundamental detrás de las operaciones aritméticas en los LLM.

Otro aspecto revelador del estudio es la evolución de estas heurísticas a lo largo del proceso de entrenamiento del modelo. Los investigadores han demostrado que el mecanismo basado en heurísticas no surge de manera repentina ni reemplaza a otro sistema preexistente, sino que aparece gradualmente desde las primeras etapas del entrenamiento. Esto indica que, desde el inicio, el modelo comienza a incorporar estas reglas simples y las refuerza a medida que se expone a más datos, lo que podría incluso llevar a un sobreajuste a estrategias tempranas.

Esta observación abre la puerta a interesantes debates sobre la optimización y regularización en los procesos de entrenamiento de los LLM. Si la evolución de estas heurísticas es inherente al aprendizaje temprano, ¿podrían ajustes en el entrenamiento mejorar la capacidad de generalización de estos modelos en tareas más complejas?

Como en toda investigación de interpretabilidad, uno de los desafíos es la implicación de los sesgos humanos al definir abstracciones. En este caso, los investigadores tuvieron que imponer definiciones de tipos heurísticos basadas en criterios identificables por nosotros, lo que podría limitar la interpretación del mecanismo real que el modelo ha aprendido. Además, el análisis se realizó en LLM que tokenizan dígitos de forma combinada—una característica que difiere de otros modelos que podrían tokenizar dígitos de manera individual. Estas diferencias en la tokenización podrían llevar a mecanismos distintos y, por lo tanto, a conclusiones variadas sobre el razonamiento aritmético en otros contextos.

El descubrimiento de que los LLM resuelven operaciones aritméticas a través de una "bolsa de heurísticas" tiene profundas implicaciones para el futuro de la inteligencia artificial. En lugar de centrarse únicamente en técnicas post-hoc para corregir errores (como la dirección de activación), los investigadores sugieren que mejorar la capacidad matemática de los LLM podría requerir cambios fundamentales en la arquitectura y en el proceso de entrenamiento. Al entender cómo y cuándo emergen estas heurísticas, la comunidad científica puede diseñar modelos que no solo sean precisos en tareas aritméticas, sino que también sean capaces de generalizar a problemas nuevos y más complejos.

Este estudio no solo arroja luz sobre el funcionamiento interno de los LLM, sino que también plantea preguntas cruciales sobre el equilibrio entre memorización y generalización en la inteligencia artificial. La capacidad de estos modelos para aplicar heurísticas simples de manera combinada podría ser la clave para desarrollar sistemas más versátiles y robustos en el futuro.

La investigación sobre el razonamiento aritmético en modelos de lenguaje grandes revela que la solución de estos sistemas no se basa en la implementación de algoritmos matemáticos sofisticados ni en la simple memorización de datos. En cambio, se fundamenta en una "bolsa de heurísticas", donde múltiples neuronas, cada una actuando como una regla memorizada, colaboran para generar respuestas correctas. Este mecanismo, que se consolida desde las primeras etapas del entrenamiento, abre nuevas perspectivas sobre cómo se puede mejorar el rendimiento y la capacidad de generalización de los LLM.

A medida que la inteligencia artificial sigue evolucionando, entender estos mecanismos internos se vuelve esencial no solo para optimizar el rendimiento en tareas aritméticas, sino también para avanzar en la resolución de problemas de razonamiento más complejos. La "bolsa de heurísticas" podría, en última instancia, ser una ventana hacia el futuro del diseño de algoritmos en modelos de lenguaje, impulsando nuevas estrategias de entrenamiento y arquitectura que transformen el campo de la inteligencia artificial.

En resumen, este estudio nos invita a repensar cómo percibimos la inteligencia de los modelos de lenguaje, destacando la sutileza y la complejidad detrás de lo que, a primera vista, podría parecer una simple cuestión de memorización. La próxima generación de LLM podría beneficiarse enormemente de estos hallazgos, llevando la capacidad de razonamiento a niveles insospechados y ampliando las fronteras de lo que la inteligencia artificial puede lograr.


Temas relacionados

Referencia: Nikankin, Y., Reusch, A., Mueller, A., & Belinkov, Y. (2024). Arithmetic without algorithms: Language models solve math with a bag of heuristics. En arXiv [cs.CL]. https://doi.org/10.48550/ARXIV.2410.21272

Licencia

Licencia Creative Commons 4.0. Lee las condiciones de nuestra licencia
Beneficios de publicar

Últimas noticias

Figure.
Las áreas protegidas mundiales en crisis
Figure.
Los espacios verdes reducen el dolor según la neurociencia
Figure.
Restauración ecológica: ¿la clave para un desarrollo económico rural sostenible?