Midiendo la capacidad de la IA para completar tareas largas: ¿hasta dónde puede llegar la automatización?
English
Redacción HC
La inteligencia artificial (IA) ha avanzado de manera vertiginosa en la última década. Sin embargo, más allá de superar benchmarks académicos, una pregunta crucial persiste: ¿qué tan largas y complejas pueden ser las tareas que estos modelos logran completar de manera confiable?
Un reciente estudio publicado por el grupo Model Evaluation & Threat Research (METR) en colaboración con investigadores de Anthropic propone una nueva forma de medir este límite: el “horizonte temporal de completitud”, una métrica que traduce la capacidad de los modelos de IA a unidades de tiempo humano. El preprint, disponible en arXiv desde marzo de 2025, ofrece una visión innovadora para comprender el verdadero alcance de la automatización y sus implicancias en la gobernanza tecnológica.
¿Qué es el horizonte temporal de la IA?
Los benchmarks tradicionales, como porcentajes de acierto en pruebas estandarizadas, no reflejan con claridad lo que un modelo puede lograr en escenarios prácticos. En cambio, el horizonte temporal de completitud mide el tiempo que un humano tarda en realizar una tarea que la IA puede completar con determinada probabilidad de éxito, por ejemplo, el 50%.
En palabras simples, se trata de preguntar: “Si una persona tarda X horas en una tarea, ¿qué tan probable es que una IA logre completarla?”. Esta métrica busca vincular el rendimiento de los modelos directamente con la escala de trabajo humano, un enfoque clave para evaluar riesgos y oportunidades en la automatización.
Metodología: de segundos a horas de trabajo humano
El equipo de METR diseñó un conjunto de 170 tareas relacionadas con investigación y desarrollo de software, que abarcan desde acciones atómicas de segundos hasta proyectos que pueden tomar decenas de horas a un experto humano.
Para cada tarea, midieron:
- El tiempo promedio que emplea un humano experimentado.
- La tasa de éxito de distintos agentes de IA (modelo más su andamiaje o scaffold).
Con estos datos, aplicaron modelos estadísticos basados en curvas logísticas, inspiradas en la teoría de respuesta al ítem (Item Response Theory), lo que permitió estimar el punto en que la probabilidad de éxito de la IA alcanza un 50%.
Además, validaron los resultados con datasets externos como SWE-bench Verified, aplicaron pruebas de sensibilidad y limitaron su análisis a 13 modelos frontera lanzados entre 2019 y 2025.
Resultados: avances rápidos, pero con límites claros
Los hallazgos son tan impresionantes como reveladores:
- Crecimiento exponencial: el horizonte temporal de la IA se ha duplicado aproximadamente cada 7 meses desde 2019.
- Límite actual: modelos como Claude 3.7 Sonnet logran completar tareas con horizontes de hasta 50 minutos, mientras que fallan en proyectos que requieren más de 4 horas de trabajo humano.
- Brecha crítica: mientras que las IAs alcanzan casi un 100% de éxito en tareas cortas (<4 minutos), su desempeño cae a menos del 10% en tareas largas (>4 horas).
Extrapolando esta tendencia, los investigadores estiman que los modelos podrían alcanzar horizontes equivalentes a proyectos de semanas o incluso meses de duración entre finales de 2028 y principios de 2031, aunque reconocen incertidumbre en la proyección.
Implicancias para la política y la economía
El estudio no se limita a describir avances técnicos: plantea implicancias profundas para la gobernanza, la economía y la fuerza laboral.
- Política pública y regulación: métricas como el horizonte temporal podrían definir umbrales regulatorios para restringir el acceso a modelos capaces de ejecutar tareas largas y autónomas en infraestructuras críticas.
- Impacto laboral: la automatización de tareas de software y análisis de datos avanzará más rápido en segmentos cortos y repetitivos, mientras que los proyectos complejos aún requerirán supervisión humana.
- Estrategia empresarial: para las compañías, esta métrica ofrece una guía práctica sobre qué áreas pueden delegar a la IA y dónde conviene mantener un esquema híbrido con humanos en el bucle.
En el contexto latinoamericano, esto podría acelerar la digitalización de sectores como minería, agroindustria y administración pública, siempre que se acompañe de políticas de reconversión laboral y gestión de riesgos.
De minutos a meses, el futuro de la IA
El trabajo de METR ofrece una brújula clave para entender hacia dónde avanza la automatización: de tareas cortas y aisladas a proyectos cada vez más largos y complejos. Aunque aún existen limitaciones en contextos reales, la trayectoria sugiere un futuro donde la IA podría asumir labores equivalentes a semanas de esfuerzo humano en menos de una década.
Para gobiernos, empresas y trabajadores, la lección es clara: anticipar este cambio será esencial para aprovechar oportunidades y mitigar riesgos.
Temas relacionados
TecnologíaReferencias:
Kwa, T., West, B., Becker, J., Deng, A., Garcia, K., Hasin, M., Jawhar, S., Kinniment, M., Rush, N., Von Arx, S., Bloom, R., Broadley, T., Du, H., Goodrich, B., Jurkovic, N., Miles, L. H., Nix, S., Lin, T., Parikh, N., Rein, D., Sato, L. J. K., Wijk, H., Ziegler, D. M., Barnes, E., & Chan, L. (2025). Measuring AI Ability to Complete Long Tasks. arXiv. https://ar5iv.org/abs/2503.14499
Model Evaluation & Threat Research (METR). (2025, marzo 19). Measuring AI Ability to Complete Long Tasks. METR. https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/



