Los agentes de inteligencia artificial basados en grandes modelos de lenguaje (LLM agents) se presentan como una de las innovaciones más prometedoras para la automatización de tareas profesionales. Pero surge una pregunta crucial: ¿qué tan capaces son realmente de desenvolverse en un entorno laboral con tareas complejas, colegas simulados y responsabilidades de largo plazo?
Un grupo de investigadores liderado por Frank F. Xu (Carnegie Mellon University) y colaboradores independientes propuso una respuesta a través de TheAgentCompany, un benchmark experimental que recrea una empresa digital y pone a prueba a distintos agentes LLM en 175 tareas de diversa complejidad. Los hallazgos, publicados en un preprint en arXiv (Xu et al., 2025), ofrecen una mirada matizada sobre el presente y futuro de esta tecnología.
TheAgentCompany es un entorno auto-hospedado que imita la dinámica de una empresa de software a pequeña escala. Incluye una intranet con herramientas de colaboración (GitLab, OwnCloud), un gestor de incidencias (Plane), un chat corporativo (RocketChat) y un espacio de trabajo local con navegador, terminal y editor en contenedores Docker.
Cada tarea está cuidadosamente diseñada: comienza con una intención (intent), se mide en checkpoints intermedios y se valida mediante verificadores automáticos programados en Python. Los “colegas” del entorno son personajes simulados (NPC) respaldados por otros LLM, con quienes los agentes deben interactuar para completar proyectos.
Este diseño busca reproducir no solo tareas técnicas, sino también dinámicas sociales del trabajo, evaluando desde el despliegue de un servidor hasta la resolución de ambigüedades en la comunicación.
Los investigadores sometieron a prueba doce agentes basados en LLM —entre ellos Gemini 2.5 Pro, GPT-4o, Claude, Llama y Qwen— en un conjunto de 175 tareas.
El resultado más destacado fue que Gemini 2.5 Pro logró completar de manera autónoma un 30,3% de las tareas y alcanzó un 39,3% de puntuación global cuando se considera el crédito parcial por pasos intermedios.
Esto revela dos puntos clave:
En otras palabras, los agentes son útiles como asistentes veloces para trabajos bien estructurados, pero están lejos de reemplazar a roles de gestión o toma de decisiones estratégicas.
Lo innovador de TheAgentCompany es su realismo: combina múltiples herramientas, interacción entre “empleados” y tareas de horizonte extendido. Esto lo diferencia de otros benchmarks más restringidos, como SWE-Bench, centrado en problemas de software, o τ-bench, enfocado en atención al cliente.
La evaluación no solo considera el resultado final, sino también la eficiencia (acciones necesarias, tiempo empleado) y la calidad de la interacción social con colegas simulados. Así, se obtiene una imagen más completa de lo que significa “trabajar” en un entorno digital.
Los hallazgos sugieren un escenario de automatización parcial. En el corto plazo, las compañías pueden beneficiarse al usar agentes como copilotos digitales en tareas administrativas, de recopilación de datos o pruebas de integración. Esto podría liberar tiempo a los trabajadores para enfocarse en labores de mayor valor añadido.
No obstante, aún es indispensable la supervisión humana en decisiones que involucran finanzas, recursos humanos o estrategias de negocio. Reguladores y responsables de políticas públicas deben priorizar marcos de responsabilidad claros para evitar riesgos en la automatización de decisiones críticas.
En América Latina, donde abundan pymes tecnológicas, la adopción prudente de este tipo de sistemas podría aumentar la productividad y al mismo tiempo exigir programas de capacitación laboral que integren a los trabajadores en el uso de herramientas basadas en IA.
El mensaje central del estudio es claro: los agentes LLM avanzan con rapidez en la ejecución de tareas bien definidas, pero todavía presentan limitaciones significativas en entornos sociales y estratégicos.
Para las empresas, esto significa que deben ser adoptados como asistentes de apoyo y no como sustitutos completos de la fuerza laboral. Para la investigación, TheAgentCompany marca un precedente al establecer un estándar reproducible y realista que permitirá seguir midiendo el progreso de esta tecnología en los próximos años.
La pregunta que queda abierta es: ¿cuándo estos agentes dejarán de ser aprendices veloces para convertirse en verdaderos colegas de trabajo?
Temas relacionados
TecnologíaReferencia: Xu, F. F., Song, Y., Li, B., Tang, Y., Jain, K., et al. (2025). TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks. arXiv. https://arxiv.org/pdf/2412.14161