Cuando la IA ralentiza: Lo que revela un estudio sobre programadores expertos y productividad

English

^{Christina Morillo}

Redacción HC
06/09/2025

El entusiasmo por las herramientas de inteligencia artificial en la programación ha crecido de forma acelerada. Desde asistentes de código como GitHub Copilot hasta entornos de desarrollo potenciados por modelos avanzados, la narrativa dominante ha sido la promesa de una aceleración significativa en la productividad de los desarrolladores. Sin embargo, un nuevo estudio realizado por Model Evaluation & Threat Research (METR) pone en cuestión esta percepción: en condiciones experimentales realistas, la IA no solo no mejoró el rendimiento de desarrolladores experimentados, sino que en promedio los hizo trabajar más lento.

Este hallazgo abre un debate urgente sobre cómo medir el verdadero impacto de la IA en la productividad y qué implicaciones puede tener en el desarrollo de software, la industria tecnológica y las políticas públicas.

El problema de investigación: medir productividad real, no percepciones

La pregunta que guio el estudio fue clara: ¿cómo afectan las herramientas de IA de principios de 2025 a la productividad de desarrolladores experimentados trabajando en sus propios proyectos de código abierto?

Los benchmarks tradicionales y las encuestas sugieren aumentos en velocidad de programación, pero carecen de validez en contextos de trabajo real. METR buscó cerrar esta brecha a través de un ensayo controlado aleatorizado (RCT) que capturara el impacto de la IA en repositorios maduros, con estándares de calidad exigentes y tareas genuinas.

Metodología: Un ensayo aleatorizado con tareas reales

El estudio contó con 16 desarrolladores expertos en proyectos de código abierto de gran escala (más de un millón de líneas de código en promedio). Se trabajó con 246 issues reales, que iban desde corrección de errores hasta nuevas funcionalidades y refactorización.

Cada tarea se asignó aleatoriamente a dos condiciones:

Con IA: los participantes podían usar libremente herramientas como Cursor Pro con modelos avanzados de Claude.
Sin IA: los desarrolladores resolvían el problema de forma tradicional, sin asistencia algorítmica.

La duración media de las tareas fue de dos horas, y cada participante grabó su proceso. Se midió tiempo de resolución, aceptación de pull requests y calidad del código resultante.

Resultados: cuando la percepción no coincide con los datos

El hallazgo central sorprendió a los propios participantes: los desarrolladores que usaron IA tardaron en promedio un 19% más que aquellos que no la usaron.

Más llamativo aún, antes del estudio los participantes creían que ahorrarían un 24% de tiempo con IA; incluso después de completar las tareas, muchos seguían convencidos de haber sido más rápidos, a pesar de los datos en contra.

¿Qué explica esta discrepancia? El análisis identificó varios factores:

Tiempo invertido en prompting y revisión: los desarrolladores gastaron minutos valiosos ajustando las solicitudes a la IA y corrigiendo errores del código generado.
Baja aceptación del código propuesto: menos de la mitad de las sugerencias se integraron directamente, requiriendo limpieza y adaptación.
Eficiencia previa de los expertos: en repositorios que dominaban, la IA aportaba poco valor añadido y a menudo introducía fricciones.
Estándares de calidad: la IA no cumplía de manera automática con documentación, pruebas y estilo, lo que generó trabajo extra.

Estos hallazgos contrastan con otros estudios que sí han reportado mejoras, especialmente en tareas cerradas o entornos empresariales más controlados. METR enfatiza que el impacto de la IA es altamente dependiente del contexto.

Implicaciones para empresas, políticas y la industria

El estudio no implica que la IA sea ineficaz en todos los escenarios, sino que su adopción requiere cautela y medición rigurosa. Algunas recomendaciones prácticas derivadas de los hallazgos incluyen:

Evaluar el contexto antes de desplegar IA: la utilidad depende de la complejidad y madurez del repositorio.
Medir resultados reales, no percepciones: encuestas y opiniones de usuarios pueden no reflejar el impacto efectivo.
Invertir en integración personalizada: pipelines de pruebas, reglas de estilo automatizadas y fine-tuning podrían reducir fricciones.
Formar a los desarrolladores: el estudio sugiere que el dominio de las herramientas podría mejorar con cientos de horas de experiencia adicional.

A nivel regulatorio, los autores advierten que una adopción acrítica podría generar falsas expectativas o riesgos sistémicos. En contraste, una medición realista del impacto permitirá políticas de innovación más informadas y estrategias laborales que reduzcan la fricción entre humanos y algoritmos.

De la ilusión a la evidencia

El informe de METR recuerda que la innovación tecnológica debe evaluarse con rigor empírico. En este caso, la promesa de la IA como acelerador de la programación no se cumplió en un contexto de alto nivel, y la brecha entre percepción y realidad invita a repensar la narrativa dominante.

Para empresas, gobiernos y desarrolladores, el mensaje es claro: la IA puede ser poderosa, pero no siempre es sinónimo de productividad inmediata. Antes de adoptar masivamente estas herramientas, conviene medir, adaptar y formar.

Temas relacionados

Tecnología

Referencia: Becker, J., Rush, N., Barnes, E., & Rein, D. (2025). Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity. METR. https://metr.org/blog/2025-07-10-early-2025-ai-experienced-os-dev-study/