Los “agentes” de IA en 2025: la promesa no llega a la práctica — la mejor IA solo cumplió el 2,5% de encargos
Resumen del estudio y resultados clave
Un nuevo estudio promovido por Scale AI evaluó en condiciones próximas a la realidad laboral la capacidad de los llamados “agentes” de inteligencia artificial para ejecutar proyectos completos sin supervisión humana. La prueba incluyó encargos reales de mercado freelance —desde diseño de producto y desarrollo de videojuegos hasta análisis de datos o redacción científica— y las entregas fueron valoradas por un panel de 40 jueces que actuaron como clientes.
Los resultados son claros y bruscos: el modelo que obtuvo el mejor rendimiento, Manus, solo alcanzó un 2,5% de entregas consideradas “aceptables” para un cliente corriente. Le siguieron Grok (2,1%), Claude (cifras similares), GPT‑5 (1,7%) y Gemini 2.5 Pro (0,8%). En otras palabras, menos de tres de cada cien proyectos realizados por los sistemas más avanzados habrían pasado el filtro comercial usado en la prueba.
Contexto: por qué importan los agentes y cómo llegamos hasta aquí
En los últimos años la narrativa tecnológica ha pasado de modelos que responden a peticiones a sistemas que actúan de forma autónoma para resolver proyectos: los llamados agentes. Plataformas y empresas han promocionado agentes capaces de planificar, coordinar recursos y entregar resultados profesionales, y algunas grandes compañías (entre ellas Microsoft en comunicaciones públicas) han presentado estos sistemas como vehículos para aumentar la productividad.
Sin embargo, la historia reciente muestra una brecha recurrente entre desempeño en benchmarks y capacidad operativa en entornos no controlados. Benchmarks estandarizados miden competencias concretas (comprensión lectora, codificación, razonamiento lógico), pero rara vez capturan la complejidad de un encargo profesional: requisitos ambiguos, prioridades cambiantes, coordinación con herramientas externas, verificación de fuentes o cumplimiento legal y ético.
Análisis técnico y comentario experto para practicantes
Para ingenieros y responsables de producto que buscan integrar agentes en flujos de trabajo reales, el estudio ofrece varias lecciones técnicas:
- Evaluación con criterios de cliente real es más exigente que benchmarks. Un “aceptable” implica coherencia, formato entregable, cumplimiento de requisitos no explícitos y ausencia de errores críticos.
- Las fallas típicas no son solo errores de conocimiento, sino de razonamiento operativo: priorización incorrecta de tareas, mala gestión de dependencias, incapacidad para contextualizar expectativas y tendencia a “hallucinations” (afirmaciones falsas o inventadas sin verificación).
- La integración de herramientas (APIs, entornos de ejecución, recuperación documental) es crítica. Los agentes que disponen de orquestadores robustos, comprobaciones intermedias y acceso fiable a datos actualizados suelen ser más efectivos que modelos que actúan únicamente sobre texto.
- El coste operativo importa: iteraciones múltiples, supervisión humana y pruebas de calidad elevan el coste y reducen el supuesto ahorro que la automatización promete.
Prácticas recomendadas técnicas:
- Diseñar agentes limitados por dominio (scope) antes de aspirar a autonomía general: start small, think modular.
- Implementar pipelines con verificación humana en puntos críticos (human‑in‑the‑loop) y criterios de rechazo automáticos.
- Usar retrieval‑augmented generation (RAG) y fuentes verificadas para mitigar alucinaciones, y auditar la trazabilidad de las decisiones del agente.
- Medir con métricas centradas en el usuario: tiempo hasta entrega utilizable, tasa de adopción por clientes y coste por corrección, no solo accuracy en benchmarks.
Comparables, riesgos e implicaciones prácticas
El desajuste entre la expectativa (agentes sustituyendo trabajadores) y los resultados reales tiene implicaciones económicas y regulatorias:
- Economía y empleo: a corto plazo, la automatización completa de roles profesionales parece improbable según estas pruebas. Es más plausible la adopción de asistentes que aumenten la productividad de trabajadores humanos que su sustitución total.
- Responsabilidad y cumplimiento: cuando una entrega fallida afecta a clientes (por ejemplo en asesoría médica, legal o financiera), surge la cuestión de la responsabilidad. Los sistemas que actúan sin supervisión plantean riesgos legales y reputacionales.
- Seguridad y privacidad: los agentes integrados con APIs externas y datos sensibles necesitan controles estrictos de acceso, encriptación y políticas de retención para cumplir normas como GDPR y contratos corporativos.
- Percepción pública: promesas incumplidas pueden erosionar la confianza en herramientas útiles para tareas parciales, ralentizando su adopción responsable.
Riesgos técnicos recurrentes:
- Hallucinations y errores fácticos en entregables que parecen plausibles.
- Fragilidad frente a instrucciones vagas o requisitos cambiantes.
- Dependencia oculta de datos de entrenamiento sesgados o desactualizados.
“La industria está haciendo como que es asombroso, y no lo es” — Andrej Karpathy.
Recomendaciones accionables para empresas y equipos
Si su organización está evaluando incorporar agentes, estas son medidas prácticas basadas en el estudio y en prácticas aceptadas de ingeniería de IA:
- Comenzar con pilotos acotados: seleccione casos de uso con alto volumen de tareas repetitivas y bajo riesgo en caso de fallo (ej.: generación de borradores, clasificación inicial, extracción de datos).
- Definir criterios de aceptación que incluyan evaluación humana, métricas de usabilidad y coste total de propiedad (TCO).
- Integrar validaciones automáticas y puntos de control humano antes de cualquier entrega al cliente final. No desplegar agentes autónomos sin capacidad de reversión inmediata.
- Auditar y registrar el comportamiento del agente: logs de decisiones, fuentes consultadas, versión del modelo y prompts usados para permitir trazabilidad y diagnósticos.
- Formar a los equipos en cómo supervisar y corregir salidas: prompt engineering práctico, listas de verificación y procedimientos de escalado.
- Establecer cláusulas contractuales claras con proveedores de modelos sobre responsabilidad, actualización de modelos y manejo de datos.
Conclusión
El estudio promovido por Scale AI arroja una conclusión prudente: en 2025 los agentes de IA aún no reemplazan a profesionales en la mayoría de encargos reales. Aunque los modelos son rápidos y cada vez más capaces en tareas puntuales, menos del 3% de entregas de los sistemas evaluados habrían sido aceptables para clientes reales en la prueba. Eso no invalida el progreso ni el valor de la IA: indica que el camino hacia agentes autónomos y fiables exige mejoras en razonamiento contextual, integración de herramientas, verificación de hechos y diseño de flujos con supervisión humana.
Las organizaciones deben ajustar expectativas, reforzar pruebas con clientes reales y adoptar un enfoque iterativo y prudente: los agentes pueden complementar y aumentar al trabajo humano, pero hoy su capacidad para sustituirlo de forma generalizada es limitada.
Source: www.genbeta.com



