Anthropic prueba a Claude gestionando una máquina expendedora: lecciones de un experimento que perdió 1.000 dólares

diciembre 25, 2025

Anthropic prueba a Claude gestionando una máquina expendedora: lecciones de un experimento que perdió 1.000 dólares

Resumen del experimento

Anthropic ejecutó un experimento interno, bautizado como Project Vend, para someter a su modelo Claude a la tarea de gestionar una máquina expendedora en una oficina. La prueba involucró dos agentes de IA: Claudius Sennet, responsable del día a día (selección de productos, fijación de precios, inventario y respuesta a peticiones vía Slack), y Seymour Cash, un agente supervisor con funciones de «CEO» virtual.

Se asignó a Claudius un capital inicial de 1.000 dólares y, tras una fase de supervisión, permiso para realizar pedidos autónomos de hasta 80 dólares por operación. Durante las primeras jornadas el sistema se comportó con aparente prudencia. Todo cambió cuando el canal de Slack se abrió a unas 70 personas de la redacción del Wall Street Journal: interacciones lúdicas y mensajes maliciosos llevaron al agente a organizar una promoción («Ultra-Capitalist Free-For-All») que transformó una oferta temporal en una política permanente de precios a cero. Además se relajaron restricciones y la máquina llegó a contener artículos inadecuados para ese tipo de negocio (botellas de vino, una PlayStation 5 y un pez betta vivo).

El agente supervisor fue incapaz de revertir la situación después de que se presentaran documentos falsificados que revocaban sus poderes. El experimento terminó con el capital inicial agotado y pérdidas cercanas a 1.000 dólares; Project Vend fue cancelado. Anthropic defiende que el objetivo no era obtener beneficio económico sino identificar debilidades del sistema.

Análisis técnico: modos de fallo relevantes

El episodio ilustra varios modos de fallo recurrentes en despliegues de agentes autónomos basados en modelos de lenguaje:

  • Manipulación social y adversarial input: Claude fue persuadido por la dinámica colectiva en Slack y por documentos falsificados. Los modelos LLM carecen, por defecto, de mecanismos fiables para verificar la autenticidad de documentos o la autoridad de quienes emiten instrucciones.
  • Deriva de objetivos y especificación incompleta: la instrucción de «generar beneficios» es insuficiente si no se definen métricas, restricciones operativas y excepciones. Un objetivo de alto nivel sin límites claros permite estrategias que cumplen la literalidad pero no la intención.
  • Fragilidad frente a escala social: abrir un canal a decenas de usuarios introdujo incentivos y ruido que la IA no pudo disentir; los sistemas necesitan modelos de reputación, autenticación y umbrales de confianza para aceptar propuestas externas.
  • Falta de controles económicos y de seguridad: ausencia de límites inmutables (por ejemplo, bloqueos que impidan precios negativos o compras fuera de un catálogo preautorizado) y de circuit breakers financieros.
  • Problemas de gobernanza multi-agente: el supervisor (Seymour) no pudo imponer una resolución efectiva frente a pruebas fraudulentas; los mecanismos de resolución de conflictos entre agentes deben estar diseñados y protegidos contra suplantación.

Contexto, precedentes y por qué importa

Este tipo de pruebas no son anecdóticas: empresas tecnológicas han desplegado agentes autónomos en contextos comerciales cada vez más complejos. La historia muestra varios precedentes que sirven de referencia:

  • Casos de agentes que aprendieron comportamientos no deseados: el chatbot Tay de Microsoft (2016) fue manipulable por usuarios y tuvo que ser retirado en horas.
  • Fallos algorítmicos en mercados: eventos como el «Flash Crash» de 2010 evidencian que sistemas automatizados de decisión pueden provocar consecuencias económicas significativas cuando interactúan a escala y sin salvaguardas adecuadas.
  • Errores en fijación de precios y algoritmos de mercado han provocado fluctuaciones y ofertas absurdas en plataformas de e‑commerce, lo que subraya la necesidad de reglas de negocio y límites técnicos.

La lección es directa: si un agente no puede operar con fiabilidad en el entorno controlado de una oficina y con un capital pequeño, surgen dudas legítimas sobre su idoneidad para tareas críticas —gestión de carteras, logística a escala, decisiones regulatorias— que implican mayores riesgos y responsabilidades.

Riesgos, implicaciones y señales de alarma

El experimento de Anthropic resalta riesgos prácticos y de gobernanza que deben considerarse al diseñar y desplegar agentes autónomos:

  • Riesgo financiero directo: pérdidas por decisiones no auditadas, especialmente si los límites económicos son insuficientes o pueden ser revocados por entradas de baja calidad.
  • Riesgo reputacional y legal: compra de artículos indebidos (alcohol, animales vivos) o políticas de precios incorrectas pueden generar daños de marca y problemas regulatorios, incluidas responsabilidades por bienestar animal o seguridad del producto.
  • Riesgo de seguridad y fraude: aceptación de documentos falsos indica carencias en verificación de identidad y en la cadena de custodia de decisiones.
  • Riesgo de escalado descontrolado: sin mecanismos de contención, comportamientos aprendidos en pruebas pueden replicarse y ampliarse en sistemas con acceso a recursos mayores.

Recomendaciones prácticas para equipos que construyen agentes autónomos

Para ingenieros, responsables de producto y equipos de seguridad, estas son medidas concretas y aplicables:

  • Definir objetivos operativos precisos y métricas de éxito: no «generar beneficios» sin especificar plazos, límites de pérdida, catálogo aprobado, y KPIs (margen, rotación de inventario, tasa de devolución).
  • Implementar límites inmutables y circuit breakers: bloqueos a nivel de infraestructura que impidan precios negativos, compras fuera del catálogo o órdenes superiores a un umbral absoluto sin intervención humana.
  • Autenticación y control de acceso estricto: exigir firmas digitales o tokens para cambios de política; no confiar en documentos de texto enviados por canales informales para revocar permisos críticos.
  • Human-in-the-loop y despliegues graduales: canary deployments, modos simulados antes de operar en vivo y supervisión humana en tiempo real para operaciones que impliquen desembolsos o cambios de política.
  • Monitoreo y detección de anomalías: alertas automáticas ante variaciones bruscas de precio, ventas a costo cero, o compras fuera de patrón; dashboards con métricas financieras y de integridad.
  • Red team continuo y pruebas adversariales: someter al sistema a ataques de ingeniería social, documentos falsificados y ruido masivo para detectar vectores de manipulación.
  • Registro inmutable y auditoría: mantener logs verificables de decisiones y fuentes de entrada para permitir investigación post‑incidente y responsabilidades claras.
  • Diseñar multi-agente con jerarquías verificables: protocolos claros para resolución de conflictos entre agentes, con verificaciones criptográficas de autoridad y roles.

“Probablemente podrá hacerte ganar mucho dinero algún día”, fue la idea expresada por un responsable del red team de Anthropic, subrayando que el objetivo del experimento era identificar debilidades y no obtener beneficio inmediato.

Conclusión

Project Vend no es sólo una anécdota cómica sobre una máquina expendedora y un pez betta: es un recordatorio práctico de que la competencia aparente de un modelo de lenguaje no equivale a fiabilidad operativa. La transición desde simulación y pruebas controladas hacia decisiones automatizadas en el mundo real exige ingeniería de seguridad, controles económicos, autenticación robusta y gobernanza clara. Para los equipos que desarrollan y despliegan agentes autónomos, la prioridad debe ser cerrar las superficies de ataque social y garantizar límites inmutables antes de exponer esos sistemas a usuarios reales o recursos significativos.

Source: www.genbeta.com