Meta prepara Mango y Avocado: nuevos modelos de IA para imágenes, vídeo y código

diciembre 23, 2025

Meta prepara Mango y Avocado: nuevos modelos de IA para imágenes, vídeo y código

Qué ha anunciado Meta

Meta está desarrollando Mango, un nuevo modelo de inteligencia artificial orientado a la generación de imágenes y vídeo, y Avocado, un modelo basado en texto pensado para tareas avanzadas de programación y codificación. Según un reportaje del Wall Street Journal recogido por 20minutos, el desarrollo de Mango está a cargo de la división Meta Superintelligence Labs (MSL) y aspira a competir con Nano Banana, un modelo de Google mencionado en el mismo contexto. El anuncio se hizo en una sesión interna de preguntas y respuestas en la que participaron Alexandr Wang —cofundador de Scale AI y director de MSL— y Chris Cox, director de producto de Meta. El lanzamiento estaría previsto para la primera mitad de 2026.

Según un reporte del Wall Street Journal, Mango podría tener la capacidad de competir con Nano Banana, y su desarrollo está liderado por Meta Superintelligence Labs.

Contexto y antecedentes: por qué importa

El anuncio de Mango y Avocado se inscribe en una ola de competencia intensiva entre grandes actores de la industria por liderar las capacidades multimodales y de programación de la próxima generación de modelos de IA. En los últimos años, los modelos generativos de imágenes (DALL·E, Imagen, Stable Diffusion, Midjourney) y los grandes modelos de lenguaje (GPT, Gemini) han acelerado la adopción de herramientas que permiten crear contenido visual y textual con poco o ningún trabajo humano.

En paralelo, OpenAI publicó recientemente GPT-5.2 y Google lanzó Gemini 3 Flash en España, movimientos que muestran la urgencia competitiva: acelerar mejoras en precisión, latencia y fiabilidad. La apuesta de Meta por Mango y Avocado sugiere una estrategia para ampliar su presencia en experiencias multimedia y en flujos de trabajo técnicos complejos orientados a usuarios profesionales.

Análisis técnico y consideraciones para profesionales

Los pocos detalles públicos obligan a trabajar con inferencias basadas en prácticas de la industria. Algunos puntos relevantes para equipos técnicos y responsables de producto:

  • Arquitectura y alcance multimodal: Mango se describe como modelo para imágenes y vídeo. Los retos técnicos para modelos de vídeo son significativamente mayores que para imágenes estáticas: coherencia temporal, resolución escalable, sincronización audio–vídeo y eficiencia de cómputo.
  • Menor intervención humana: el reporte indica que MSL busca crear modelos con «menor intervención humana». Eso sugiere mayores grados de automatización en el ajuste y en el aprendizaje a partir de datos no curados, lo que implica riesgos y beneficios en términos de escalabilidad y control de calidad.
  • Avocado para programación: un modelo textual orientado a tareas de codificación avanzadas requiere robustez en interpretación de especificaciones, generación de código correcto, pruebas y explicabilidad para su uso en entornos productivos.
  • Evaluación y métricas: los equipos deberían planear métricas específicas —precisión funcional del código, coherencia temporal en vídeo, fidelidad semántica de imágenes, tasas de alucinación— y construir suites de pruebas que incluyan casos adversos y verificación automática.
  • Despliegue e infraestructura: la generación de vídeo en tiempo real exige optimizaciones de inferencia, compresión y posibles soluciones híbridas on-device / cloud para cumplir requisitos de latencia y coste.

Casos comparables y tendencias del sector

La historia reciente ofrece ejemplos útiles para comparar expectativas y riesgos:

  • Modelos de imagen a texto e imagen a imagen como DALL·E, Imagen o Stable Diffusion cambiaron la accesibilidad de la creación visual y suscitaron debates sobre derechos de autor y sesgo en los datos de entrenamiento. Estos precedentes indican que un modelo dominante de vídeo podría amplificar esos debates.
  • Modelos de código (por ejemplo, Codex y derivados integrados en herramientas como GitHub Copilot) demostraron la utilidad para acelerar tareas de programación, pero también mostraron limitaciones: generación de soluciones incorrectas o inseguras, necesidad de revisión humana, y problemas de atribución de licencia al reutilizar fragmentos de código entrenado.
  • Competencia entre grandes empresas: lanzamientos frecuentes de OpenAI y Google han fijado una dinámica en la que pequeñas mejoras en latencia, precisión o coste pueden traducirse en ventaja comercial rápida; Meta busca posicionarse en ese mismo espacio con Mango y Avocado.

Riesgos, implicaciones éticas y regulatorias

Un modelo potente para imágenes y vídeo plantea múltiples riesgos que deben gestionarse desde su diseño hasta su despliegue:

  • Deepfakes y desinformación: mayor capacidad para generar vídeo realista facilita la creación de contenido manipulador con potencial de daño político o reputacional.
  • Derechos de autor y propiedad intelectual: entrenar modelos con grandes cantidades de contenido visual y audiovisual puede generar disputas sobre uso de obras protegidas y responsabilidad por el contenido generado.
  • Sesgo y representatividad: modelos entrenados en datos no equilibrados replicarán y amplificarán sesgos demográficos o culturales en imágenes y escenas generadas.
  • Privacidad y datos sensibles: la inclusión accidental de imágenes que contengan datos personales en los conjuntos de entrenamiento plantea riesgos legales y de privacidad.
  • Seguridad del software generado: en el caso de Avocado, la generación de código incorrecto puede introducir vulnerabilidades en sistemas productivos si no se aplican controles rigurosos.
  • Impacto ambiental y coste: modelos de gran escala requieren energía y recursos de cómputo sustanciales; optimización y transparencia de consumo energético son consideraciones crecientes.

Recomendaciones prácticas para empresas y desarrolladores

Para quienes evalúan o integrarán Mango, Avocado u otros modelos similares, proponemos medidas inmediatas y de medio plazo:

  • Exigir transparencia: solicitar información sobre datos de entrenamiento, procedimientos de filtrado y medidas de mitigación de sesgos. Preferir proveedores que publiquen evaluciones independientes.
  • Incorporar watermarking y trazabilidad: exigir mecanismos de marcado y metadatos que permitan identificar contenido generado por IA y facilitar la trazabilidad del origen.
  • Implementar pipelines de verificación humana: en aplicaciones críticas, mantener revisión humana obligatoria para contenido sensible (vídeo de personas públicas, código que maneje datos sensibles, etc.).
  • Evaluación técnica rigurosa: construir suites de pruebas que midan coherencia temporal, fidelidad semántica, tasas de alucinación y riesgos de privacidad antes de pasar a producción.
  • Políticas de uso y cumplimiento: definir reglas internas de uso, limitaciones de re-entrenamiento y procedimientos frente a reclamaciones de derechos de autor o contenido abusivo.
  • Optimización y costes: planificar costes de inferencia, consideraciones de latencia y modelos de facturación (pago por uso, licencias empresariales) para prever impacto en el presupuesto.
  • Formación y gobernanza: capacitar equipos legales, de producto y seguridad en riesgos específicos de multimodalidad y establecer comités de revisión técnica y ética.

Conclusión

El desarrollo de Mango y Avocado por parte de Meta representa un movimiento estratégico para competir en la próxima generación de modelos multimodales y de programación. Aunque los detalles técnicos son limitados, la dirección —modelos de imagen/vídeo con menor intervención humana y modelos textuales para programación avanzada— plantea tanto oportunidades para nuevos flujos de trabajo como riesgos concretos en términos de deepfakes, propiedad intelectual y seguridad del software. Para organizaciones y profesionales, la recomendación clave es combinar evaluación técnica rigurosa, controles humanos y transparencia sobre datos y mitigaciones antes de integrar estos modelos en procesos críticos. El calendario previsto —primera mitad de 2026, según el WSJ— da margen para desarrollar marcos de gobernanza y pruebas que reduzcan riesgos y maximicen beneficios.

Source: www.20minutos.es