Netflix presenta VOID: IA abierta para borrar objetos y personas en vídeo

abril 13, 2026

Netflix presenta VOID: IA abierta para borrar objetos y personas en vídeo

Qué es VOID y cómo funciona

Netflix ha anunciado VOID (Video Object and Interaction Deletion), un modelo de inteligencia artificial de código abierto diseñado para eliminar objetos en movimiento y las interacciones asociadas en secuencias de vídeo. Según la descripción en repositorios públicos como Hugging Face y GitHub, VOID se apoya en la arquitectura CogVideoX y emplea un condicionamiento por máscara cuádruple que distingue el objetivo a eliminar, zonas superpuestas, las partes con las que interactúa y el fondo a preservar.

El flujo de trabajo descrito por los autores incluye una primera pasada que elimina el objeto y sus interacciones; si se detectan errores, VOID realiza una segunda pasada destinada a estabilizar la forma y la trayectoria del objeto. Para el entrenamiento, el equipo de Netflix colaboró con la Universidad de Sofía (Bulgaria) y se apoyó en conjuntos sintéticos como HUMOTO —para interacciones humano-objeto renderizadas en Blender con simulación física— y Kubric utilizando Google Scanned Objects para interacciones entre objetos.

Contexto técnico e histórico

La eliminación de elementos en imágenes fijas (inpainting) lleva años avanzando gracias a redes profundas y modelos generativos. Sin embargo, trasladar esa capacidad a vídeo implica retos adicionales: coherencia temporal, corrección de sombras y reflejos, y preservación de la dinámica de la escena. Herramientas comerciales previas, como Content-Aware Fill de Adobe o soluciones emergentes de startups de edición asistida por IA, facilitan la supresión de objetos en secuencias cortas, pero suelen requerir retoques manuales y trabajo de estabilización.

VOID encaja en una segunda oleada de investigación y herramientas que buscan automatizar procesos complejos de edición de vídeo, combinando modelos de generación con simulaciones físicas y datos sintéticos para mejorar la robustez frente a interacciones complejas. La decisión de publicar el modelo como código abierto sigue la tendencia de la comunidad de IA a compartir modelos y artefactos en plataformas como Hugging Face para acelerar la investigación y la experimentación.

Comentario técnico para practicantes

Para ingenieros y creadores que consideren integrar VOID en flujos de trabajo de postproducción o investigación, varios aspectos prácticos merecen atención:

  • Máscara cuádruple: la codificación con cuatro valores permite al modelo distinguir no solo el objeto objetivo sino también zonas de solapamiento e interacción. Desde el punto de vista técnico, esto reduce ambigüedad en la restauración del fondo, pero exige anotación precisa o herramientas heurísticas para generar máscaras de calidad.
  • Pasadas iterativas: el enfoque de primera eliminación y segunda estabilización sugiere que VOID está diseñado para mitigar artefactos temporales. En la práctica conviene evaluar la latencia y el coste computacional de estas pasadas, especialmente en proyectos con plazos cortos.
  • Conjuntos sintéticos y dominio real: el uso de HUMOTO y Kubric ayuda a modelar interacciones complejas, pero los datos sintéticos pueden introducir sesgos de dominio. Para producción es recomendable complementar con datos reales anotados y realizar pruebas A/B con escenarios reales de rodaje.
  • Métricas de evaluación: además de métricas clásicas de calidad (PSNR, SSIM), los equipos deberán priorizar métricas temporales y perceptuales —consistencia temporal, ausencia de parpadeos, coherencia de iluminación— y evaluaciones humanas en contextos de uso.

Casos comparables y estadísticas contextuales

En los últimos años hemos visto varios hitos relevantes para entender el alcance de VOID:

  • Herramientas comerciales como las de Adobe han incorporado inpainting para vídeo en entornos de postproducción, reduciendo tiempos de retoque manual pero sin eliminar por completo la necesidad de supervisión humana.
  • Startups y laboratorios académicos han publicado modelos de inpainting y de síntesis de vídeo que subrayan la creciente calidad de las salidas generadas por IA, aunque la preservación de sombras, reflejos y continuidad de movimiento sigue siendo un desafío técnico.
  • Estudios sobre desinformación y deepfakes muestran que la accesibilidad creciente de herramientas de manipulación aumenta el riesgo de uso malicioso; al mismo tiempo, la comunidad forense mejora detectores basados en señales temporales y artefactos de compresión.

Riesgos, implicaciones éticas y legales

VOID puede acelerar tareas legítimas de edición —limpieza de sets, corrección de errores, creación de versiones alternativas para distribución— pero también plantea riesgos significativos:

  • Desinformación y manipulación: la capacidad de eliminar personas o alterar interacciones facilita la creación de vídeos manipulados que podrían utilizarse para engañar audiencias o distorsionar pruebas visuales.
  • Privacidad y consentimiento: eliminar a una persona de un vídeo sin su consentimiento tiene implicaciones éticas y potenciales consecuencias legales, especialmente si el resultado se difunde públicamente.
  • Derechos de autor y alteración de obras: modificar contenido audiovisual puede entrar en conflicto con derechos morales de creadores y con acuerdos de licencias y distribución.
  • Dependencia en datos sintéticos: la robustez frente a situaciones reales no reproducidas en datos de entrenamiento puede generar artefactos visuales que dañen la reputación de producción o confundan audiencias.

El acceso público a modelos con capacidades de edición profunda obliga a equilibrar innovación, transparencia y medidas de mitigación para prevenir usos dañinos.

Recomendaciones prácticas y medidas de mitigación

A continuación, orientaciones accionables para distintos actores: desarrolladores, distribuidores y reguladores.

  • Para desarrolladores e investigadores:
    • Implementar controles de acceso y políticas de uso en las distribuciones del modelo (licencias, términos de servicio, listas de espera para APIs sensibles).
    • Incorporar marcas de agua digitales robustas o metadatos de procedencia (p. ej. estándares como C2PA) para identificar que un vídeo ha sido editado por IA.
    • Realizar auditorías de sesgo y pruebas adversariales, y publicar conjuntos de evaluación que midan coherencia temporal y artefactos visibles.
  • Para creadores y estudios:
    • Mantener control editorial: usar la herramienta como asistente y asegurar revisiones humanas en etapas de aprobación final.
    • Documentar y obtener consentimiento cuando se alteren imágenes de personas; revisar contratos de derechos para evitar infracciones.
    • Validar outputs en entornos reales y preparar flujos de corrección manual para casos donde VOID produzca artefactos.
  • Para plataformas y reguladores:
    • Promover exigencia de etiquetado de contenido manipulado y desarrollo de detectores forenses para señales temporales típicas de inpainting automatizado.
    • Fomentar marcos legales que consideren derechos de imagen y obligaciones de transparencia sin frenar la investigación legítima.

Conclusión

VOID representa un avance técnico en la automatización de la eliminación de objetos e interacciones en vídeo, combinando enmascaramiento especializado, entrenamiento con datos sintéticos y refinamiento iterativo. Su publicación como modelo abierto potenciará experimentación y mejora técnica, pero también amplifica riesgos asociados a la manipulación de contenidos, la privacidad y la confianza pública. La respuesta adecuada pasa por implementar salvaguardas técnicas (metadatos, marcas de agua), controles de acceso, evaluaciones rigurosas y marcos éticos y legales que acompañen la adopción.

Source: www.20minutos.es