Netflix presenta VOID: IA abierta para borrar objetos y personas en vídeo

abril 13, 2026

Netflix presenta VOID: IA abierta para borrar objetos y personas en vídeo

Qué es VOID y cómo funciona

Netflix ha anunciado VOID (Video Object and Interaction Deletion), un modelo de inteligencia artificial de código abierto diseñado para eliminar objetos en movimiento y las interacciones asociadas en secuencias de vídeo. Según la descripción en repositorios públicos como Hugging Face y GitHub, VOID se apoya en la arquitectura CogVideoX y emplea un condicionamiento por máscara cuádruple que distingue el objetivo a eliminar, zonas superpuestas, las partes con las que interactúa y el fondo a preservar.

El flujo de trabajo descrito por los autores incluye una primera pasada que elimina el objeto y sus interacciones; si se detectan errores, VOID realiza una segunda pasada destinada a estabilizar la forma y la trayectoria del objeto. Para el entrenamiento, el equipo de Netflix colaboró con la Universidad de Sofía (Bulgaria) y se apoyó en conjuntos sintéticos como HUMOTO —para interacciones humano-objeto renderizadas en Blender con simulación física— y Kubric utilizando Google Scanned Objects para interacciones entre objetos.

Contexto técnico e histórico

La eliminación de elementos en imágenes fijas (inpainting) lleva años avanzando gracias a redes profundas y modelos generativos. Sin embargo, trasladar esa capacidad a vídeo implica retos adicionales: coherencia temporal, corrección de sombras y reflejos, y preservación de la dinámica de la escena. Herramientas comerciales previas, como Content-Aware Fill de Adobe o soluciones emergentes de startups de edición asistida por IA, facilitan la supresión de objetos en secuencias cortas, pero suelen requerir retoques manuales y trabajo de estabilización.

VOID encaja en una segunda oleada de investigación y herramientas que buscan automatizar procesos complejos de edición de vídeo, combinando modelos de generación con simulaciones físicas y datos sintéticos para mejorar la robustez frente a interacciones complejas. La decisión de publicar el modelo como código abierto sigue la tendencia de la comunidad de IA a compartir modelos y artefactos en plataformas como Hugging Face para acelerar la investigación y la experimentación.

Comentario técnico para practicantes

Para ingenieros y creadores que consideren integrar VOID en flujos de trabajo de postproducción o investigación, varios aspectos prácticos merecen atención:

Máscara cuádruple: la codificación con cuatro valores permite al modelo distinguir no solo el objeto objetivo sino también zonas de solapamiento e interacción. Desde el punto de vista técnico, esto reduce ambigüedad en la restauración del fondo, pero exige anotación precisa o herramientas heurísticas para generar máscaras de calidad.
Pasadas iterativas: el enfoque de primera eliminación y segunda estabilización sugiere que VOID está diseñado para mitigar artefactos temporales. En la práctica conviene evaluar la latencia y el coste computacional de estas pasadas, especialmente en proyectos con plazos cortos.
Conjuntos sintéticos y dominio real: el uso de HUMOTO y Kubric ayuda a modelar interacciones complejas, pero los datos sintéticos pueden introducir sesgos de dominio. Para producción es recomendable complementar con datos reales anotados y realizar pruebas A/B con escenarios reales de rodaje.
Métricas de evaluación: además de métricas clásicas de calidad (PSNR, SSIM), los equipos deberán priorizar métricas temporales y perceptuales —consistencia temporal, ausencia de parpadeos, coherencia de iluminación— y evaluaciones humanas en contextos de uso.

Casos comparables y estadísticas contextuales

En los últimos años hemos visto varios hitos relevantes para entender el alcance de VOID:

Herramientas comerciales como las de Adobe han incorporado inpainting para vídeo en entornos de postproducción, reduciendo tiempos de retoque manual pero sin eliminar por completo la necesidad de supervisión humana.
Startups y laboratorios académicos han publicado modelos de inpainting y de síntesis de vídeo que subrayan la creciente calidad de las salidas generadas por IA, aunque la preservación de sombras, reflejos y continuidad de movimiento sigue siendo un desafío técnico.
Estudios sobre desinformación y deepfakes muestran que la accesibilidad creciente de herramientas de manipulación aumenta el riesgo de uso malicioso; al mismo tiempo, la comunidad forense mejora detectores basados en señales temporales y artefactos de compresión.

Riesgos, implicaciones éticas y legales

VOID puede acelerar tareas legítimas de edición —limpieza de sets, corrección de errores, creación de versiones alternativas para distribución— pero también plantea riesgos significativos:

Desinformación y manipulación: la capacidad de eliminar personas o alterar interacciones facilita la creación de vídeos manipulados que podrían utilizarse para engañar audiencias o distorsionar pruebas visuales.
Privacidad y consentimiento: eliminar a una persona de un vídeo sin su consentimiento tiene implicaciones éticas y potenciales consecuencias legales, especialmente si el resultado se difunde públicamente.
Derechos de autor y alteración de obras: modificar contenido audiovisual puede entrar en conflicto con derechos morales de creadores y con acuerdos de licencias y distribución.
Dependencia en datos sintéticos: la robustez frente a situaciones reales no reproducidas en datos de entrenamiento puede generar artefactos visuales que dañen la reputación de producción o confundan audiencias.

El acceso público a modelos con capacidades de edición profunda obliga a equilibrar innovación, transparencia y medidas de mitigación para prevenir usos dañinos.

Recomendaciones prácticas y medidas de mitigación

A continuación, orientaciones accionables para distintos actores: desarrolladores, distribuidores y reguladores.

Para desarrolladores e investigadores:
- Implementar controles de acceso y políticas de uso en las distribuciones del modelo (licencias, términos de servicio, listas de espera para APIs sensibles).
- Incorporar marcas de agua digitales robustas o metadatos de procedencia (p. ej. estándares como C2PA) para identificar que un vídeo ha sido editado por IA.
- Realizar auditorías de sesgo y pruebas adversariales, y publicar conjuntos de evaluación que midan coherencia temporal y artefactos visibles.
Para creadores y estudios:
- Mantener control editorial: usar la herramienta como asistente y asegurar revisiones humanas en etapas de aprobación final.
- Documentar y obtener consentimiento cuando se alteren imágenes de personas; revisar contratos de derechos para evitar infracciones.
- Validar outputs en entornos reales y preparar flujos de corrección manual para casos donde VOID produzca artefactos.
Para plataformas y reguladores:
- Promover exigencia de etiquetado de contenido manipulado y desarrollo de detectores forenses para señales temporales típicas de inpainting automatizado.
- Fomentar marcos legales que consideren derechos de imagen y obligaciones de transparencia sin frenar la investigación legítima.

Conclusión

VOID representa un avance técnico en la automatización de la eliminación de objetos e interacciones en vídeo, combinando enmascaramiento especializado, entrenamiento con datos sintéticos y refinamiento iterativo. Su publicación como modelo abierto potenciará experimentación y mejora técnica, pero también amplifica riesgos asociados a la manipulación de contenidos, la privacidad y la confianza pública. La respuesta adecuada pasa por implementar salvaguardas técnicas (metadatos, marcas de agua), controles de acceso, evaluaciones rigurosas y marcos éticos y legales que acompañen la adopción.

Source: www.20minutos.es

Comparte este Blog

Más de la categoría

Google podría integrar «Gemini Intelligence» en Android 17 y Pixel 11, según una filtración

Noticias IAmayo 12, 2026

Netflix presenta VOID: IA abierta para borrar objetos y personas en vídeo

Netflix presenta VOID: IA abierta para borrar objetos y personas en vídeo

Qué es VOID y cómo funciona

Contexto técnico e histórico

Comentario técnico para practicantes

Casos comparables y estadísticas contextuales

Riesgos, implicaciones éticas y legales

Recomendaciones prácticas y medidas de mitigación

Conclusión

Comparte este Blog

Más de la categoría

Empresa

Siguenos

Contacto

+34 911082770

Auditoría y Consultoría en Ciberseguridad

Desarrollo y Mantenimiento Web Corporativo

Investigación y Desarrollo Tecnológico (I+D Tech)

Machine Learning y Deep Learning

Consultoría en Blockchain y Criptoactivos

Arquitectura de Infraestructura IT y Redes Empresariales

Gestión y Arquitectura de Servicios Cloud

Diseño UX/UI para Web y Aplicaciones Móviles

Community Management

Netflix presenta VOID: IA abierta para borrar objetos y personas en vídeo

Netflix presenta VOID: IA abierta para borrar objetos y personas en vídeo

Qué es VOID y cómo funciona

Contexto técnico e histórico

Comentario técnico para practicantes

Casos comparables y estadísticas contextuales

Riesgos, implicaciones éticas y legales

Recomendaciones prácticas y medidas de mitigación

Conclusión

Comparte este Blog

Más de la categoría

El ratón colilargo: la clave para evitar una pandemia de hantavirus

Google Gemini Intelligence: La Revolución que Desafía a ChatGPT y Apple

El enigma tras la eliminación del cifrado de extremo a extremo en Instagram

Google podría integrar «Gemini Intelligence» en Android 17 y Pixel 11, según una filtración