Britannica y Merriam-Webster demandan a OpenAI por uso masivo de contenidos y “canibalización” de tráfico
Resumen del caso
La Enciclopedia Británica y el diccionario Merriam‑Webster presentaron una demanda contra OpenAI en un tribunal de Manhattan. Según la denuncia, OpenAI habría utilizado sin autorización cerca de 100.000 artículos del archivo de Britannica para entrenar los modelos de lenguaje que alimentan ChatGPT. La demanda alega una “infracción masiva de derechos de autor” y sostiene que las respuestas del chatbot contienen copias totales o parciales de las entradas originales.
Además, Merriam‑Webster acusa a OpenAI de violar la Ley Lanham (por prácticas comerciales y publicidad engañosa) al generar “alucinaciones” o información inventada que, según la demanda, pone en riesgo el acceso público a información fiable. Britannica también afirma que ChatGPT “canibalizó” su tráfico web al ofrecer resúmenes generados por IA que sustituyen las visitas al sitio original. En su petición, Britannica reclama indemnizaciones económicas y una orden judicial que detenga la supuesta infracción.
“Nuestros modelos impulsan la innovación, se entrenan con datos disponibles públicamente y se basan en el uso legítimo”, afirmó un portavoz de OpenAI en respuesta a la demanda.
Antecedentes y por qué importa
La disputa se enmarca en una ola de litigios dirigidos a actores de la inteligencia artificial desde 2023 en adelante, cuando editoriales, autores, agencias de noticias y otras entidades empezaron a reivindicar la protección de sus obras frente al uso indiscriminado para entrenar modelos de lenguaje y generación de imágenes. Casos notorios anteriores incluyen demandas presentadas por autores y algunos medios contra compañías de IA y, por separado, pleitos contra empresas que usaron colecciones de imágenes sin licencia.
La cuestión central —y de gran impacto práctico— es definir los límites legales entre entrenar modelos con datos públicos y reproducir o comercializar obras protegidas sin permiso. El resultado de estos juicios podrá determinar si los grandes modelos necesitan acuerdos de licencia generalizados, mecanismos de remuneración para creadores y editores, o cambios técnicos en cómo se recopilan y procesan los corpus de entrenamiento.
Análisis técnico y jurídico para profesionales
Para abogados, ingenieros y responsables de producto, la demanda plantea varias cuestiones técnicas y jurídicas que conviene desglosar:
- Base jurídica: la reclamación principal es una violación de derechos de autor por reproducción y creación de obras derivadas. La defensa habitual de los desarrolladores de modelos se apoya en la doctrina del “uso legítimo” (fair use) en EE. UU., que evalúa factores como propósito, naturaleza de la obra, cantidad y efecto en el mercado. Demostrar que un uso es “justo” en el contexto de entrenamiento masivo sigue siendo un terreno legal en desarrollo.
- Prueba de copia: es técnicamente más fácil para un demandante demostrar reproducción literal (salida textual idéntica o sustancialmente similar a entradas protegidas) que un uso abstracto del conocimiento. Los equipos forenses pueden comparar salidas del modelo con textos de referencia para identificar memorias verbatim o frases únicas replicadas.
- Memoria del modelo vs. generalización: desde la perspectiva de ML, existe una diferencia entre memorizar fragmentos de entrenamiento y generalizar patrones. Si un modelo produce pasajes enteros copiados, el demandante tendrá un caso más sólido. La línea entre ambos no siempre es clara y puede depender del tamaño del modelo, del peso de la muestra en el conjunto de entrenamiento y de técnicas de mitigación aplicadas (p. ej., filtrado, deduplicación).
- Responsabilidad por tráfico y daños: probar que ChatGPT “canibalizó” tráfico requiere métricas que relacionen consultas de usuarios con disminuciones de visitas al sitio original. Eso implica análisis de tendencias de tráfico, experimentos A/B, y correlaciones temporales. Los tribunales evaluarán si la sustitución de visitas es causal y si genera pérdidas económicas atribuibles a OpenAI.
- Reclamación Lanham Act: la acusación sobre “alucinaciones” abre otra vía jurídica basada en marca y publicidad engañosa. Para prosperar, Merriam‑Webster deberá mostrar que las salidas falsas de la IA dañan su reputación o inducen a error al público respecto al origen o fiabilidad del contenido.
Casos comparables y contexto sectorial
Aunque cada demanda tiene particularidades, existen precedentes y litigios contemporáneos que ofrecen contexto:
- Demandas contra desarrolladores de IA por uso de obras creativas y de noticias se multiplicaron desde 2023. Varios editorialistas, agencias y autores han iniciado acciones contra grandes empresas tecnológicas, alegando usos no autorizados de libros, artículos y bases de datos.
- En el espacio de imágenes, compañías como Getty Images y algunos creadores emprendieron acciones judiciales contra empresas de generación de imágenes por supuestas reproducciones de obras protegidas en los conjuntos de entrenamiento.
- En términos de escala, los modelos de lenguaje modernos se entrenan con corpus que contienen cientos de miles de millones de tokens procedentes de la web, libros, foros y otros repositorios. Esa escala complica el control granular sobre la procedencia y las licencias de cada fragmento de datos.
Riesgos, implicaciones y recomendaciones prácticas
La demanda de Britannica y Merriam‑Webster subraya riesgos legales, reputacionales y operativos para empresas que desarrollan y despliegan modelos de IA. Recomendaciones pragmáticas para equipos técnicos, legales y de producto:
- Auditoría y catálogo de datos: mantener un inventario detallado de fuentes usadas en el entrenamiento, con metadatos sobre licencias y derechos. Esto facilita respuestas legales y negociaciones de licencia.
- Licencias y acuerdos de compensación: evaluar acuerdos de licencia con proveedores de contenido clave, especialmente con propietarios de bases de referencia de alto valor como enciclopedias y diccionarios.
- Mitigaciones técnicas: aplicar deduplicación, filtrado de textos con derechos reservados, y técnicas de “desmemorization” para reducir la producción de salidas verbatim. Implementar límites en la longitud de respuestas cuando coincidan con fragmentos protegidos.
- Transparencia y atribución: ofrecer mecanismos de trazabilidad y, cuando proceda, atribución de fuentes o enlaces a trabajos originales para preservar el tráfico de editores y mejorar la confianza del usuario.
- Gestión de reputación y corrección de errores: establecer procesos para identificar y corregir “alucinaciones” que puedan dañar terceros o confundir a los usuarios; considerar cláusulas de exención y advertencias sobre el carácter probabilístico de las respuestas.
- Negociación estratégica: explorar acuerdos piloto de licencia con grandes proveedores de contenido —como enciclopedias o agencias— para construir modelos de negocio sostenibles que compensen la creación y curación de información.
Conclusión
La demanda de la Enciclopedia Británica y Merriam‑Webster contra OpenAI plantea un golpe de atención sobre cómo se crean y monetizan los modelos de inteligencia artificial. Está en juego no solo la interpretación judicial de “uso legítimo” en el contexto de entrenamiento masivo, sino también el modelo económico de acceso a la información en la era de la IA. Para desarrolladores y editores, la lección es clara: es imprescindible combinar controles técnicos, transparencia y acuerdos comerciales que reconozcan el valor del contenido original. El resultado de este litigio —y de otros similares— marcará precedentes que probablemente condicionen las prácticas de recopilación de datos, las obligaciones de atribución y las estrategias de licencia en la industria de la IA.
Source: www.20minutos.es



