DeepSeek libera un modelo de IA abierto y gratuito que, según la empresa, supera a GPT‑5 en razonamiento

diciembre 4, 2025

DeepSeek libera un modelo de IA abierto y gratuito que, según la empresa, supera a GPT‑5 en razonamiento

Resumen de la noticia

La firma china DeepSeek ha anunciado el lanzamiento de su nuevo modelo de inteligencia artificial, gratuito y de código abierto, en dos variantes: DeepSeek‑V3.2 (uso general: web, app y API) y DeepSeek‑V3.2 Speciale (orientada a investigación avanzada). La compañía afirma que el modelo supera a GPT‑5 y a Gemini‑3 Pro en tareas de razonamiento y matemáticas, y ha publicado tanto los pesos del modelo como un informe técnico. Entre sus características técnicas destacan una arquitectura con «671.000 millones de parámetros», activación selectiva de parámetros por token (~37.000 millones por token) mediante Sparse Attention y una ventana de contexto de hasta 128.000 tokens.

Técnica e innovación: ¿qué propone DeepSeek?

Las dos novedades técnicas clave que DeepSeek presenta son, por un lado, la escala de la arquitectura y, por otro, el uso de activación selectiva (Sparse Attention) para reducir el coste computacional durante la inferencia.

  • Escala y parámetros: DeepSeek declara una red con 671.000 millones de parámetros. En modelos de lenguaje, los parámetros son los coeficientes que la red ajusta durante el entrenamiento para mapear entradas a salidas; en líneas generales, mayor número de parámetros puede permitir modelar mayor complejidad.
  • Sparse Attention y activación contextual: en lugar de activar todos los parámetros en cada paso, el modelo activa un subconjunto relevante —DeepSeek menciona alrededor de 37.000 millones por token—. Esa estrategia reduce el gasto de cómputo y memoria, similar en objetivo a técnicas conocidas como Mixture-of‑Experts o mecanismos de atención sparse, aunque cada variante técnica tiene matices propios.
  • Contextos muy largos: la capacidad de manejar hasta 128.000 tokens permite mantener coherencia en documentos extensos o conversaciones prolongadas sin recortar contexto, lo que facilita tareas como análisis largos, revisión de contratos o trabajo con libros completos.

Contexto y antecedentes: por qué importa

La liberación de pesos y del informe técnico de un modelo a gran escala es inusual en el sector. En los últimos años algunos desarrollos han mostrado que el acceso abierto puede acelerar investigación y adopción: proyectos y modelos de código abierto —como los basados en LLaMA o iniciativas comunitarias de modelos de gran escala— han permitido a universidades y pymes experimentar sin depender enteramente de proveedores con licencias restrictivas.

Que DeepSeek publique tanto los pesos como el paper plantea tres efectos inmediatos:

  • Permite a terceros reproducir y validar los resultados de la compañía.
  • Facilita la adaptación del modelo a casos de uso locales o especializados sin pagar licencias comerciales.
  • Reduce la barrera de entrada técnica, potencialmente incrementando la competencia frente a fuerzas establecidas como OpenAI, Google o Meta.

Evaluación crítica y comentarios para practicantes

Las afirmaciones de superioridad frente a GPT‑5 y Gemini‑3 Pro proceden, según el artículo, de benchmarks publicados por la propia compañía. Eso no invalida las afirmaciones, pero exige precauciones metodológicas:

  • Verificación independiente: los laboratorios y equipos interesados deberían reproducir las pruebas en condiciones controladas, usando los mismos conjuntos de datos, prompts y métricas.
  • Comparación en tareas reales: los benchmarks sintéticos o de competición (matemáticas, razonamiento lógico) son útiles, pero la evaluación en despliegues reales (servicios al cliente, generación de código, soporte legal) suele revelar diferencias prácticas importantes.
  • Coste real de despliegue: aunque la activación selectiva reduzca la carga, ejecutar modelos con cientos de miles de millones de parámetros exige infraestructura especializada (GPU/TPU, optimizaciones de memoria, compiladores y runtime compatibles con sparse activations). Las organizaciones deben medir coste por consulta y latencias en su entorno.

Según la compañía, «el nuevo modelo igualaría e incluso superaría a GPT‑5 y a Gemini‑3 Pro en pruebas de razonamiento y matemáticas».

Riesgos, implicaciones y recomendaciones prácticas

La disponibilidad pública de un modelo de gran capacidad plantea tanto oportunidades como riesgos. A continuación, los principales aspectos a considerar y recomendaciones accionables.

  • Riesgos de seguridad y abuso: modelos grandes y abiertos pueden facilitar generación automatizada de desinformación, estafas o explotación automatizada de vulnerabilidades. Recomendación: integrar controles de uso, límites de tasa, análisis de prompts y sistemas de detección de abuso antes de exposición pública.
  • Riesgos de propiedad intelectual y datos: al liberar pesos, existe la posibilidad de que el modelo reproduzca contenidos con copyright o memorice datos sensibles presentes en los datos de entrenamiento. Recomendación: realizar auditorías de salida, filtrado de memorias y políticas de mitigación de fuga de datos.
  • Seguridad del modelo y adversarialidad: modelos complejos pueden ser susceptibles a ataques adversariales o a manipulación de outputs mediante prompts diseñados. Recomendación: pruebas de robustez, red team, y técnicas de hardening como clases de respuesta segura.
  • Compatibilidad e integridad: al publicar pesos, es vital comprobar la integridad del archivo (hashes) y disponer de canales fiables para actualizaciones y parches. Recomendación: descargar desde fuentes oficiales, verificar firmas y usar entornos aislados para pruebas iniciales.
  • Consideraciones legales y regulatorias: la disponibilidad de tecnología potente y abierta puede chocar con regulaciones locales sobre exportación de tecnología, privacidad y responsabilidad. Recomendación: asesoría legal previa al despliegue comercial o transfronterizo.

Comentario para investigadores y empresas

Para equipos de I+D y empresas tecnológicas, la llegada de un modelo abierto a esta escala plantea decisiones estratégicas:

  • Si su caso de uso requiere razonamiento complejo o contexto de largo alcance, probar el modelo en un sandbox controlado puede ofrecer ventajas de rendimiento y coste frente a soluciones cerradas.
  • Los investigadores deberían aprovechar la disponibilidad del paper y pesos para auditar sesgos, reproducir resultados y contribuir con mitigaciones de seguridad.
  • Para empresas, la elección entre operar el modelo localmente o utilizarlo vía terceros depende de coste total de propiedad, requisitos de latencia y política de datos. La activación selectiva puede reducir costes, pero no elimina la necesidad de optimización a nivel de infraestructura.

Conclusión

DeepSeek ha hecho un movimiento significativo: anunciar y publicar un modelo grande, abierto y gratuito con capacidades de razonamiento que, según la compañía, igualan o superan a GPT‑5. El lanzamiento reaviva el debate sobre el papel de los modelos abiertos en la innovación y la competencia en IA. Sin embargo, las afirmaciones públicas precisan verificación independiente, y la liberación de pesos implica responsabilidades técnicas, legales y de seguridad. Para practicantes y responsables de producto, la recomendación inmediata es reproducir los benchmarks en entornos controlados, realizar auditorías de seguridad y diseñar medidas de gobernanza antes de un despliegue en producción.

Source: www.20minutos.es