En esta suerte de nueva Guerra Fría que vive el mundo entre China y Estados Unidos, la industria tecnológica es, otra vez, el cuadrilátero en el que los rivales miden sus fuerzas. Y el gigante asiático acaba de asestar un duro golpe a su contrincante. DeepSeek, una inteligencia artificial (IA) desarrollada por una start-up china, puso de cabeza las bolsas del mundo al provocar la caída del precio de las acciones de multinacionales como Nvidia, Microsoft o Meta.
En poco más de una semana desde su lanzamiento, DeepSeek consiguió el título de la app gratuita más descargada de App Store, la tienda de aplicaciones de Apple.
¿Por qué tanto alboroto?
El chatbot obtuvo puntajes tan altos, o mayores, en algunos casos, que sus rivales más populares, como ChatGPT, de OpenAI; Claude, de Anthropic; o Gemini, de Google. ¿Una IA más? Pasaría desapercibida si no fuera por un detalle fundamental: tiene los mismos resultados, pero es mucho más barata.
LEA MÁS: ¿Qué es DeepSeek? La ‘start-up’ de China que golpea la industria de IA de EE. UU.
De acuerdo con informes, la inteligencia artificial china se desarrolló por una fracción del costo de los modelos más populares. Funciona con el código abierto DeepSeek-V3, que fue entrenado a un costo de $6 millones, mientras que los modelos actuales han requerido montos mucho mayores. En el caso de ChatGPT-4, el entrenamiento costó $100 millones.
Andrej Karpathy, cofundador de OpenAI, exdirector de IA en Tesla y uno de los expertos más respetados del sector, describió ese presupuesto como “de broma” y añadió: “Hay que asegurarse de que no somos derrochadores con lo que tenemos y este modelo parece una buena demostración de que hay mucho que revisar tanto en datos como en algoritmos”.
La llegada de DeepSeek plantea interrogantes sobre el futuro del dominio de Estados Unidos en materia de IA y sobre la estrategia que las empresas estadounidenses están adoptando para asegurar sus inversiones.
¿En qué se diferencia de ChatGPT?
De acuerdo con Moisés Meza, docente del Departamento de Ingeniería de la Universidad Cayetano Heredia, de Perú, DeepSeek y ChatGPT son dos de los modelos de lenguaje más avanzados del momento. Aunque ambos pueden generar texto de alta calidad y mantener conversaciones coherentes, DeepSeek se destaca por su eficiencia y capacidad para adaptarse a diferentes tareas. Algunos lo comparan con el modelo O1 de ChatGPT, que destaca por su razonamiento.
“DeepSeek emplea técnicas como Mixture of Experts (MoE) y Multi-head Latent Attention (MLA). MoE permite al modelo especializarse en tareas específicas, activando solo las partes necesarias para cada consulta. Por su parte, MLA mejora la gestión de la memoria, comprimiendo la información y agilizando el procesamiento. Estas características hacen que DeepSeek sea un modelo más ligero y eficiente, capaz de ofrecer resultados comparables a ChatGPT sin requerir tanta potencia computacional”, explica el especialista a El Comercio.
La técnica MoE activa únicamente los “expertos” necesarios, mientras que MLA reduce la carga de memoria al comprimir datos. Esto le permite mantener un alto rendimiento con un menor consumo de energía y recursos computacionales.
LEA MÁS: DeepSeek, la empresa emergente china fundada por un ‘geek’ que reta a los gigantes de Silicon Valley
Cada vez que el usuario hace una pregunta, el modelo de IA decide si debe activar a su experto en medicina, traducción, derecho o ciencia. Los modelos clásicos activan a todos de golpe, lo que supone un despilfarro de energía y computación. DeepSeek, en cambio, prioriza solo uno a la vez.
“Por ejemplo, su modelo DeepSeek-V2 cuenta con una arquitectura Mixture of Experts (MoE) que suma 236 mil millones de parámetros totales, de los cuales solo se activan 21 mil millones por token, optimizando así la eficiencia computacional. Esta eficiencia se traduce en una reducción del 42,5% en los costos de entrenamiento y una mejora de hasta 5,76 veces en la velocidad de generación”, comenta Meza.
Un modelo abierto
Para Wester Zela, decano de las carreras de ingeniería de la Universidad Científica del Sur, DeepSeek tiene varias diferencias clave con otros modelos como ChatGPT. La más importante es que es un modelo open source, lo que significa que cualquier persona puede descargarlo, analizar su código y hacer modificaciones.
Además, su entrenamiento se realizó con hardware menos avanzado: DeepSeek utilizó chips Nvidia de generaciones anteriores, debido a las restricciones de exportación impuestas por Estados Unidos a China. A pesar de no contar con los chips más recientes, los desarrolladores lograron resultados comparables a los modelos de OpenAI, demostrando que no es imprescindible usar la última tecnología para obtener modelos de alto rendimiento.
“El surgimiento de DeepSeek representa una gran oportunidad para desarrolladores, startups y emprendedores. Con un modelo open source de alto rendimiento, ahora es posible acceder a tecnología avanzada sin depender de los modelos propietarios de empresas como OpenAI o Google”, señala Zela a este Diario.
LEA MÁS: La llegada de la IA china DeepSeek puede favorecer a Europa
Zela considera que el acceso a tecnología open source es una gran oportunidad para los desarrolladores de países como el nuestro. OpenAI y otras empresas nunca publicaron los detalles completos de sus modelos, mientras que DeepSeek pone su código a disposición de cualquiera.
“Esto significa que los desarrolladores locales pueden estudiar, modificar y entrenar modelos de IA sin depender de tecnologías propietarias. Sin embargo, aunque el código sea accesible, sigue siendo necesario invertir en capacitación y en infraestructura computacional para aprovecharlo al máximo”, afirma el decano de la Científica.
“Si más personas en nuestro país logran capacitarse en el desarrollo de modelos de IA, podríamos ver la creación de emprendimientos locales que aprovechen esta tecnología. A largo plazo, el paradigma cambió: ya no se necesitan cientos de millones de dólares para entrenar modelos avanzados, lo que abre la puerta a la innovación en diversas partes del mundo”, agrega.
Rendimiento de DeepSeek
De acuerdo con datos compilados por Europa Press, el modelo supera a otros modelos de código abierto y logra un rendimiento comparable al de los principales modelos de código cerrado.
- En la evaluación de comprensión del lenguaje (MMLU Pro), DeepSeek-V3 alcanza una puntuación de 75,9, frente al 78,0 de Claude 3.5 Sonnet, el 72,6 de GPT-4o y el 73,3 de Llama 3.1 405B.
- En la evaluación de capacidad para responder preguntas complejas de nivel posgrado (GPAQ Diamond), DeepSeek-V3 obtiene 59,1, por debajo de Claude 3.5 Sonnet (65,0), pero por encima de GPT-4o (49,9), Qwen 2.5 de 72B (49,0) y Llama 3.1 405B (51,1).
- En la prueba de resolución de desafíos matemáticos (MATH 500), DeepSeek logra 90,2, superando a Claude 3.5 Sonnet (78,9), Qwen 2.5 de 72B (80,0), GPT-4o (74,6) y Llama 3.1 405B (73,8).
- En la resolución de problemas matemáticos con AIME 2024, DeepSeek obtiene 39,2, seguido de Qwen 2.5 de 72B y Llama 3.1 405B (23,3), Claude 3.5 Sonnet (16,0) y GPT-4o (9,3).
¿Jaque a Estados Unidos?
En un contexto en el que Estados Unidos endureció las restricciones a la exportación de chips de IA, DeepSeek evidencia que es posible desarrollar tecnología avanzada sin depender de los procesadores más recientes.
“Al contrario, una de las consecuencias más evidentes de las medidas restrictivas contra los mercados tecnológicos chinos ha sido el impulso en la creación de modelos propios, más simples, pero también más potentes. Hasta ahora, lo que hemos observado es un país que ha acelerado su independencia tecnológica, en parte gracias a este tipo de restricciones”, dice a este Diario Eric Biagioli, de la UTEC.
Los especialistas consultados para esta nota coinciden en que estamos ante una tecnología revolucionaria o, al menos, ante un gran primer paso hacia un futuro más prolífico en el ámbito de la IA. No cabe duda de que el paradigma cambió y de que, de alguna manera, esta tecnología se está democratizando.
“Creo que DeepSeek cambiará las reglas del juego. Esto significa que muchas grandes corporaciones tendrán que desarrollar modelos más simples, significativamente más económicos y con un menor consumo de hardware, pero sin sacrificar potencia. Sin duda, es un cambio interesante que, hasta cierto punto, pone en jaque a las grandes empresas, obligándolas a adaptarse”, comenta Biagioli.
Pero si bien, hasta ahora, las restricciones estadounidenses impulsaron la innovación en China, también podrían limitar la colaboración internacional en investigación y desarrollo, lo que frenaría el avance de la inteligencia artificial en general.
El Grupo de Diarios América (GDA), al cual pertenece ‘La Nación’, es una red de medios líderes fundada en 1991, que promueve los valores democráticos, la prensa independiente y la libertad de expresión en América Latina a través del periodismo de calidad para nuestras audiencias.