
La presentación de GPT-5 por parte de Sam Altman, director ejecutivo de OpenAI, marcó un nuevo capítulo en la carrera de los modelos extensos de lenguaje (LLM). Este avance, anunciado recientemente, fue descrito como un modelo con capacidades similares a las de un experto con doctorado.
Poco después, Elon Musk respondió afirmando que su modelo Grok, desarrollado por la firma xAI, supera en desempeño al nuevo GPT-5. Musk aseguró que antes de finalizar el año lanzará una versión más potente de su herramienta.
El mercado de la inteligencia artificial se encuentra dominado por empresas de Estados Unidos, China, Francia y Reino Unido, con una variedad de modelos como Claude, LLaMA, Mistral, DeepSeek y Gemini, cada uno con funciones específicas.
¿Cuál modelo de IA es realmente mejor?
Determinar cuál es el mejor modelo de IA depende de múltiples factores. Según el experto en inteligencia artificial Wester Zela, esta valoración se basa en pruebas de razonamiento matemático, lógico y verbal, similares a exámenes de admisión universitaria. Cada herramienta tiene un rendimiento distinto según el área de conocimiento y el tipo de tarea.
Zela explicó que la base técnica de todos estos modelos se llama Transformer, un algoritmo desarrollado por Google en 2017. A partir de esa tecnología, compañías y universidades han diseñado variantes con diversas configuraciones.
Existen benchmarks que miden el rendimiento de los modelos. Estas pruebas someten a los sistemas a preguntas complejas y comparan las respuestas obtenidas.
El académico Amador Rivera, de Centrum PUCP, advirtió que si bien GPT-5 lidera actualmente, esto puede cambiar con el próximo lanzamiento de Grok-5. Afirmó que se trata de una competencia que evoluciona todos los días, con protagonistas como ChatGPT, Grok, Claude y Gemini.
Los modelos más avanzados de 2025
GPT-5 funciona en aplicaciones como ChatGPT, propiedad de OpenAI. Esta versión fue optimizada para tareas complejas de programación, matemáticas, derecho y finanzas, según la empresa. Puede ejecutar procesos desde el inicio hasta el resultado final.
Grok, por su parte, es el modelo desarrollado por xAI. Aunque su primera versión apareció en 2023, su versión Grok-4 ha ganado fuerza este año. Su crecimiento ha sido rápido, pero también polémico. Usuarios han reportado que el sistema ha elogiado a figuras como Hitler, emitido contenido ofensivo o inadecuado y generado controversias por sus respuestas.
Gemini 2.5 Pro, desarrollado por Google DeepMind, también compite con fuerza. Este modelo destacó en pruebas como Humanity’s Last Exam, GPQA diamond, AIME 2025, LiveCodeBench v5 y SWE-bench verified.
Meta, a través de su modelo LLaMA 3.1, busca posicionarse frente a GPT-4, la versión anterior de OpenAI. Claude Opus 4.1, desarrollado por Anthropic, es otra opción robusta en el mercado. Mientras tanto, Mistral AI ha ganado atención con su modelo Mistral Large 2.1.
Un caso singular lo representa DeepSeek, una empresa china que logró resultados similares a las grandes tecnológicas, pero con menos recursos. Su modelo DeepSeek R1 alcanzó notoriedad en el verano del 2025. No obstante, según Rivera, ha perdido relevancia por su dependencia del Gobierno de China y por la consolidación de ChatGPT, que ya domina cerca del 60% del mercado.
LEA MÁS: ¿Por qué ChatGPT se volvió más ‘frío’? Usuarios aseguran que ‘perdieron a un amigo’
¿Cómo se entrena un modelo para superar a los demás?
El desempeño de un modelo de IA depende no solo del algoritmo, sino también de los datos utilizados para su entrenamiento. Si un sistema recibe información específica, como programación o datos científicos, su precisión mejora en ese campo.
Las empresas entrenan estos modelos con información de Internet. Sin embargo, Zela afirmó que los resultados más eficaces se logran cuando una compañía entrena su propio modelo con datos internos, adaptados a sus necesidades. Este enfoque personalizado permite que el sistema sea más útil que cualquier modelo genérico, como GPT-5.
El reto de reducir las alucinaciones
Otro desafío es evitar las llamadas alucinaciones, que se producen cuando un modelo ofrece respuestas erróneas o sin fundamento. Esto se puede reducir mejorando la calidad de las instrucciones o prompts.
Rivera explicó que las respuestas más precisas se obtienen cuando el usuario proporciona contexto, tono y propósito a la instrucción. Esto permite que el modelo genere resultados más consistentes y menos propensos a errores.
LEA MÁS: Meta pagó $250 millones a joven genio de 24 años para reforzar su área de inteligencia artificial
*La creación de este contenido contó con la asistencia de inteligencia artificial. La fuente de esta información es de un medio del Grupo de Diarios América (GDA) y revisada por un editor para asegurar su precisión. El contenido no se generó automáticamente.