Se han recibido noticias importantes sobre los grandes modelos de IA en China.
El 11 de febrero por la noche, la compañía Zhipu confirmó que el misterioso modelo “Pony Alpha”, que anteriormente encabezaba la lista de popularidad en la plataforma global de servicios de modelos OpenRouter, es en realidad el nuevo modelo de Zhipu, GLM-5. Actualmente, el nuevo modelo ya está disponible en la plataforma chat.z.ai.
El 6 de febrero, la plataforma global de servicios de modelos OpenRouter lanzó discretamente un modelo anónimo con el código “Pony Alpha”. Debido a su fuerte capacidad de codificación, su ventana de contexto ultra larga y su profunda optimización para flujos de trabajo de agentes inteligentes, rápidamente llamó la atención de la comunidad de desarrolladores y ganó popularidad en comunidades internacionales.
OpenRouter describe oficialmente a Pony Alpha como un “modelo base de vanguardia”, con un rendimiento sólido en programación, flujos de trabajo de agentes inteligentes, razonamiento y juegos de roles, destacando especialmente su “altísima precisión en llamadas a herramientas”. Esta característica le confiere ventajas notables en aplicaciones de agentes de IA, permitiendo a los desarrolladores usar herramientas como Claude Code para llamar a este modelo y desarrollar proyectos complejos durante varias horas.
El 8 de enero, Zhipu se hizo oficialmente público en la Bolsa de Hong Kong. En ese día, el director científico de la compañía, el profesor Tang Jie de la Universidad de Tsinghua, envió una carta interna a todo el personal confirmando que la nueva generación de modelos base, GLM-5, “está a punto de ser lanzada”, y anunció que a partir de 2026 “se retomará completamente la investigación en modelos base”. Además, se estableció el departamento de innovación avanzada, X-Lab, enfocado en arquitectura, paradigmas de aprendizaje y evolución continua.
Además, DeepSeek también actualizó sus modelos. Según informes, varios usuarios han reportado que DeepSeek ha lanzado una actualización en la versión web y en la app, soportando una longitud de contexto de hasta 1 millón de tokens. La versión DeepSeekV3.1, lanzada en agosto del año pasado, extendió la longitud de contexto a 128K.
Actualmente, son pocos los modelos que pueden manejar contextos de millones de tokens; la serie Gemini de Google y Claude Opus 4.6 de Anthropic ya han logrado esta capacidad.
La serie V de DeepSeek está diseñada para ofrecer un rendimiento integral extremo en modelos base. El modelo V3, lanzado en diciembre de 2024, representa un hito importante para DeepSeek, con una arquitectura MoE eficiente que establece una base sólida para un rendimiento potente. Posteriormente, DeepSeek realizó rápidas iteraciones sobre V3, lanzando V3.1, que mejora las capacidades de razonamiento y agentes, y en diciembre de 2025, lanzó la versión oficial más reciente, V3.2. También presentó una versión especial, V3.2-Speciale, centrada en resolver problemas matemáticos y académicos de alta dificultad.
Medios tecnológicos como The Information informaron previamente que DeepSeek lanzaría a mediados de febrero, durante el Año Nuevo Lunar, su nuevo modelo insignia de IA, DeepSeek V4, que tendrá capacidades mejoradas para escribir código.
A principios de este año, el equipo de DeepSeek publicó dos artículos que revelan dos innovaciones arquitectónicas: mHC (superconexión con restricción de manifold), para optimizar el flujo de información en transformadores profundos, haciendo que el entrenamiento sea más estable y escalable sin aumentar la carga computacional; y Engram (módulo de memoria condicional), que desacopla el conocimiento estático del cálculo dinámico, almacenando conocimientos en DRAM barato y liberando la memoria HBM costosa para el razonamiento, reduciendo significativamente los costos de razonamiento en contextos largos.
El mismo día, también se reportó que MiniMax lanzará oficialmente su modelo M2.5 en breve. Actualmente, el modelo MiniMax M2.5 ya está en pruebas internas en el producto MiniMax Agent en el extranjero.
(Fuente: Daily Economic News)
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Deepseek, Zhipu y MiniMax anuncian colectivamente la actualización
Se han recibido noticias importantes sobre los grandes modelos de IA en China.
El 11 de febrero por la noche, la compañía Zhipu confirmó que el misterioso modelo “Pony Alpha”, que anteriormente encabezaba la lista de popularidad en la plataforma global de servicios de modelos OpenRouter, es en realidad el nuevo modelo de Zhipu, GLM-5. Actualmente, el nuevo modelo ya está disponible en la plataforma chat.z.ai.
El 6 de febrero, la plataforma global de servicios de modelos OpenRouter lanzó discretamente un modelo anónimo con el código “Pony Alpha”. Debido a su fuerte capacidad de codificación, su ventana de contexto ultra larga y su profunda optimización para flujos de trabajo de agentes inteligentes, rápidamente llamó la atención de la comunidad de desarrolladores y ganó popularidad en comunidades internacionales.
OpenRouter describe oficialmente a Pony Alpha como un “modelo base de vanguardia”, con un rendimiento sólido en programación, flujos de trabajo de agentes inteligentes, razonamiento y juegos de roles, destacando especialmente su “altísima precisión en llamadas a herramientas”. Esta característica le confiere ventajas notables en aplicaciones de agentes de IA, permitiendo a los desarrolladores usar herramientas como Claude Code para llamar a este modelo y desarrollar proyectos complejos durante varias horas.
El 8 de enero, Zhipu se hizo oficialmente público en la Bolsa de Hong Kong. En ese día, el director científico de la compañía, el profesor Tang Jie de la Universidad de Tsinghua, envió una carta interna a todo el personal confirmando que la nueva generación de modelos base, GLM-5, “está a punto de ser lanzada”, y anunció que a partir de 2026 “se retomará completamente la investigación en modelos base”. Además, se estableció el departamento de innovación avanzada, X-Lab, enfocado en arquitectura, paradigmas de aprendizaje y evolución continua.
Además, DeepSeek también actualizó sus modelos. Según informes, varios usuarios han reportado que DeepSeek ha lanzado una actualización en la versión web y en la app, soportando una longitud de contexto de hasta 1 millón de tokens. La versión DeepSeekV3.1, lanzada en agosto del año pasado, extendió la longitud de contexto a 128K.
Actualmente, son pocos los modelos que pueden manejar contextos de millones de tokens; la serie Gemini de Google y Claude Opus 4.6 de Anthropic ya han logrado esta capacidad.
La serie V de DeepSeek está diseñada para ofrecer un rendimiento integral extremo en modelos base. El modelo V3, lanzado en diciembre de 2024, representa un hito importante para DeepSeek, con una arquitectura MoE eficiente que establece una base sólida para un rendimiento potente. Posteriormente, DeepSeek realizó rápidas iteraciones sobre V3, lanzando V3.1, que mejora las capacidades de razonamiento y agentes, y en diciembre de 2025, lanzó la versión oficial más reciente, V3.2. También presentó una versión especial, V3.2-Speciale, centrada en resolver problemas matemáticos y académicos de alta dificultad.
Medios tecnológicos como The Information informaron previamente que DeepSeek lanzaría a mediados de febrero, durante el Año Nuevo Lunar, su nuevo modelo insignia de IA, DeepSeek V4, que tendrá capacidades mejoradas para escribir código.
A principios de este año, el equipo de DeepSeek publicó dos artículos que revelan dos innovaciones arquitectónicas: mHC (superconexión con restricción de manifold), para optimizar el flujo de información en transformadores profundos, haciendo que el entrenamiento sea más estable y escalable sin aumentar la carga computacional; y Engram (módulo de memoria condicional), que desacopla el conocimiento estático del cálculo dinámico, almacenando conocimientos en DRAM barato y liberando la memoria HBM costosa para el razonamiento, reduciendo significativamente los costos de razonamiento en contextos largos.
El mismo día, también se reportó que MiniMax lanzará oficialmente su modelo M2.5 en breve. Actualmente, el modelo MiniMax M2.5 ya está en pruebas internas en el producto MiniMax Agent en el extranjero.
(Fuente: Daily Economic News)