Le 11 février, Zhipu a officiellement lancé le nouveau modèle de grande taille GLM-5. Based sur le cadre d’inférence SGLang, MooretThread a réalisé l’adaptation et la validation de l’ensemble du processus en Day-0 sur le GPU tout-en-un de formation et d’inférence AI de niveau flagship MTT S5000. Grâce à la couverture étendue des opérateurs de l’architecture MUSA et à sa forte compatibilité écologique, MooretThread a réussi à établir une chaîne complète d’inférence de modèle, tout en exploitant en profondeur la capacité d’accélération native FP8 du MTT S5000. Cela permet de garantir la précision du modèle tout en réduisant considérablement l’utilisation de la mémoire vidéo, réalisant ainsi une inférence haute performance de GLM-5. Cette adaptation rapide témoigne non seulement de la maturité de la pile logicielle MUSA, mais aussi de la capacité de support instantané et efficace des GPU entièrement fonctionnels nationaux pour les modèles de grande taille les plus récents. (MooretThread)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Moore Thread MTT S5000 a été le premier à réaliser l'adaptation pour GLM-5
Le 11 février, Zhipu a officiellement lancé le nouveau modèle de grande taille GLM-5. Based sur le cadre d’inférence SGLang, MooretThread a réalisé l’adaptation et la validation de l’ensemble du processus en Day-0 sur le GPU tout-en-un de formation et d’inférence AI de niveau flagship MTT S5000. Grâce à la couverture étendue des opérateurs de l’architecture MUSA et à sa forte compatibilité écologique, MooretThread a réussi à établir une chaîne complète d’inférence de modèle, tout en exploitant en profondeur la capacité d’accélération native FP8 du MTT S5000. Cela permet de garantir la précision du modèle tout en réduisant considérablement l’utilisation de la mémoire vidéo, réalisant ainsi une inférence haute performance de GLM-5. Cette adaptation rapide témoigne non seulement de la maturité de la pile logicielle MUSA, mais aussi de la capacité de support instantané et efficace des GPU entièrement fonctionnels nationaux pour les modèles de grande taille les plus récents. (MooretThread)