Z.ai lance GLM-5.2 : 1 million de tokens de contexte et double mode de raisonnement

Z.ai, le laboratoire d’intelligence artificielle soutenu par Zhipu AI, a officiellement lancé GLM-5.2, la dernière version de son modèle de langage phare. Cette mise à jour introduit une fenêtre de contexte entièrement exploitable d’un million de tokens, un système de raisonnement à double mode avec deux niveaux d’effort de réflexion, ainsi qu’une décision assumée de ne pas publier les scores traditionnels des benchmarks lors du lancement.
La fenêtre de contexte d’un million de tokens constitue l’avancée technique la plus importante de cette version. Contrairement aux modèles précédents qui annonçaient de larges fenêtres de contexte tout en dégradant leurs performances vers la fin du contexte, GLM-5.2 maintient une capacité de rappel presque parfaite sur l’ensemble de la fenêtre. Cela permet au modèle de traiter des bases de code complètes, de longs documents juridiques ou même des manuscrits entiers de livres au cours d’une seule session, sans perdre le fil des sections précédentes.
Z.ai a également introduit un système à double niveau d’effort de réflexion permettant aux utilisateurs de choisir entre deux modes de raisonnement selon la tâche à accomplir. Le mode standard traite rapidement et efficacement les requêtes du quotidien, tandis que le mode de raisonnement étendu active une chaîne de réflexion plus approfondie pour des tâches complexes telles que les démonstrations mathématiques, les raisonnements logiques à plusieurs étapes ou encore la génération avancée de code. Les utilisateurs peuvent passer d’un mode à l’autre à l’aide d’un simple prompt système ou d’un paramètre API, leur offrant un contrôle précis sur le compromis entre vitesse et qualité.
L’entreprise a choisi de ne pas publier les scores traditionnels des benchmarks au moment du lancement, une décision qui s’éloigne sensiblement des pratiques habituelles du secteur. Dans un communiqué accompagnant cette sortie, Z.ai explique que les benchmarks existants ne reflètent plus correctement les capacités des modèles de pointe comme GLM-5.2. L’entreprise souligne notamment la contamination généralisée des ensembles de tests publics ainsi que le décalage croissant entre les performances sur benchmark et l’utilité réelle des modèles. Z.ai prévoit de dévoiler plus tard cette année un nouveau cadre d’évaluation spécialement conçu pour les scénarios impliquant de très grands contextes et des raisonnements multi-tours.
GLM-5.2 est disponible immédiatement via l’API de Z.ai ainsi que sur l’interface web ChatGLM. Les tarifs restent inchangés par rapport à la génération précédente, avec une offre standard débutant à 2 dollars par million de tokens en entrée et 8 dollars par million de tokens en sortie. Le mode de raisonnement étendu entraîne un surcoût de 50 %, en raison des ressources de calcul supplémentaires nécessaires au traitement approfondi de la chaîne de réflexion.
Les premiers retours des développeurs de la communauté Z.ai mettent en avant les excellentes performances du modèle pour le résumé de documents volumineux et la refactorisation de code réparti sur plusieurs fichiers. Plusieurs utilisateurs indiquent avoir réussi à charger des dépôts de projets entiers dans la fenêtre de contexte et à obtenir, en une seule passe, une documentation complète ou une refactorisation cohérente à travers l’ensemble des fichiers.
Source : MarkTechPost