Zhipu AI hat sich in den vergangenen Jahren auf die Entwicklung großer Sprachmodelle spezialisiert und zählt zu den wenigen chinesischen Labors, die ihre Modellgewichte öffentlich zugänglich machen. Das unterscheidet Z.ai von vielen westlichen Wettbewerbern wie OpenAI oder Anthropic, die ihre Modelle als geschlossene Systeme betreiben. Trainiert wurden die Modelle der GLM-Reihe auf Hardware von Huawei, konkret auf Ascend-910B-Chips. Das unterstreicht die zunehmende Eigenständigkeit des chinesischen KI-Ökosystems bei der Hardwarebasis.
Was ist GLM 5.2?
GLM 5.2 wurde am 13. Juni 2026 veröffentlicht und ist das aktuelle Flaggschiffmodell von Z.ai innerhalb der GLM-5-Reihe. Es handelt sich nicht um ein vollständig neu entwickeltes Modell, sondern um ein fokussiertes Upgrade der GLM-5-Architektur, das insbesondere für lange, mehrstufige Programmieraufgaben und agentische Arbeitsabläufe ausgelegt ist.
Technisch setzt GLM 5.2 auf eine Mixture-of-Experts-Architektur mit insgesamt 753 Milliarden Parametern, von denen pro Token rund 40 bis 50 Milliarden gleichzeitig aktiv sind. Diese Bauweise erlaubt es, die Kapazität eines sehr großen Modells zu nutzen, ohne dass bei jedem Rechenschritt sämtliche Parameter aktiviert werden müssen, was die Betriebskosten im Vergleich zu dichten Modellen senkt.
Die wichtigsten technischen Merkmale:
Das herausragende Merkmal von GLM 5.2 ist ein nutzbares Kontextfenster von einer Million Token. Das Vorgängermodell GLM 5 unterstützte noch 200.000 Token. Z.ai betont, dass das erweiterte Fenster tatsächlich nutzbar bleibe, also auch am Ende langer Eingaben eine zuverlässige Verarbeitung gewährleiste. Für die Praxis bedeutet das: Ganze Softwarerepositories, umfangreiche Logdateien oder komplexe Entwicklungspläne lassen sich in einem einzigen Durchgang verarbeiten, ohne dass Informationen zwischenzeitlich neu geladen werden müssen.
Eine weitere Neuerung ist die IndexShare-Architektur. Bei sehr langen Eingaben ist die Berechnung der Aufmerksamkeitsmechanismen rechnerisch aufwändig, da jedes Token prinzipiell auf jedes andere Token achten muss. IndexShare löst dieses Problem, indem ein einziger Indexer über je vier Sparse-Attention-Schichten wiederverwendet wird. Laut Z.ai reduziert das den Rechenaufwand pro Token bei einer Million Token um den Faktor 2,9. Für Nutzer bedeutet das geringere Latenz und niedrigere Kosten bei langen Eingaben.
Außerdem bietet GLM 5.2 zwei wählbare Denkmodi. Im Modus „High“ antwortet das Modell schneller und verbraucht weniger Output-Token. Im Modus „Max“ denkt das Modell länger und gründlicher, was bei komplexen Programmieraufgaben zu besseren Ergebnissen führen soll. Z.ai empfiehlt für Programmieraufgaben grundsätzlich den Max-Modus. Der maximale Output liegt bei 128.000 Token pro Antwort, was ausreichend ist für große Codeänderungen und lange Ausführungsprotokolle.
Das Modell eignet sich laut Herstellerangaben besonders für autonome Softwareentwicklung, die Verarbeitung ganzer Codebasen in einem Kontext sowie für agentische Workflows, bei denen ein KI-System eigenständig mehrere Entwicklungsschritte hintereinander ausführt.
Unabhängig überprüfte Benchmark-Ergebnisse lagen zum Zeitpunkt des Launches noch nicht vor. Z.ai kündigte einen technischen Bericht mit detaillierten Leistungsangaben für die Woche nach der Veröffentlichung an.
Lizenz und Verfügbarkeit
GLM 5.2 steht unter der MIT-Lizenz. Das ist eine sehr offene Lizenz, die sowohl die kommerzielle Nutzung als auch die Anpassung des Modells erlaubt. Die Modellgewichte wurden auf Hugging Face veröffentlicht und können dort kostenlos heruntergeladen werden.
Wer das Modell selbst betreiben möchte, benötigt allerdings erhebliche Hardware. Schätzungen aus der Fachwelt gehen von rund 1,5 Terabyte GPU-Speicher aus, was typischerweise einem Cluster aus acht H200-GPUs entspricht. Für die meisten Teams ist daher eine gehostete Variante über die Z.ai-Plattform oder über Drittanbieter wie OpenRouter die praktischere und wohl auch einzig mögliche Wahl.
Kosten und Preismodelle
[Stand Juni 2026 – Alle Angaben ohne Gewähr]
Z.ai bietet zwei Hauptwege für den Zugang zu GLM 5.2 an.
Der erste Weg ist der GLM Coding Plan, ein Abonnement speziell für Entwickler. Er ist in vier Stufen unterteilt: Lite, Pro, Max und Team. Laut öffentlichen Preisangaben beginnt der Lite-Plan bei etwa 12,60 US-Dollar pro Monat bei jährlicher Abrechnung. Der Pro-Plan liegt bei rund 15 US-Dollar pro Monat und ist damit günstiger als vergleichbare Angebote westlicher Anbieter. Der Coding Plan ist ausschließlich für die Nutzung in unterstützten Entwicklerwerkzeugen vorgesehen. Er funktioniert unter anderem mit Claude Code, Cline, OpenCode und weiteren gängigen Programmieragenten.
Der zweite Weg ist die direkte API-Abrechnung nach Verbrauch. Diese ging am 16. Juni 2026 live und wird mit 1,40 US-Dollar pro Million Eingabe-Token und 4,40 US-Dollar pro Million Ausgabe-Token berechnet. Für gecachte Eingaben, also für wiederholte Kontext-Übertragungen, liegt der Preis bei rund 0,26 US-Dollar pro Million Token. Die Zwischenspeicherung lohnt sich besonders bei agentischen Workflows, bei denen derselbe Systemkontext immer wieder mitgeschickt wird. Auf OpenRouter werden die Preise etwas abweichend mit rund 0,98 US-Dollar für Eingaben und 3,08 US-Dollar für Ausgaben gelistet, was Unterschiede zwischen Anbietern widerspiegelt.
Wer das Modell selbst hostet, zahlt lediglich für die eigene Recheninfrastruktur, also Strom und Hardware.
Einordnung
GLM 5.2 ist ein technisch interessantes Modell, das mit seinem großen Kontextfenster und der MIT-Lizenz einen klaren Fokus auf professionelle Softwareentwicklung setzt. Die Preisgestaltung liegt deutlich unter den Tarifen geschlossener westlicher Konkurrenzmodelle vergleichbarer Leistungsklasse. Gleichzeitig sollte berücksichtigt werden, dass unabhängige Benchmark-Ergebnisse zum Zeitpunkt der Veröffentlichung noch ausstanden und Herstellerangaben zur Leistung grundsätzlich mit Vorsicht zu behandeln sind. Für Teams, die ein leistungsfähiges Open-Source-Modell für Programmieraufgaben suchen, ist GLM 5.2 eine sachlich begründete Option, die eine eigenständige Evaluation verdient.