Der Markt für KI-Modelle ist extrem heterogen. Von über 300 verfügbaren Modellen unterscheiden sich Qualität, Geschwindigkeit und Kosten teils um den Faktor zehn oder mehr: Manche Modelle erreichen einen hohen Qualitäts-Index von rund 40, andere liegen bei 10; die Verarbeitungsgeschwindigkeit reicht von unter 30 bis über 400 Tokens pro Sekunde; die Kosten pro Anfrage variieren von wenigen Cents bis hin zu zweistelligen Eurobeträgen. Diese Unterschiede sind entscheidend, denn Qualität, Preis und Geschwindigkeit lassen sich nicht gleichzeitig maximieren. Ein einziges Modell für alle Aufgaben führt zwangsläufig zu Kompromissen – zu teuer für einfache Workflows, zu langsam für operative Prozesse oder qualitativ unzureichend für anspruchsvolle Entscheidungen. Produktiver KI-Einsatz entsteht deshalb nicht durch „eine KI für alles“, sondern durch den gezielten Einsatz passender Modelle für klar definierte Business-Use-Cases. Unsere Zahlen basieren auf Articial Analysis und SWE Bench.
Mehr bei Articial Analysis
OpenAI GPT 5.4
GPT‑5.4 (xhigh) von OpenAI erreicht einen Intelligence‑Wert von 57.00 und setzt mit einem Coding‑Score von 57.30 neue Maßstäbe – es ist das führende Modell für Intelligenz und Programmierung.
Heute veröffentlichen wir GPT‑5.4 in ChatGPT (als GPT‑5.4 Thinking), der API und in Codex; zusätzlich steht GPT‑5.4 Pro in ChatGPT und der API für Nutzer:innen mit maximalem Leistungsbedarf zur Verfügung.
GPT‑5.4 vereint die neuesten Fortschritte beim Schlussfolgern, in der Programmierung und bei agentischen Workflows und integriert die Stärken von GPT‑5.3‑Codex in ein einziges Frontier‑Modell.
Das Modell arbeitet effizienter über Tools, Softwareumgebungen und professionelle Dokumentformate hinweg – Tabellen, Präsentationen und Dokumente werden präziser und kontextsensitiver verarbeitet.
In ChatGPT kann GPT‑5.4 Thinking seinen Denkprozess vorab skizzieren, sodass du während der Antwort den Kurs anpassen kannst und mit weniger Iterationen zu einer finalen Ausgabe gelangst.
Die Deep‑Web‑Recherche und das Beibehalten langen Kontexts haben sich spürbar verbessert, was gerade bei hochspezifischen oder komplexen Anfragen zu qualitativ besseren Ergebnissen führt.
Für ComposableAI bedeutet GPT‑5.4 ein produktives, integrierbares Werkzeug: hohe Präzision und Effizienz für reale Business‑Workflows, weniger Hin‑und‑Her und schneller messbarer Nutzen.
Welche Modelle in diesen Daten besonders auffallen – und wofür sie im Stack stehen
Draft/Batch, Echtzeit, Verifikation und Engineering-Aufgaben sauber trennen
In den vorliegenden Daten stechen drei Muster heraus. Mercury 2 ist mit Index 32,80, Speed 819,76 und Preis 1,00 der klare Kandidat für extrem niedrige Latenz und günstige Durchsatzarbeit – typisch als Draft-Modell, für Massengenerierung oder als „Frontline“-Antwortgeber, der bei Bedarf eskaliert. Am anderen Ende steht Gemini 3.1 Pro Preview mit dem höchsten Index (57,20) und sehr starken Coding-Werten (55,50), aber einem Preis von 14,00; das ist das klassische Modell für Verifikation, Finalisierung, schwierige Entscheidungen und hochwertige Engineering-Tasks. Dazwischen liegen schnelle Flash-Lite-Varianten und Reasoning-Modelle wie Gemini 3 Flash Preview (Reasoning) oder GLM-5 (Reasoning), die man in einer composable Architektur gut als „Denker“ für knifflige Schritte oder als kosteneffiziente Qualitätsstufe zwischen Draft und Premium einsetzen kann. Für reine Engineering-Exzellenz liefern zudem SWE-bench-Spitzenmodelle wie Claude 4.5 Opus (high reasoning) (76,8) oder Gemini 3 Flash (high reasoning) (75,8) starke Hinweise, wenn Codequalität und Patch-Fähigkeit wichtiger sind als Tokenpreis.
Mercury 2 (Inception)
Unser Default, wenn Latenz und Kosten dominieren
Mercury 2 ist in diesen Daten der pragmatische Performance-Anker: Index 32,80 bei einer außergewöhnlichen Speed von 819,76 Tokens/s und einem Preis von 1,00 pro 1 Mio. Tokens. Das Profil ist damit klar: nicht das Modell für maximale „Intelligenz“ im Sinne des Index-Rankings, aber ein sehr starkes Modell für Interaktivität, hohe Parallelisierung und Token-intensive Workloads wie Zusammenfassungen im Batch, Vorformulierung von Antworten oder das schnelle Durchprobieren mehrerer Lösungsansätze. In einer composable Architektur ist Mercury 2 besonders sinnvoll als Draft-Stufe, die anschließend von einem stärkeren Modell validiert wird. Entscheidungssatz für die Praxis: Wenn wir eine Chat- oder Agentenfunktion auf Skalierung trimmen müssen, ist Mercury 2 unser Default für die erste Antwort – und wir eskalieren nur bei Unsicherheit oder hohem Risiko. Vorsicht ist dort angebracht, wo ein hoher Index direkt mit Compliance- oder Reputationsrisiken korreliert, etwa bei juristischen Auskünften oder finalen Architekturentscheidungen ohne zweite Prüfinstanz.
Gemini 3.1 Pro Preview (Google)
Maximaler Index – stark für Finalisierung, Reviews und anspruchsvolles Coding
Gemini 3.1 Pro Preview führt die Index-Liste mit 57,20 an und liegt im Coding-Wert mit 55,50 ebenfalls an der Spitze – damit ist es ein „High-confidence“-Kandidat für schwierige Aufgaben, bei denen Fehler teuer werden. Die Kehrseite ist der Preis: 14,00 pro 1 Mio. Tokens; mit Speed 120,38 Tokens/s ist es zudem eher solide als „snappy“. Das spricht für einen gezielten Einsatz: nicht als Dauerläufer für jede Nutzerinteraktion, sondern als Instanz für finale Entscheidungen, kritische Textpassagen, Architektur- oder Security-Reviews und hochwertige Engineering-Schritte, bei denen man lieber einmal teuer als dreimal falsch liegt. Entscheidungssatz: Gemini 3.1 Pro Preview ist nicht unser Default für jede Anfrage, aber unsere erste Wahl für Finalisierung und Verifikation in risikobehafteten Prozessen. Wer die Kosten im Griff halten will, kombiniert es typischerweise mit einem schnellen Draft-Modell und lässt Pro nur auf „Red Flags“ oder bei niedrigem Confidence-Score laufen.
Gemini 3.1 Flash-Lite Preview (Google)
Schneller Mittelweg, wenn UX zählt und Qualität „gut genug“ sein muss
Gemini 3.1 Flash-Lite Preview wirkt wie das klassische Produktionsmodell für viele Standard-Workflows: Index 33,50, Speed 311,32 Tokens/s und Preis 1,75. Es ist deutlich schneller als Pro-Modelle, bleibt preislich moderat und liefert eine Qualität, die für viele Assistenz- und Automatisierungsszenarien ausreicht – insbesondere, wenn man das System mit Retrieval, Guardrails und klaren Prompts stabilisiert. In einer composable Architektur eignet es sich gut als Hauptmodell für normale Nutzeranfragen, während komplexe Fälle an ein höheres Index-Modell eskalieren. Entscheidungssatz: Wenn wir ein produktives „Alltagsmodell“ für große Nutzerzahlen brauchen, ist Flash-Lite oft die beste Balance aus Latenz und Kosten – Pro kommt nur für schwierige Fälle dazu. Vorsicht ist geboten, wenn Aufgaben starkes Reasoning oder sehr präzises Coding verlangen; hier sollte man entweder eine Reasoning-Variante vorschalten oder einen Premium-Reviewer dahinter setzen.
GLM-5 (Reasoning)
Starkes Reasoning/Index pro Euro – aber kein Latenz-Champion
GLM-5 (Reasoning) ist interessant, weil der Index mit 49,80 sehr hoch ausfällt, während der Preis mit 4,20 deutlich unter typischen Premium-Levels bleibt; die Speed von 51,83 Tokens/s macht es jedoch eher zu einem Modell für gezielte Einsätze als für durchgehend interaktive UIs. Der Sweet Spot liegt dort, wo man Qualität benötigt, aber nicht die Premium-Kosten zahlen will: komplexe Analyse-Schritte, Entscheidungsbegründungen, Prüfung von Draft-Ergebnissen oder die „Denker“-Rolle in Agentenketten, in denen nicht jeder Schritt in Echtzeit erfolgen muss. Entscheidungssatz: GLM-5 (Reasoning) ist eine gute Wahl, wenn wir hochwertige Reasoning-Schritte kosteneffizient in die Pipeline bringen wollen, ohne jedes Mal ein Top-Pricing-Modell zu aktivieren. Nicht die erste Wahl ist es für Frontend-Chat mit strengen Latenz-SLAs; dort sollte ein schnelleres Modell den Dialog führen und GLM-5 nur bei Bedarf zugeschaltet werden.
gpt-oss-120B (high)
Kosten-/Kontrollargumente und Governance – solide Balance im Zahlenbild
gpt-oss-120B (high) fällt in der Balanced-Liste mit Index 33,30, Speed 270,55 Tokens/s und einem sehr niedrigen Preis von 0,75 auf. Auch ohne zusätzliche Coding- oder SWE-bench-Werte in den gelieferten Daten ist das Profil aus Entscheidersicht relevant: niedrige laufende Kosten und eine Performance, die für viele Standardaufgaben ausreichend ist. In composable Setups ist so ein Modell besonders attraktiv, wenn Governance, Anpassbarkeit oder strategische Unabhängigkeit eine Rolle spielen und man zugleich Tokenkosten hart optimieren muss. Entscheidungssatz: Wenn Kostenkontrolle und Betrieb in einer stärker gesteuerten Umgebung Priorität haben, ist gpt-oss-120B (high) ein sinnvoller Default für Standardtexte und Routine-Automatisierung – mit klarer Eskalation für High-stakes-Inhalte. Vorsichtig sollte man bei hochkomplexen Reasoning- oder Spitzen-Coding-Aufgaben sein; dafür spricht die Datenlage eher für die Index- und SWE-bench-Spitzenmodelle.
Claude 4.5 Opus (high reasoning)
Engineering-„Patch“-Stärke als Kaufargument (SWE-bench 76,8)
Für Entscheider, die LLMs stark im Engineering-Kontext einsetzen, ist SWE-bench ein wichtiges Signal, weil es näher an „kann das Modell reale Bugs fixen?“ ist als reine Chat-Eloquenz. Claude 4.5 Opus (high reasoning) führt diese Liste mit einem SWE-bench Score von 76,8 an und ist damit in dieser Sichtweise ein Top-Kandidat für anspruchsvolle Codearbeit, Debugging und Change-Sets, bei denen die Qualität des Ergebnisses wichtiger ist als Durchsatz. Da in den vorliegenden Daten für dieses Modell keine Speed- und Preiswerte genannt sind, sollte man es nicht als pauschalen Default für jede Anfrage einplanen, sondern als gezielten Spezialisten in einer mehrstufigen Architektur. Entscheidungssatz: Wenn wir ein Modell für kritische Code-Reviews, Bugfix-Finalisierung oder „letzte Meile“ im Engineering brauchen, ist Claude 4.5 Opus (high reasoning) eine sehr naheliegende Wahl – aber nicht als kostensensitiver Massenarbeiter. In der Praxis harmoniert es gut mit einem schnellen Draft-Modell (für erste Vorschläge) und einem starken Retriever/CI-Kontext, damit die teuren Schritte nur dort stattfinden, wo sie echten Wert liefern.