Der Markt für KI-Modelle ist extrem heterogen. Von über 300 verfügbaren Modellen unterscheiden sich Qualität, Geschwindigkeit und Kosten teils um den Faktor zehn oder mehr: Manche Modelle erreichen einen hohen Qualitäts-Index von rund 40, andere liegen bei 10; die Verarbeitungsgeschwindigkeit reicht von unter 30 bis über 400 Tokens pro Sekunde; die Kosten pro Anfrage variieren von wenigen Cents bis hin zu zweistelligen Eurobeträgen. Diese Unterschiede sind entscheidend, denn Qualität, Preis und Geschwindigkeit lassen sich nicht gleichzeitig maximieren. Ein einziges Modell für alle Aufgaben führt zwangsläufig zu Kompromissen – zu teuer für einfache Workflows, zu langsam für operative Prozesse oder qualitativ unzureichend für anspruchsvolle Entscheidungen. Produktiver KI-Einsatz entsteht deshalb nicht durch „eine KI für alles“, sondern durch den gezielten Einsatz passender Modelle für klar definierte Business-Use-Cases. Unsere Zahlen basieren auf Articial Analysis und SWE Bench.
Mehr bei Articial Analysis
Wer fällt in den Daten besonders auf und welche Rolle spielt das im Stack?
Draft/Batch vs. Verifikation/Finalisierung – und warum Composability das eigentliche Performance-Upgrade ist
In den vorliegenden Daten stechen zwei Muster heraus: Erstens dominieren sehr schnelle, günstige Modelle wie Mercury 2 (Index 32,80; Speed 794,21; Preis 1,00) typische Draft-, Routing- und Batch-Aufgaben, bei denen Latenz und Kosten wichtiger sind als maximale „Intelligenz“. Zweitens liefern Modelle mit hohem Index wie Gemini 3.1 Pro Preview (Index 57,20) oder die GPT-5.x-Familie die Qualität, die man für finale Antworten, schwierige Entscheidungslogik und verlässliche Synthese braucht – häufig zu deutlich höheren Kosten. Dazwischen sitzen „balanced reasoning“-Modelle wie NVIDIA Nemotron 3 Super 120B A12B (Reasoning) (Index 36,00; Speed 438,58; Preis 1,05), die oft als Second-Pass oder als verlässlicher Prüfer funktionieren. Für eine composable Architektur heißt das: schnell und billig für den ersten Entwurf, stärker und teurer für die Verifikation oder Finalisierung – und nur dort, wo es den Business Outcome wirklich verbessert.
Mercury 2 (Inception)
Maximaler Durchsatz bei minimalen Kosten – aber nicht für die „letzte Meile“ der Qualität
Mercury 2 ist in diesen Daten das klare Latenz- und Kostenargument: mit einer Speed von 794,21 Tokens/s und einem Preis von 1,00 pro 1 Mio. Tokens ist es sowohl bei „Speed → Index“ als auch „Speed → Price“ die beste Kombination, auch wenn der Index mit 32,80 sichtbar unter den Spitzenmodellen liegt. Das ist genau die Art Modell, die in großen Systemen die meiste Arbeit tragen kann: Vorverarbeitung, Klassifikation, Extraktion, Zusammenfassungen für interne Workflows oder als Draft-Generator für nachgelagerte Prüfungen. Vorsichtig sollte man sein, sobald es um komplexe Schlussfolgerungen, vertraglich heikle Aussagen oder anspruchsvolle Codeänderungen geht – hier ist das Risiko höher, dass man Qualität durch Monitoring und Second-Pass kompensieren muss. Entscheidungssatz: Das ist unser Default für kostensensitives High-Throughput-Drafting und als „First Pass“ in jeder Pipeline, aber nicht die erste Wahl für finale, rechtlich oder technisch kritische Antworten.
NVIDIA Nemotron 3 Super 120B A12B (Reasoning)
Solider Reasoning-Second-Pass mit starker Geschwindigkeit nahe am „Fast Tier“
Nemotron 3 Super 120B A12B (Reasoning) wirkt in dieser Auswahl wie ein pragmatischer Mittelweg: Der Index liegt bei 36,00, die Speed bei 438,58 Tokens/s und der Preis bei 1,05 pro 1 Mio. Tokens. Damit bleibt es preislich nahe an den günstigsten Optionen, liefert aber deutlich mehr „Denkarbeit“ als reine Durchsatzmodelle – ohne die Latenz stark zu verschlechtern. In einer composable Architektur passt es besonders gut als Validator oder als zweiter Durchlauf, der einen schnellen Draft auf Konsistenz prüft, Widersprüche findet oder Antworten stärker begründet. Man sollte es nicht als „One Model to rule them all“ betrachten, weil der Index-Abstand zu den Top-Intelligence-Modellen groß bleibt; bei wirklich kniffligen Aufgaben kann das Mehr an Qualität aus einem High-Index-Modell den Mehraufwand rechtfertigen. Entscheidungssatz: Wenn wir einen günstigen, schnellen Qualitäts-Check brauchen, ist das unser Default als Secondary-Model hinter einem Draft – für die finale Freigabe bei High-Risk-Inhalten ziehen wir jedoch ein Top-Index-Modell hinzu.
GPT-5.4 mini (xhigh) (OpenAI)
Sehr stark als „Index → Speed“-Kompromiss, und zugleich codingfähig – aber nicht billig
GPT-5.4 mini (xhigh) ist in den „balanced models“ prominent, weil es einen auffällig guten Kompromiss aus Qualität und Reaktionszeit bietet: Index 48,10 bei 249,04 Tokens/s, allerdings zu einem Preis von 5,25 pro 1 Mio. Tokens. Im „Best combinations“-Block wird es explizit als beste Kombination für „Index → Speed“ genannt – das ist ein wichtiges Signal für produktive Anwendungen, in denen Latenz zählt, aber die Qualität nicht auf Draft-Niveau fallen darf. Für Engineering ist das Modell zusätzlich interessant: im Coding-Ranking liegt es bei 51,50 und damit deutlich oberhalb vieler generischer Mid-Tier-Modelle. Vorsicht ist hier primär eine Budgetfrage: Bei großen Kontexten und hoher Interaktionsfrequenz eskalieren die Kosten schneller als bei den 1-Dollar-Klassen, weshalb man es idealerweise nur dort einsetzt, wo die höhere Qualität messbar Tickets reduziert oder Conversion erhöht. Entscheidungssatz: Das ist unser Default für interaktive Endnutzer-Flows mit Qualitätsanspruch (Chat, Agenten mit Tool-Use) – nicht die erste Wahl für Massendurchsatz oder reine Batch-Verarbeitung.
Gemini 3.1 Pro Preview (Google)
Top-Index für General Intelligence und sehr stark im Coding – als Finalizer, nicht als Dauerläufer
Gemini 3.1 Pro Preview steht im Datensatz an der Spitze der Index-Intelligence (Index 57,20) und ist zugleich im Coding sehr weit vorn (55,50). Das macht es zu einem Kandidaten für die Aufgaben, bei denen ein Modell wirklich „entscheiden“ muss: komplexe Abwägungen, hochwertige Synthesen über mehrere Quellen, anspruchsvolle Architektur- oder Design-Reviews und das Schreiben von Code, bei dem Korrektheit wichtiger ist als Geschwindigkeit. Gleichzeitig zeigen die Kombinationsdaten auch die Kehrseite: Mit einer Speed von 118,43 Tokens/s und einem Preis von 14,00 pro 1 Mio. Tokens ist es ein Premium-Tool, das man in einer composable Architektur besser gezielt einsetzt – etwa als finaler Schritt, der aus einem günstigen Draft eine belastbare Antwort macht oder kritische Code-Diffs prüft. Entscheidungssatz: Das ist unser Default für Finalisierung und Verifikation bei High-Stakes-Inhalten und anspruchsvollen Engineering-Aufgaben; für Alltagsdialoge und große Volumina ist es aus TCO-Sicht nicht die erste Wahl.