Mit dem Erscheinen von GPT-4-Turbo Ende 2023 begann für viele Entwickler eine neue Ära: Zum ersten Mal wurde ein KI-Modell breit dafür genutzt, einfache Programmieraufgaben zu übernehmen – nicht perfekt, aber beeindruckend schnell, vielseitig und rund um die Uhr verfügbar. Es war der Moment, in dem viele erstmals erkannten: Diese Modelle können tatsächlich beim Programmieren helfen.
Richtig spannend wurde es dann mit Claude 3.5 im Frühjahr 2024. Die Qualität der Vorschläge, das strukturierte Denken über mehrere Schritte hinweg und die Fähigkeit, komplexe Code-Snippets zu analysieren oder sogar eigenständig zu schreiben, sorgten für ein Umdenken: Aus einer technischen Spielerei wurde ein ernstzunehmendes Tool im Entwickleralltag.
Wie kann man LLMs in der Software-Entwicklung bewerten?
Seitdem große Sprachmodelle wie GPT-4, Claude oder Gemini verstärkt in der Programmierung eingesetzt werden, stellt sich die Frage: Wie misst man eigentlich ihre Leistungsfähigkeit beim Coden?
Früher reichten einfache Benchmarks wie das Lösen von Coding Challenges à la LeetCode oder die Anzahl korrekt gelöster Aufgaben in Multiple-Choice-Tests. Doch diese Methoden spiegeln kaum die realen Anforderungen der Softwareentwicklung wider – etwa komplexe Aufgabenstellungen, das Zusammenspiel mehrerer Dateien oder den Umgang mit APIs.
Mit LiveCodeBench gibt es nun einen der ersten praxisnahen Benchmarks, der genau hier ansetzt: Die Modelle müssen echte Programmieraufgaben lösen, bei denen der Output durch automatisierte Unit Tests bewertet wird. So entsteht eine objektive Vergleichbarkeit, ähnlich wie bei einem echten Coding-Assessment in der Industrie. Der LiveCodeBench-Score zeigt, wie viele Aufgaben ein Modell vollständig richtig löst. Dabei gelten bereits 50 % als solide Entwicklerleistung – und Modelle, die über 80 % erreichen, bewegen sich im Bereich der Top 5 % menschlicher Programmierer.
Für unser Diagramm haben wir die LiveCodeBenchmark Leadership Boards von 2025 und 2024 zusammengeführt und vergleichbar gemacht:

Beispielaufgabe: Hotelbuchung
Ein gutes Beispiel für den heutigen Leistungsstand großer Sprachmodelle ist die sogenannte Hotelbuchungsaufgabe im Rahmen von LiveCodeBench. Die Aufgabenstellung lautet:
Baue eine Funktion, die auf Basis von Check-in-/Check-out-Datum, Aufenthaltsdauer und maximalem Budget einen verfügbaren Hotelvorschlag aus einer externen API ermittelt.
Klingt einfach – ist es aber nicht. Denn:
- Die API liefert komplex strukturierte JSON-Daten.
- Die Daten müssen nach Budget gefiltert, sortiert und ausgewählt werden.
- Die Eingaben müssen validiert und korreliert werden (z. B. Datum + Dauer = Check-out).
- Am Ende muss ein sauberer JSON-Output mit genau einem Hotel generiert werden – oder ein Fehler, falls keins gefunden wurde.
Was macht diese Aufgabe besonders?
Sie vereint viele Fähigkeiten, die auch menschliche Entwickler im Alltag benötigen:
- Datenverarbeitung
- Fehlermanagement
- API-Verständnis
- Saubere Strukturierung des Codes
Ein LLM wie Claude 3.5 Sonnet konnte im Juni 2024 diese Aufgabe noch nicht zuverlässig lösen –
Heute erreichen Modelle wie Gemini 2.5 Pro oder DeepSeek R1 Preview bei mehreren diser Aufgaben in LiveCodeBench über 70 %.

Vergleich mit menschlichen Programmierern: Was bedeutet ein LiveCodeBench-Score?
Um die Leistung großer Sprachmodelle in der Softwareentwicklung richtig einzuordnen, hilft ein Blick auf menschliche Maßstäbe – insbesondere auf das Codeforces-Rating, ein ELO-ähnliches Punktesystem für kompetitive Programmierer. Codeforces ist eine der bekanntesten Plattformen für algorithmisches Programmieren. Dort reicht die Bandbreite vom Anfänger (unter 1200 Punkte) bis zum internationalen Großmeister (über 2400 Punkte).
Forscher, darunter OpenAI, haben versucht, die Leistung von LLMs wie GPT-4 in dieses System einzuordnen. GPT-4-Turbo wurde z. B. im Frühjahr 2024 mit rund 1900 Punkten bewertet – das entspricht etwa den Top 20 % aller Teilnehmer weltweit.
Wie kann man einen LiveCodeBench-Score interpretieren?
LiveCodeBench misst die Fähigkeit eines Modells, reale Programmieraufgaben von Anfang bis Ende korrekt zu lösen – also nicht nur den Algorithmus zu verstehen, sondern auch mit echten Eingaben, strukturiertem Output, Fehlerfällen und APIs umzugehen.
Die Prozentzahl gibt den Anteil korrekt gelöster Aufgaben an.
Hier drei Beispiele zur Einordnung:
- 50 % Score (z. B. Claude 3.5 Sonnet im Juni 2024)
→ vergleichbar mit einem fortgeschrittenen Junior-Entwickler oder einem selbstbewussten Praktikanten.
Die Aufgaben werden teilweise korrekt gelöst, oft fehlt es aber noch an Robustheit oder tieferem Verständnis. - 75 % Score (z. B. DeepSeek R1 Preview im Januar 2025)
→ entspricht einem soliden Mid-Level-Entwickler.
Die meisten Aufgaben werden korrekt und strukturiert gelöst, Fehlerbehandlung und API-Integration sind oft zuverlässig. - 80–85 % Score (z. B. Gemini 2.5 Pro oder O4-Mini High im Frühjahr 2025)
→ bewegt sich im Bereich eines starken Senior Developers oder der Top 5 % der Teilnehmer auf Codeforces.
Nur besonders komplexe Fälle oder mehrstufige Fehlerlogik führen noch zu Fehlern. Die Ergebnisse sind oft produktionsreif.
Fazit
Ein LLM mit 80 %+ Score auf LiveCodeBench kann heute schon viele Aufgaben übernehmen, die sonst nur erfahrene Entwickler sauber lösen könnten. Der Fortschritt in nur 12 Monaten ist dramatisch – von „kann kleinere Hilfsfunktionen schreiben“ zu „kann produktiv echte Programmieraufgaben lösen“.