Skip to content

Warum teurere Modelle günstiger sind

TL;DR

Das fähigste KI-Modell ist 60% günstiger pro Aufgabe, obwohl es 67% mehr pro Token kostet — weil es weniger Token verwendet, weniger Iterationen benötigt und 50–75% weniger Fehler produziert. Für Vibe-Codierer, die keinen Code lesen können, ist Modellqualität keine Frage der Effizienz — sie ist das einzige Sicherheitsnetz in der gesamten Pipeline.

Zuletzt verifiziert: Februar 2026

Benchmark-Werte, Modellnamen und Preise in diesem Artikel spiegeln den Stand des Feldes als von Februar 2026 wider. Das Kernargument — dass die Kosten pro Aufgabe wichtiger sind als der Preis pro Token — ist beständig, auch wenn sich spezifische Zahlen ändern.

Das teuerste KI-Coding-Modell ist fast immer die günstigste Option — wenn man misst, was tatsächlich wichtig ist. Der Preis pro Token ist eine Ablenkung. Was Ihre tatsächlichen Kosten bestimmt, ist wie viele Token es braucht, um die Arbeit zu erledigen, wie viele Iterationen Sie durchbrennen und wie viel Ihrer Zeit das Überprüfen und Korrigieren der Ausgabe in Anspruch nimmt.

Die Preisillusion

Hier sind die API-Preise für Claude-Modelle:

ModellEingabe (pro 1 Mio. Token)Ausgabe (pro 1 Mio. Token)
Claude Opus 4.5$5$25
Claude Sonnet 4.5$3$15

Opus sieht 67% teurer aus. Die meisten Leute hören hier auf und wählen Sonnet. Das ist die falsche Mathematik.

Was tatsächlich passiert

Anthropics Benchmarks erzählen eine andere Geschichte. Bei mittlerem Aufwand stimmt Opus 4.5 mit Sonnet 4.5's bestem SWE-bench-Wert überein, verwendet dabei jedoch 76% weniger Ausgabe-Token. Bei höchstem Aufwand übertrifft Opus Sonnet um 4,3 Prozentpunkte und verwendet dabei 48% weniger Token.[1]

Lass uns die echte Mathematik machen:

Sonnet 4.5Opus 4.5
Ausgabe-Token pro Aufgabe~500~120
Preis pro 1 Mio. Ausgabe-Token$15$25
Kosten pro Aufgabe$0,0075$0,0030

Opus ist 60% günstiger pro Aufgabe — trotz 67% höherer Kosten pro Token.[2]

Dies ist kein willkürlich gewähltes Beispiel. Bei langfristigen Coding-Aufgaben erreicht Opus höhere Bestehensraten und verwendet dabei bis zu 65% weniger Token und macht 50% weniger Tool-Aufrufe.[1:1]

Die Iterations-Steuer

Token-Kosten sind nur ein Teil der Geschichte. Die größeren Kosten sind Iterationen — wie viele Runden Generieren-Überprüfen-Korrigieren es braucht, um korrekten Code zu erhalten.

Opus 4.5 erreicht Spitzenleistung in 4 Iterationen. Konkurrierende Modelle benötigen bis zu 10 Versuche, um ähnliche Qualität zu erreichen.[1:2] Jede fehlgeschlagene Iteration kostet Sie:

  • Token — das Modell liest den Kontext und generiert erneut
  • Zeit — Sie überprüfen die Ausgabe, finden das Problem, prompten neu
  • Aufmerksamkeit — Kontextwechsel zwischen „ist das richtig?" und „was ist falsch?"

Bei einem Entwicklersatz von $75/Stunde kostet jede fehlgeschlagene Iteration, die 15 Minuten zum Überprüfen und Korrigieren dauert, $18,75 in menschlicher Zeit. Sechs zusätzliche Iterationen (die Lücke zwischen 4 und 10) kosten $112,50 in Entwicklerzeit — pro komplexer Aufgabe. Der Token-Kostenunterschied? Etwa ein halber Cent.[3]

Zeitersparnisse für Entwickler sind 22.500x wertvoller als der Token-Kostenunterschied.

Der Fehler-Multiplikator

Günstigere Modelle brauchen nicht nur mehr Iterationen — sie produzieren mehr Fehler, die in die Produktion gelangen.

Opus 4.5 zeigt eine 50–75%ige Reduzierung sowohl bei Tool-Aufruf-Fehlern als auch bei Build/Lint-Fehlern im Vergleich zu anderen Modellen.[1:3] Das ist wichtig, weil Fehler, die die Coding-Sitzung überstehen, nachgelagert dramatisch teurer werden:

  • Ein Fehler, der während der Codierung gefunden wird, kostet Minuten zum Beheben
  • Ein Fehler, der im Code-Review gefunden wird, kostet eine Stunde (Ihrer + der des Reviewers)
  • Ein Fehler, der in der Produktion gefunden wird, kostet Tage (Debuggen, Hotfixing, Kommunizieren, Post-Mortem)

Die Faros-KI-Studie — die 1.255 Teams und mehr als 10.000 Entwickler abdeckt — stellte fest, dass hohe KI-Adoption mit einer 9%igen Zunahme der Fehler pro Entwickler und einer 91%igen Zunahme der PR-Review-Zeit korreliert.[4] Wenn KI mehr Code mit geringerer Genauigkeit generiert, absorbiert der Review-Engpass die „Produktivitäts"-Gewinne vollständig.

Ein Modell, das beim ersten Durchgang richtig liegt, vermeidet diese Kaskade.

Der SWE-bench-Beweis

SWE-bench Verified ist der Industriestandard zur Bewertung der KI-Coding-Fähigkeit bei realen Software-Engineering-Aufgaben. Das Leaderboard von Februar 2026:[5]

ModellSWE-bench Verified
Claude Opus 4.580,9%
Claude Opus 4.680,8%
GPT-5.280,0%
Gemini 3 Flash78,0%
Claude Sonnet 4.577,2%
Gemini 3 Pro76,2%

Eine Differenz von 3,7 Punkten zwischen Opus 4.5 und Sonnet 4.5 bedeutet, dass Opus ungefähr 1 von 27 zusätzlichen Aufgaben löst, bei denen Sonnet scheitert. Wenn jeder dieser Fehlschläge eine manuelle Debugging-Sitzung auslöst, multiplizieren sich die Kosten schnell.

Aber hier ist der eigentliche Knackpunkt — als Forscher die Kosten pro gelöster Aufgabe statt Kosten pro Token maßen, war Opus günstiger als Sonnet:

ModellKosten pro AufgabeSWE-bench-Wert
Claude Opus 4.5~$0,4480,9%
Claude Sonnet 4.5~$0,5077,2%

Sonnet kostet mehr pro Aufgabe und löst dabei weniger Aufgaben.[6]

Codex CLI: Gleiches Muster, anderer Anbieter

OpenAIs Codex CLI zeigt dieselbe Dynamik mit Reasoning-Aufwands-Stufen:

  • Mittleres Reasoning: Ausgewogene Geschwindigkeit und Intelligenz — der Standard
  • Extra-hohes (xhigh) Reasoning: Denkt länger, produziert bessere Antworten — empfohlen für schwierige Aufgaben

GPT-5.1-Codex-Max mit mittlerem Aufwand übertrifft Standard-GPT-5.1-Codex beim gleichen Aufwand und verwendet dabei 30% weniger Denk-Token.[7] Das Premium-Modell ist token-effizienter, weil es besser denkt — es muss keine so vielen Zwischenschritte generieren, um die richtige Antwort zu finden.

Das Muster ist bei allen Anbietern universell: Intelligentere Modelle verschwenden weniger Rechenleistung.

Die METR-Warnung

Die randomisierte kontrollierte METR-Studie liefert eine entscheidende Warnung. Sechzehn erfahrene Entwickler ($150/Stunde) erhielten 246 Aufgaben mit KI-Tools. Das Ergebnis: Entwickler waren mit KI-Unterstützung 19% langsamer. Noch bemerkenswerter — Entwickler glaubten, dass sie 20% schneller waren, eine Wahrnehmungslücke von fast 39 Prozentpunkten.[8]

Die Studie verwendete Sonnet-Klasse-Modelle (Claude 3.5/3.7 Sonnet über Cursor Pro), nicht Opus. Weniger als 44% des KI-generierten Codes wurde akzeptiert.

Dies legt nahe, dass der Qualitätsschwellenwert enorm wichtig ist. Ein Modell, das Code produziert, den Sie 44% der Zeit akzeptieren, macht Sie langsamer — Sie verbringen mehr Zeit mit Überprüfen und Ablehnen als Sie sparen. Ein Modell mit 50–75% weniger Fehlern und dramatisch höherer Erstdurchgang-Genauigkeit könnte diese Gleichung vollständig umkehren.

Die METR-Studie zeigt nicht, dass KI-Coding-Tools langsam sind. Sie zeigt, dass mittelmäßige KI-Coding-Tools langsam sind.

Technische Schulden: Die 75%, die Sie nicht zählen

Die Vorabkosten für das Schreiben von Code sind nur 15–25% der Gesamtsoftwarekosten über seinen Lebenszyklus. Die verbleibenden 75–85% gehen für Wartung, Betrieb und Fehlerbehebung drauf.[9]

GitClears Analyse des zwischen 2020 und 2024 produzierten Codes fand eine 8-fache Zunahme bei duplizierten Code-Blöcken und eine 2-fache Zunahme bei Code-Churn, korrelierend mit KI-Tool-Adoption. SonarSource fand eine 93%ige Zunahme bei BLOCKER-Level-Bugs beim Vergleich der Ausgabe von Claude Sonnet 4 mit seinem Vorgänger.[10]

Wenn ein günstigeres Modell Code mit fast doppelter schwerwiegender Bug-Rate generiert, und Wartung 75–85% der Lebenszykluskosten verbraucht, werden die „Einsparungen" bei der Codegenerierung von nachgelagerten Kosten überwältigt. Der günstigste Code zu warten ist Code, der beim ersten Mal korrekt war.

Abonnement-Mathematik

Für schwere Nutzer verstärkt die Abonnement- vs. API-Wahl das Modellqualitätsargument noch weiter.

PlanMonatliche KostenWas Sie bekommen
Claude Max ($100)$100Hohe Opus-Nutzung
Claude Max ($200)$200Unbegrenztes Opus
Äquivalente API-Nutzung$3.650+Gleiche Opus-Token

Das Abonnement ist ungefähr 18-mal günstiger als API-Abrechnung für dieselbe Arbeit.[11] Zum Abonnementpreis gibt es keine marginalen Kosten für die Verwendung des besten Modells — das „teure" Modell wird buchstäblich kostenlos pro zusätzlicher Abfrage.

Durchschnittliche Claude Code-Kosten im Abonnement: $6 pro Entwickler pro Tag, wobei 90% der Nutzer unter $12/Tag liegen.[12] Bei einem Entwicklergehalt von $75/Stunde bezahlen 5 Minuten eingesparte Zeit pro Tag das Abonnement. Alles darüber hinaus ist reiner Gewinn.

Das zusammengesetzte Argument

Hier ist, warum die Mathematik mit der Zeit noch ungleicher wird:

1. Weniger Iterationen = weniger Kontext-Verschmutzung

Jeder fehlgeschlagene Versuch fügt der Gesprächshistorie hinzu. Lange Gespräche verschlechtern die Modellleistung — das Signal-Rausch-Verhältnis sinkt. Ein Modell, das in 4 Iterationen erfolgreich ist, hat einen saubereren Kontext als eines, das 10 Mal herumirrt, was bedeutet, dass seine späteren Antworten auch besser sind.

2. Weniger Fehler = weniger Review-Ermüdung

Die GitHub Copilot-Produktivitätsstudien stellten fest, dass die Vorteile mit der Aufgabenschwierigkeit zunehmen.[13] Schwierige Aufgaben sind die, bei denen günstige Modelle am meisten versagen — und wo teure Modelle glänzen. Die ZoomInfo-Fallstudie zeigte einen 40–50%igen Produktivitätsschub mit KI, wobei die Lücke mit zunehmender Komplexität wuchs.

3. Besserer Code = besseres Lernen

Wenn Sie als Entwickler Ihre Fähigkeiten ausbauen (und das sollte jeder Entwickler), prägt der Code, den Sie lesen, Ihre Instinkte. Konsistent korrekten, gut strukturierten KI-Ausgabe lesen, lehrt gute Muster. Buggy, ausschweifende Ausgabe lesen lehrt schlechte Gewohnheiten.

4. Korrekter Code wird schneller geliefert

Jede Iteration, die Sie nicht brauchen, ist eine Funktion, die früher ausgeliefert wird. In wettbewerbsintensiven Märkten ist Entwicklungsgeschwindigkeit — gemessen in gelieferten Funktionen, nicht in generierten Token — das, was zählt.

Für Vibe-Codierer geht es nicht um Kosten — es geht ums Überleben

Alles oben Gesagte gilt für professionelle Entwickler, die Diffs lesen, Bugs erkennen und kaputten Code reparieren können. Aber es gibt eine schnell wachsende Gruppe, für die das Modellqualitätsargument nicht um Effizienz geht — sondern darum, ob die Software überhaupt funktioniert. Das sind die 100%igen Vibe-Codierer: Nicht-Programmierer, die echte Anwendungen ausschließlich über natürlichsprachliche Prompts bauen, ohne die Fähigkeit, eine einzige Zeile des generierten Codes zu lesen, zu prüfen oder zu verstehen.

Das unsichtbare Risiko

Für einen professionellen Entwickler ist ein günstiges Modell, das buggy Code generiert, ärgerlich — er erkennt den Bug im Review, behebt ihn und macht weiter. Für einen Nicht-Programmierer ist derselbe Bug unsichtbar. Er gelangt unentdeckt in die Produktion.

Das Ausmaß dieses Problems ist erschütternd:

  • Veracode testete über 100 LLMs und stellte fest, dass KI-generierter Code in 45% der Aufgaben Sicherheitsmängel einführte. Java war mit über 70% am schlimmsten. Kritisch ist, dass neuere und größere Modelle keine signifikante Verbesserung bei der Sicherheit zeigten — das Problem ist strukturell, nicht generationenbedingt.[14]
  • CodeRabbit analysierte 470 Open-Source-PRs und stellte fest, dass KI-authored Code 1,7-mal mehr schwerwiegende Probleme und 1,4-mal mehr kritische Probleme hatte als menschlicher Code. Logikfehler waren um 75% höher. Performance-Probleme (übermäßiges I/O) waren 8-mal häufiger. Sicherheitslücken waren 1,5–2-mal höher.[15]
  • BaxBench und NYU-Forschung bestätigen, dass 40–62% des KI-generierten Codes Sicherheitsmängel enthält — Cross-Site-Scripting, SQL-Injection, fehlende Eingabevalidierung — die Art von Schwachstellen, die die App nicht zum Absturz bringen, sondern die Daten jedes Nutzers still preisgeben.[16]

Ein professioneller Entwickler erkennt diese Muster. Ein Vibe-Codierer weiß nicht, dass sie existieren.

Reale Katastrophen

Das ist nicht theoretisch. Im Jahr 2025 entdeckte Sicherheitsforscher Matt Palmer, dass 170 von 1.645 Anwendungen, die mit Lovable gebaut wurden — einer populären Vibe-Coding-Plattform — fatale Fehlkonfigurierungen der Datenbanksicherheit hatten. Jeder im Internet konnte ihre Datenbanken lesen und beschreiben. Offengelegte Daten umfassten vollständige Namen, E-Mail-Adressen, Telefonnummern, Heimadressen, persönliche Schuldenbeträge und API-Schlüssel.[17]

Escape.tech ging weiter und scannte über 5.600 öffentlich bereitgestellte vibe-kodierte Apps auf Plattformen wie Lovable, Base44, Create.xyz und Bolt.new. Sie fanden über 2.000 Schwachstellen, mehr als 400 offengelegte Geheimnisse und 175 Fälle von offengelegten personenbezogenen Daten einschließlich Krankenakten, IBANs und Telefonnummern.[18]

Das waren keine Entwicklerfehler. Die Entwickler — wenn wir sie so nennen können — hatten keine Ahnung, dass die Schwachstellen existierten. Sie baten die KI, eine App zu bauen, die App schien zu funktionieren, und sie setzten sie ein. Die Sicherheitsmängel waren für jeden unsichtbar, der den Code nicht lesen konnte.

Die Lieferketten-Falle

Nicht-Codierer stehen vor einer Bedrohung, die sogar erfahrene Entwickler schwer finden zu erkennen: Slopsquatting. KI-Modelle halluzinieren Paketnamen — etwa 20% der Code-Beispiele referenzieren nicht existierende Pakete. Angreifer registrieren diese Phantompacketnamen und injizieren Malware. Wenn der Vibe-Codierer's KI vorschlägt, das Paket zu installieren, gelangt die Malware automatisch in ihre Anwendung.[19]

Ein Entwickler bemerkt möglicherweise einen unbekannten Paketnamen und überprüft ihn. Ein Vibe-Codierer installiert, was die KI ihnen sagt, zu installieren. Sie haben keinen Referenzrahmen dafür, was legitim und was halluziniert ist.

Warum Modellqualität das einzige Sicherheitsnetz ist

Palo Alto Networks' Unit 42-Forschungsteam sagte es klar: Bürger-Entwickler — Menschen ohne Entwicklungshintergrund — „fehlt Schulung in der Erstellung von sicherem Code und sie haben möglicherweise kein vollständiges Verständnis der Sicherheitsanforderungen im Anwendungslebenszyklus." Ihre Untersuchung fand reale Datenpannen, Authentifizierungsumgehungen und beliebige Codeausführung, die direkt auf vibe-kodierte Anwendungen zurückgeführt wurden.[20]

Für professionelle Entwickler dienen Code-Review, Tests und Sicherheits-Audits als Sicherheitsnetze. Sie fangen auf, was das Modell verpasst. Vibe-Codierer haben keines dieser Sicherheitsnetze. Sie können keinen Code überprüfen, den sie nicht lesen können. Sie können keine Tests für Verhalten schreiben, das sie nicht verstehen. Sie können keine Sicherheitseigenschaften prüfen, von denen sie noch nie gehört haben.

Das bedeutet, dass das KI-Modell selbst die einzige Qualitätskontrolle in der gesamten Pipeline ist. Jeder Mangel, den das Modell einführt, wird direkt an die Nutzer geliefert. Es gibt keine zweite Chance, keinen menschlichen Kontrollpunkt, kein Sicherheitsnetz.

Und genau hier ist Modellqualität am wichtigsten:

  • Opus produziert 50–75% weniger Fehler als günstigere Modelle.[1:4] Für einen Vibe-Codierer mit null Fähigkeit, Fehler zu fangen, ist das der Unterschied zwischen einer funktionierenden App und einer App, die still Benutzerdaten preisgibt.
  • Opus erreicht Spitzenleistung in 4 Iterationen, nicht 10.[1:5] Jede zusätzliche Iteration bedeutet, dass der Vibe-Codierer das Problem in natürlicher Sprache beschreiben muss (er kann nicht auf die falsche Zeile zeigen), hofft, dass die KI versteht, und hofft, dass die Korrektur keine neuen Bugs einführt, die er ebenfalls nicht sehen kann.
  • Opus hat den höchsten Widerstand gegen Prompt-Injection unter Frontier-Modellen — kritisch, wenn der Vibe-Codierer Apps baut, die Benutzereingaben handhaben, die er nicht selbst bereinigen kann.
  • Opus verwendet weniger Token pro Aufgabe, was bedeutet, es generiert weniger Code, um dasselbe Ziel zu erreichen — weniger Code bedeutet weniger Angriffsfläche, weniger Stellen für Bugs, sich in Code zu verstecken, den niemand je lesen wird.

Für einen Entwickler ist ein günstiges Modell eine Produktivitätssteuer. Für einen Vibe-Codierer ist ein günstiges Modell eine Haftung. Das Modell ist nicht ihr Assistent — es ist ihr gesamtes Engineering-Team. Den günstigst möglichen „Ingenieur" einzustellen, wenn Sie keine Möglichkeit haben, deren Arbeit zu überprüfen, ist nicht sparsam. Es ist leichtsinnig.

Die eigentliche Entscheidung für Nicht-Codierer

Wenn Sie keinen Code lesen können, wählen Sie nicht zwischen einem günstigen und einem teuren Tool. Sie wählen zwischen:

  1. Ein Modell, das Sicherheit 55% der Zeit richtig hinbekommt (und Sie werden von den anderen 45% nie erfahren)
  2. Ein Modell, das Sicherheit mehr als 80% der Zeit richtig hinbekommt (und dramatisch weniger der stillen, unsichtbaren Bugs produziert, die Unternehmen zerstören)

Die 67%ige Preisprämie pro Token ist bedeutungslos neben den Kosten eines Daten-Lecks, das Sie nicht für möglich hielten, eingebaut in Code, den Sie nicht lesen konnten, in einer Anwendung, die Sie für echte Nutzer eingesetzt haben.

Für Vibe-Codierer ist das teure Modell nicht die günstigere Wahl. Es ist die einzig verantwortungsvolle.

Das Entscheidungsrahmenwerk

Wenn Sie...Verwenden Sie...Warum
Stunden täglich codenOpus + AbonnementKeine marginalen Kosten, höchste Qualität
An komplexen Aufgaben arbeitenExtra-hoch / OpusWeniger Iterationen, weniger Bugs
Langlebigen Code pflegenDas beste verfügbare ModellTechnische Schulden sind die eigentlichen Kosten
Vibe-codieren ohne Code zu lesenOpus — nicht verhandelbarDas Modell ist Ihr einziges Sicherheitsnetz
Ein begrenztes Budget habenTrotzdem Opus über Abonnement$200/Monat < Kosten des Debuggens billiger Ausgabe
Schnelle einmalige Abfragen machenSonnet / mittlerer AufwandQualitätsschwellenwert ist bei einfachen Aufgaben weniger wichtig

Das einzige Szenario, in dem günstigere Modelle gewinnen, sind triviale Aufgaben, bei denen jedes Modell beim ersten Versuch erfolgreich ist. Für alles andere — was der größte Teil des echten Software-Engineerings ist — ist das teure Modell die günstige Wahl.

Das Fazit

Preis pro Token ist eine Eitelkeitskennzahl. Kosten pro Aufgabe ist die echte Kennzahl. Und pro Aufgabe gewinnt das fähigste Modell konsistent — nicht mit kleinem Abstand, sondern um Vielfaches:

  • 60% günstiger pro Aufgabe (weniger Token)
  • 60% weniger Iterationen bis zur Spitzenleistung
  • 50–75% weniger Fehler
  • 22.500x wertvoller in Entwicklerzeitersparnis als der Token-Kostenunterschied

Das teuerste Modell ist kein Luxus. Es ist die minimale lebensfähige Wahl für jeden, der seine Zeit wertschätzt.


  1. Anthropic (2025). Introducing Claude Opus 4.5. Wesentliche Erkenntnisse: Bei mittlerem Aufwand stimmt Opus 4.5 mit Sonnet 4.5's bestem SWE-bench-Wert überein und verwendet 76% weniger Ausgabe-Token; bei höchstem Aufwand übertrifft Opus Sonnet um 4,3 Prozentpunkte und verwendet 48% weniger Token; 50–75%ige Reduzierung bei Tool-Aufruf- und Build/Lint-Fehlern; Spitzenleistung in 4 Iterationen vs. bis zu 10 für Wettbewerber. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. claudefa.st (2025). Claude Opus 4.5: 67% Cheaper, 76% Fewer Tokens. Analyse, die zeigt, dass die Preisprämie pro Token mehr als ausgeglichen wird durch dramatisch niedrigeren Token-Verbrauch pro Aufgabe, wodurch Opus die kosteneffektivere Wahl für die meisten Workloads ist. ↩︎

  3. Entwicklergehaltsdaten von Glassdoor (2025): durchschnittliches US-Software-Entwicklergehalt $121.264–$172.049/Jahr. Bei $75/Stunde, 15 Minuten Überprüfung/Korrektur pro fehlgeschlagener Iteration = $18,75 in menschlicher Zeit. Sechs zusätzliche Iterationen (Lücke zwischen 4 und 10) = $112,50 pro komplexer Aufgabe. Siehe: Glassdoor Software Developer Salary. ↩︎

  4. Faros AI (2025). The AI Productivity Paradox. Studie mit 1.255 Teams und mehr als 10.000 Entwicklern: Einzelne Entwickler in hochgradig-KI-Teams erledigen 21% mehr Aufgaben und mergen 98% mehr PRs, aber PR-Review-Zeit erhöhte sich um 91%, Bugs stiegen um 9% pro Entwickler und PR-Größe wuchs um 154%. Keine signifikante Korrelation zwischen KI-Adoption und Unternehmensleistungsverbesserungen. ↩︎

  5. SWE-bench Verified Leaderboard, Februar 2026. Aggregiert von marc0.dev, llm-stats.com und The Unwind AI. Claude Opus 4.5 war das erste Modell, das auf SWE-bench Verified über 80% brach. ↩︎

  6. JetBrains AI Blog (2026). The Best AI Models for Coding: Accuracy, Integration, and Developer Fit. Kosten-pro-Aufgabe-Analyse über mehrere Modelle, unter Berücksichtigung von Token-Verbrauch und Erfolgsraten. ↩︎

  7. OpenAI (2025). GPT-5.1-Codex-Max; Codex Prompting Guide. Codex-Max mit mittlerem Reasoning-Aufwand übertrifft Standard-Codex beim gleichen Aufwand und verwendet 30% weniger Denk-Token — das Premium-Modell ist inhärent token-effizienter. ↩︎

  8. METR (2025). Measuring the Impact of Early 2025 AI on Experienced Open-Source Developer Productivity. Randomisierte kontrollierte Studie: 16 erfahrene Entwickler, 246 Aufgaben, $150/Stunden-Vergütung. KI-unterstützte Entwickler waren 19% langsamer. Entwickler erwarteten 24%ige Beschleunigung und glaubten im Nachhinein, 20% schneller zu sein — eine Wahrnehmungslücke von ~39 Prozentpunkten. Weniger als 44% des KI-generierten Codes wurde akzeptiert. Siehe auch: arXiv:2507.09089. ↩︎

  9. Branchendaten zu Software-Lebenszykluskosten setzen Wartung konsistent bei 60–80% der Gesamtkosten an. Siehe: Sommerville, I. (2015). Software Engineering, 10. Aufl., Kapitel 9. Siehe auch: MIT Sloan: The Hidden Costs of Coding with Generative AI. ↩︎

  10. GitClear (2024). AI Code Quality Analysis: 8-fache Zunahme bei duplizierten Code-Blöcken, 2-fache Zunahme bei Code-Churn (2020–2024). SonarSource (2025): Analyse von KI-generiertem Code fand systematischen Mangel an Sicherheitsbewusstsein bei jedem getesteten Modell, wobei Claude Sonnet 4 fast doppelt so viele BLOCKER-Level-Bugs produzierte. Siehe: DevOps.com. ↩︎

  11. Level Up Coding (2025). Claude API vs Subscription Cost Analysis. Vergleich von Abonnement- vs. API-Abrechnung, der zeigt, dass Abonnements für anhaltende Coding-Sitzungen etwa 18-mal günstiger sind. ↩︎

  12. The CAIO (2025). Claude Code Pricing Guide. Durchschnittliche Claude Code-Kosten: $6 pro Entwickler pro Tag, wobei 90% der Nutzer unter $12/Tag bei Abonnementplänen liegen. ↩︎

  13. Peng, S. et al. (2023). The Impact of AI on Developer Productivity: Evidence from GitHub Copilot. Labor-Studie: Entwickler erledigten Aufgaben mit Copilot 55,8% schneller. Siehe auch: ZoomInfo-Fallstudie mit 40–50%igem Produktivitätsschub mit KI. ↩︎

  14. Veracode (2025). 2025 GenAI Code Security Report. Analyse von 80 Coding-Aufgaben bei über 100 LLMs: KI-generierter Code führte in 45% der Fälle Sicherheitsmängel ein. Java war mit über 70% am schlimmsten. Neuere und größere Modelle zeigten keine signifikante Sicherheitsverbesserung. ↩︎

  15. CodeRabbit (2025). State of AI vs Human Code Generation Report. Analyse von 470 Open-Source-GitHub-PRs: KI-Code hatte 1,7-mal mehr schwerwiegende Probleme, 1,4-mal mehr kritische Probleme, 75% mehr Logikfehler, 1,5–2-mal mehr Sicherheitslücken und fast 8-mal mehr Performance-Probleme. ↩︎

  16. BaxBench und NYU-Forschung zur KI-Code-Sicherheit. Siehe: Tihanyi, N. et al. (2025). Is Vibe Coding Safe?. BaxBench fand, dass 40–62% des KI-generierten Codes Sicherheitsmängel enthält. ↩︎

  17. Palmer, M. (2025). Statement on CVE-2025-48757. Analyse von 1.645 Lovable-erstellten Anwendungen: 170 hatten fatale Fehlkonfigurierungen der Row-Level-Security. ↩︎

  18. Escape.tech (2025). The State of Security of Vibe Coded Apps. Scan von mehr als 5.600 öffentlich bereitgestellten vibe-kodierten Anwendungen: Mehr als 2.000 Schwachstellen, mehr als 400 offengelegte Geheimnisse und 175 Fälle von offengelegten personenbezogenen Daten. ↩︎

  19. Lanyado, B. et al. (2025). AI-hallucinated code dependencies become new supply chain risk. Studie von 16 Code-Generations-KI-Modellen: ~20% der 756.000 Code-Beispiele empfahlen nicht existierende Pakete. ↩︎

  20. Palo Alto Networks Unit 42 (2025). Securing Vibe Coding Tools. Untersuchung von realen Vibe-Coding-Sicherheitsvorfällen: Datenpannen, Authentifizierungsumgehungen und beliebige Codeausführung. ↩︎