Die Sättigungsfalle bei vergleichenden LLM-Evaluationen

Eine vergleichende Evaluierungsschleuse („das neue System muss das alte in 60 % der Aufgaben schlagen“) hört im Stillen auf zu funktionieren, sobald Ihre Basis die Bewertungsgrundlage sättigt. Unsere schon. Wir bauten eine Head-to-Head-Schleuse, um zu entscheiden, ob eine aufwendigere Multi-Step-Pipeline ihren Platz gegen unser ausgeliefertes Single-Turn-Verhalten verdient, führten sie aus und erhielten ein Urteil, das wie eine klare Ablehnung aussah: eine Gewinnrate von 7,1 % gegen eine 60 %-Hürde. Bei diesem Lauf war der Herausforderer nie schlechter in einer Aufgabe: Er glich in 13 von 14 Aufgaben und gewann die eine, die er nicht glich. Die Zahl sagte uns nicht, dass der Herausforderer versagt hatte. Sie sagte uns, dass unsere Aufgaben zu einfach waren, um die beiden Systeme zu trennen, und wir fast eines für das andere gehalten hätten.

Dieses Versagen hat eine Form, die es wert ist, benannt zu werden, denn es ist unsichtbar, bis man sich die absolute Punktzahl der Basis ansieht. Wir nennen es die Sättigungsfalle: Wenn Ihre Basis fast die Höchstpunktzahl erreicht, misst eine Gewinnraten-Schleuse nicht mehr den Herausforderer – sie misst gar nichts mehr.

Die Schleuse, die wir gebaut haben

Die Entscheidung war konkret. Eine Multi-Step-Pipeline (Planen, dann Ausführen, dann Überprüfen) verursacht höhere Kosten als ein Single-Turn, weil sie mehrere Modellaufrufe tätigt, wo der Single-Turn nur einen macht. Daher war die Hürde nicht „ist es gut?“, sondern „ist es eindeutig besser, genug, um die zusätzlichen Kosten zu rechtfertigen?“. Wenn es nur dem Single-Turn entsprach, war es eine Kostenerhöhung ohne Qualitätsgewinn und sollte nicht ausgeliefert werden. (Wir veröffentlichen bewusst nicht die interne Modellzusammensetzung der Pipeline oder irgendwelche Token-Kosten; die Lehre hier dreht sich um die Evaluation, nicht um unser Routing.)

Wir operationalisierten „eindeutig besser“ als zwei Linien, die beide erfüllt sein mussten, denn jede für sich allein ist manipulierbar:

Gewinnrate von mindestens 60 %. Der Herausforderer muss in mindestens 60 % der Aufgaben klar gewinnen. Unentschieden zählen gegen ihn: Ein Unentschieden bei höheren Kosten ist in Produktbegriffen ein Verlust. Wir setzten die Hürde bei 60 % statt 50 %, damit ein Ergebnis das Richterspruch-Rauschen in einem kleinen Aufgabenset überstehen musste; ein 7-zu-12-Ergebnis ist einen umgekippten Richterspruch davon entfernt, ein Münzwurf zu sein.
Mittlere Punktedifferenz streng positiv. Die mittlere Punktedifferenz pro Aufgabe (Herausforderer minus Basis) muss über null liegen, sodass ein paar knappe Siege keine großen Rückschritte anderswo kaschieren können.

Der Aufgabensatz bestand aus 14 „Hero-Flow“-Aufgaben über einen vollständig synthetischen Arbeitsbereich: eine fiktive SaaS-Prozessierungsfirma mit 30 Mitarbeitern und absichtlich eingebetteten Fehlern (eine veraltete ISMS-Richtlinie, die die zurückgezogene ISO/IEC 27001:2013 zitiert, eine Zugriffskontrollrichtlinie mit einer sich selbst widersprechenden MFA-Regel, ein Incident-Response-Stub, ein unvollständiges Verarbeitungsinventar). Keine Kundendaten. Jede Aufgabe hatte eine Bewertungsgrundlage mit unabhängig benotbaren, binären Kriterien, bewertet von einem LLM-Richter (claude-haiku-4-5, Temperatur 0, ein JSON-Urteil pro Kriterium). Der Richter sah nur die freigegebenen Arbeitsergebnisse, nie den internen Plan der Pipeline, sodass ein Plan, der versprach „Art. 28(3) einbeziehen“, keinen Bonus erhielt, wenn das finale Dokument dies nicht einlöste.

Der Lauf und die beiden Linien, die sich widersprachen

Hier das vollständige Ergebnis. Die Basis ist der Single-Turn (claude-opus-4-6); der Herausforderer ist die Multi-Step-Pipeline, deren interne Modellzusammensetzung wir zurückhalten, da sie das Routing betrifft. Das ist hier in Ordnung, weil die Lehre auf Architekturebene angesiedelt ist und nicht davon abhängt, welches Modell in der Pipeline sitzt. Ein Lauf pro System, 11.06.2026.

Kennzahl	Wert
Mittlere Punktzahl Basis (14 Aufgaben)	0,984
Mittlere Punktzahl Herausforderer (14 Aufgaben)	1,000
Unentschieden	13 von 14
Siege Herausforderer	1
Niederlagen Herausforderer	0
Gewinnrate (Unentschieden zählen gegen den Herausforderer)	7,1 % (1/14)
Mittlere Punktedifferenz (Herausforderer minus Basis)	+0,016

Liest man die Schleuse anhand dieser Zahlen, widersprechen sich die beiden Linien. Die Linie der mittleren Differenz besteht: Der Herausforderer ist im Schnitt minimal besser und nie schlechter. Die Linie der Gewinnrate scheitert katastrophal: 7,1 % gegen eine 60 %-Hürde. Eine einzelne Schleuse, die sowohl sagt „der Herausforderer ist in jeder Aufgabe mindestens so gut“ als auch „der Herausforderer verliert 93 % der Zeit“, misst nicht den Herausforderer. Dieser Widerspruch ist das Markenzeichen der Sättigungsfalle und der Hinweis, auf den man achten muss.

Der Mechanismus ist arithmetisch, nicht bewertend. Die Basis erzielte eine perfekte 1,0 in 13 der 14 Aufgaben. Bei einer Aufgabe, bei der die Basis bereits 1,0 erreichte, kann der Herausforderer bestenfalls ein Unentschieden erzielen, denn es gibt keinen Spielraum über 1,0 hinaus, um zu gewinnen. Und Unentschieden zählen – nach unserer eigenen Definition – gegen den Herausforderer. Eine Bewertungsgrundlage, die die Basis perfekt meistert, verwandelt fast jede Aufgabe in eine strukturelle Niederlage für den Herausforderer, egal wie gut dieser ist. Die Gewinnrate hörte auf, eine Eigenschaft des Herausforderers zu sein, und wurde zu einer Eigenschaft des Aufgabensets: konkret, zu dem Anteil der Aufgaben, die die Basis noch schlagbar ließ. Sie ließ eine übrig.

Die einzige Aufgabe, bei der die Basis eine Punktzahl verlor

Betrachten wir die einzige Aufgabe, bei der die Basis keine perfekte 1,0 erreichte. Sie erzielte 0,78 – und nicht, weil sie die Aufgabe nicht hätte lösen können. Es war eine Aufgabe, bei der sie zu viel tat: Aufgefordert, die fehlende GDPR-Dokumentation mit einer Bewertungsgrundlage zu erstellen, die drei bis fünf Artefakte vorschrieb, produzierte der Single-Turn sieben. Jedes Artefakt war kompetent und korrekt zitiert. Der einzige Punktabzug im gesamten Lauf war eine gewichtete Strafe für Übererfüllung, weil er nicht aufhörte.

Das ist die ganze Lehre in einem Datenpunkt. Wenn beide Systeme die Aufgabe lösen können, ist „Kann es die Aufgabe lösen?“ nicht mehr die Frage, die die Evaluation stellen sollte, denn beide antworten mit Ja und enden im Unentschieden. Die einzigen verbleibenden Fehler, die es zu bewerten gilt, sind Fehler der Zurückhaltung: zu viel tun, zu viel sagen, zu selbstsicher zitieren, Dinge behaupten, die man nicht gefragt wurde zu behaupten. Unsere erste Bewertungsgrundlage maß die Fähigkeit; unsere Basis sättigte sie, und das einzige Signal, das übrig blieb, war ein Zurückhaltungsfehler, den wir fast nicht in einer Aufgabe abgedeckt hatten.

„Dann liefern wir einfach die Basis“

Der ehrliche Einwand gegen all das ist, dass eine Basis mit 0,984 Ihnen sagt, Sie sollten die Basis liefern und die teure Pipeline überspringen. Wenn die günstige Lösung so gut ist, warum weiter messen? Es ist eine faire Kritik und zur Hälfte richtig: Bei diesen Aufgaben war die günstige Lösung tatsächlich so gut, und das ist ein echtes Ergebnis.

Es ist nur zur Hälfte richtig, weil Sättigung bei Fähigkeitsaufgaben nichts über Zurückhaltungsaufgaben aussagt – und Zurückhaltung ist genau dort, wo eine Multi-Step-Pipeline (die ihre eigene Arbeit vor der Freigabe überprüfen kann) tatsächlich vorne liegen oder durch eigenes Übermaß zurückfallen könnte. Unsere Hero-Flow-Aufgaben haben das nie abgefragt. Die einzige, die es versehentlich tat (die Übererfüllungsaufgabe), war die einzige, die sich bewegte. Die 0,984 war also kein Beweis dafür, dass die beiden Systeme äquivalent sind. Sie war ein Beweis dafür, dass unsere Aufgaben sie auf der verbleibenden Achse nicht unterscheiden konnten. Sättigung ist eine Aussage über Ihre Bewertungsgrundlage, nie ein Urteil über die Äquivalenz Ihrer Systeme.

Was wir geändert haben

Wir haben die Schleuse nicht neu ausgeführt. Eine Neuausführung einer gesättigten Evaluation kann die Gewinnrate nicht erhöhen, denn der Herausforderer kann auf den Aufgaben, auf denen die Basis bereits 1,0 erreicht, nicht über 1,0 kommen; eine Neuausführung reproduziert nur dieselbe Decke zu höheren Kosten. Stattdessen haben wir den Aufgabensatz härter gemacht und Aufgaben hinzugefügt, deren Bewertungsgrundlagen ein starker Single-Turn tatsächlich nicht bestehen kann – jede zielte auf eine Zurückhaltungsachse ab, die die Hero-Flow-Aufgaben ignoriert hatten:

Disziplin des Umfangs: Erstellen Sie genau drei Onboarding-Dokumente, nicht mehr. Bewertet den Übererfüllungsreflex hinter dem einzigen Punktabzug der Basis.
Zielgruppengerechte Auslassung: Eine sicherheitsrelevante E-Mail an den Kunden plus eine interne Begleitnotiz, wobei der Arbeitsbereich eine interne Partner-Memo enthält. Bewertet, ob das Modell privilegierte Inhalte aus dem nach außen gerichteten Artefakt fernhält.
Korrektheit der Zitate: Ein interner Auditplan, der die richtige Norm für die Behauptung zitieren muss und nicht eine plausible, aber falsche. Bewertet, ob das Modell die richtige Quelle wählt.
Umgang mit nicht verifizierten Belegen: Ein Auditstatusbericht, bei dem das Audit noch läuft. Bewertet, ob das Modell berichtet, was verifiziert ist, statt Fertigstellungsansprüche zu erheben, die es nicht stützen kann.

Das Anti-Manipulationsgerüst, das es sicher macht, gegen diesen Aufgabensatz zu iterieren, ist es wert, klar benannt zu werden, denn ein gehärteter Aufgabensatz ist nur so vertrauenswürdig wie die Disziplin drumherum. Der kanonische Satz an Aufgaben-IDs ist eingefroren und gehasht (sha256 über die Aufgaben-IDs, die Bewertungsgrundlagen und die Arbeitsbereichsdokumente, zusammen mit dem Richtermodel und der Scorerversion), und eine Schleusenablesung wird nur bei diesem exakten Satz akzeptiert: keine Teilmengen, keine Extras. Das macht es schwer, stillschweigend die Aufgaben auszuwählen, die ein bevorzugtes Urteil produzieren, und ein veralteter oder manuell bearbeiteter Bericht kann keine Veröffentlichung unbemerkt freigeben.

Die Grenzen davon

Ein Lauf pro System, ein Richtermodel, 14 Aufgaben. Ein einzelner Richter, der binäre Kriterien bewertet, hat Varianz – und genau das ist der Grund, warum die Gewinnraten-Hürde bei 60 % und nicht bei 50 % liegt. Die Basis lief zudem mit dem echten Produktionssystem-Prompt, aber ohne die Erinnerungen, gespeicherten Fähigkeiten und Websuche einer Live-Sitzung, und jede dieser Lücken macht die Basis schwächer als ein echter Single-Turn, was die Schleuse für den Herausforderer leichter macht, nicht schwerer. Mit anderen Worten: Die echte Basis ist wahrscheinlich noch stärker gesättigt als 0,984. Diese Zahlen sind Momentaufnahmen zum Stichtag 11.06.2026. Wir haben keine Schleusenablesung zum gehärteten Aufgabensatz veröffentlicht; der Zweck dieses Beitrags ist das Versagen, das der erste Lauf offenlegte, nicht ein neues Urteil.

Dies ist ein anderes Versagen als eine Kennzahl, die grün bleibt, während das Produkt zusammenbricht – darüber haben wir separat geschrieben. Das war eine Zahl, die log. Dies ist eine Zahl, die die Wahrheit sagte (die Basis ist tatsächlich so stark bei diesen Aufgaben) und trotzdem die Frage nicht beantworten konnte, die wir ihr stellten. Beide sind Wege, wie eine scheinbar gültige Evaluation wertlos sein kann, und sie erfordern gegensätzliche Korrekturen: Die erste braucht eine bessere Kennzahl, die zweite braucht härtere Aufgaben.

Eine Checkliste für vergleichende Schleusen

Lesen Sie die absolute Punktzahl der Basis, bevor Sie der Gewinnrate vertrauen. Wenn die Basis nahe an Ihrer Höchstpunktzahl liegt, ist Ihre Gewinnraten-Schwelle strukturell unerreichbar. Beheben Sie die Aufgaben, führen Sie die Schleuse nicht neu aus.
Achten Sie auf die Unentschiedenrate. Eine Häufung von Unentschieden ist eine gesättigte Bewertungsgrundlage, kein echtes Unentschieden. Wenn die meisten Aufgaben unentschieden enden, hat Ihr Satz keinen Spielraum für einen Sieg beider Seiten.
Entscheiden Sie vorab, was Unentschieden bedeuten, bevor Sie die Zahl lesen. Wenn Unentschieden gegen den Herausforderer zählen, verwandelt eine gesättigte Basis ein besseres System in ein negatives Urteil. Das kann die richtige Politik sein (unsere war es, aus Kostengesichtspunkten), aber wissen Sie, dass Sie sich dafür entscheiden.
Behandeln Sie widersprüchliche Schleusenlinien als Diagnose. Wenn Ihre Linie der mittleren Differenz besteht, während Ihre Gewinnraten-Linie hart scheitert, ist das kein gemischtes Ergebnis, das man wegmitteln kann. Es ist die Sättigungsfalle, die sich ankündigt.
Bewerten Sie Zurückhaltung, nicht nur Fähigkeit. Sobald beide Systeme die Aufgabe lösen können, sind die diskriminierenden Fehler Übererfüllung, Zielgruppenverletzung, Zitatübermaß und das Behaupten nicht verifizierter Fakten. Erstellen Sie Aufgaben, bei denen ein starkes Modell durch zu viel Tun scheitert.
Entwerfen Sie mindestens eine Aufgabe, bei der Ihre Basis verliert. Wenn nichts Ihre Systeme trennt, haben Sie sie nicht gemessen. Sie haben Ihren Aufgabensatz gemessen und festgestellt, dass er zu einfach ist.
Frieren Sie den kanonischen Satz ein und hashen Sie ihn. Damit Sie weder jetzt noch in Zukunft stillschweigend die Aufgaben auswählen können, die die gewünschte Antwort produzieren.

Die Falle besteht nicht darin, dass die Basis gut war. Gute Basen sind das Ziel. Die Falle besteht darin, eine Gewinnrate als Tatsache über den Herausforderer zu lesen, wenn sie längst zu einer Tatsache über den Aufgabensatz geworden ist. Wenn Ihr Vergleich sättigt, hat die Evaluation aufgehört, Ihnen etwas über Ihre Modelle zu erzählen, und beginnt, Ihnen etwas über Ihre Bewertungsgrundlage zu sagen. Der nützliche Schritt ist, dieser zweiten Botschaft zuzuhören und eine Aufgabe zu schreiben, die stark genug ist, um ein starkes Modell scheitern zu lassen.

Die obigen Zahlen stammen aus einer internen Head-to-Head-Evaluation, durchgeführt am 11.06.2026, Basis claude-opus-4-6 (Single-Turn) gegen eine Multi-Step-Plan-Execute-Verify-Pipeline, bewertet von claude-haiku-4-5, über 14 Aufgaben auf einem vollständig synthetischen Arbeitsbereich ohne Kundendaten. Momentaufnahme zum genannten Datum. Rahmenkontext: ISO/IEC 27001:2022, GDPR (Art. 28, Art. 30).

Die Sättigungsfalle: Wenn Ihre Evaluierungsbasis zu gut ist, um messbar zu sein