KI als Prüfungsexperte: Warum der Rotstift (noch) nicht ausgedient hat

Das Setup: Von der Prüfungslösung zur automatischen Korrektur

Letzte Woche testete ich, wie gut die neuesten KI-Modelle die eidgenössische höhere Fachprüfung für Experten in Rechnungslegung und Controlling 2022 lösen können. Die Ergebnisse waren beeindruckend: ChatGPT Pro erreichte 33 von 35 Punkten, Claude Opus 31.25 Punkte, Gemini 27 Punkte.

Das Korrigieren von Prüfungslösungen ist zeitraubend. Schnell kam mir der Gedanke: Warum baue ich nicht einen KI-Agenten, der mir diese Korrekturarbeit abnimmt?

Der Aufbau: 4 Korrektur-Agenten im Vergleich

Zuerst brauchte ich eine perfekte Musterlösung. Die offizielle Musterlösung war ein 120-seitiges PDF mit roten Lösungs-Eintragungen direkt in den Prüfungsaufgaben. Ich gab das PDF an Claude und bat ihn, die roten Antworten samt Punkteschema in eine kompakte, strukturierte Musterlösung zu überführen.

Das Ergebnis: Claude Code erstellte im ersten Shot eine perfekte Musterlösung mit vollständigem Bewertungsschema. Ich war ehrlich erstaunt, 120 Seiten, korrekt extrahiert, strukturiert, einsatzbereit.

Mit dieser Musterlösung und einem von Claude erstellten Systemprompt baute ich dann vier verschiedene Korrektur-Agenten:

➡️ CustomGPT bei ChatGPT
Die bekannte Custom-GPT-Funktion, die Nutzer selbst erstellen können.

➡️ Claude Projects
Das projektbasierte Setup von Anthropic mit hochgeladenen Dokumenten.

➡️ GEM bei Gemini
Geminis Agent-Funktion mit Wissensbasis.

➡️ Agent bei Microsoft Copilot
Die neueste Copilot-Agent-Funktion mit ChatGPT-5-Integration.

Alle vier erhielten:

  • Die identische Musterlösung (35 mögliche Punkte)
  • Den gleichen Systemprompt für die Korrektur
  • Die Aufgabe: Korrigiere die Prüfungsantworten der vier Modelle

Die Testfälle: 3 Prüfungslösungen zum Korrigieren

Ich liess die Agenten drei verschiedene Prüfungslösungen korrigieren:

Test 1: Claude Opus 4.5 Lösung (korrekt: 31.25/35 Punkte)
Test 2: ChatGPT Pro Lösung (korrekt: 33.00/35 Punkte)
Test 3: Gemini 3.0 Lösung (korrekt: 27.00/35 Punkte)

Parallel korrigierte ich manuell, um die Genauigkeit der Agenten zu überprüfen.

Die Ergebnisse: Überraschend genau und überraschend inkonsistent

Die Präzisen: ChatGPT Pro und Claude Opus

ChatGPT Pro (CustomGPT):

  • Test 1 (Claude-Lösung): ✓ Exakt 31.25 Punkte getroffen
  • Test 2 (eigene Lösung): -0.25 Punkte Abweichung (32.75 statt 33.00)
  • Test 3 (Gemini-Lösung): +0.50 Punkte Abweichung (27.50 statt 27.00)

Fazit: Beeindruckend präzise. Maximale Abweichung: 0.50 Punkte.

Claude Opus (Claude Projects):

  • Test 1 (eigene Lösung): ✓ Exakt 31.25 Punkte getroffen
  • Test 2 (ChatGPT-Lösung): +0.50 Punkte Abweichung (33.50 statt 33.00)
  • Test 3 (Gemini-Lösung): +0.75 Punkte Abweichung (27.75 statt 27.00)

Fazit: Ebenfalls sehr gut. Maximale Abweichung: 0.75 Punkte. Tendiert leicht zur “Grosszügigkeit”.

Die Ausreißer: ChatGPT Thinking, Gemini und Copilot

ChatGPT Thinking Mode:

  • Test 1: 30.50 Punkte (sollte 31.25 sein)
  • Test 2: 30.50 Punkte (sollte 33.00 sein)
  • Test 3: 30.50 Punkte (sollte 27.00 sein)

Das Problem: Bei ALLEN drei Tests exakt 30.50 Punkte. Das ist kein Zufall, das ist ein systematischer Fehler. Der Thinking-Mode scheint in einen fixen Bewertungsmodus zu verfallen. “Stuck at 30.50” war das deutlichste Warnsignal.

Gemini (GEM):

  • Test 1 (Claude-Lösung): +0.75 Punkte (32.00 statt 31.25)
  • Test 2 (ChatGPT-Lösung): +2.00 Punkte (35.00 statt 33.00)
  • Test 3 (eigene Lösung): +3.00 Punkte (30.00 statt 27.00)

Das Problem: Gemini ist tendenziell zu “nett”. Bei der ChatGPT-Lösung vergab er sogar die vollen 35/35 Punkte, obwohl eindeutige Fehler vorhanden waren. Vermutung: Gemini verwechselte die Prüfungslösung mit der Musterlösung.

Microsoft Copilot (Agent):

  • Test 1: 35/35 Punkte (sollte 31.25 sein)
  • Test 2: 35/35 Punkte (sollte 33.00 sein)
  • Test 3: 35/35 Punkte (sollte 27.00 sein)

Das Problem: Der Copilot-Agent vergab stur die volle Punktzahl bei allen Tests. Egal wie ich den Prompt anpasste, er blieb resistent. Offensichtlich glich er die Musterlösung einfach mit sich selbst ab, statt die Prüfungslösung zu bewerten.

Warum es (noch) nicht funktioniert: Die 4 Hauptprobleme

Problem 1: Abbrüche bei PDFs und Word-Dokumenten

Trotz der großen Kontextfenster moderner Modelle führten PDFs und Word-Dokumente regelmässig zu Abbrüchen. Die Lösung: Alles in .txt-Files umwandeln. Erst dann wurden die Daten sauber verarbeitet.

Problem 2: Mathe-Probleme beim Zusammenzählen

Die Punktevergabe besteht aus vielen Teilaufgaben, die zusammengezählt werden müssen. Hier passieren Fehler:

  • Falsche Addition von Teilpunkten
  • Rundungsfehler bei halben Punkten
  • Inkonsistenz bei mehrmaligem Durchrechnen

Ich fühlte mich zurückversetzt in die Zeit von GPT-4, wo Berechnungen ein Glücksspiel waren. Das ist frustrierend, wenn man an die Fortschritte bei komplexen Finanzberechnungen (wie in der Prüfungslösung selbst) denkt.

Problem 3: Verwechslungsgefahr zwischen Musterlösung und Prüfungslösung

Copilot und Gemini haben dieses Problem deutlich gezeigt: Beide vergaben teilweise oder komplett die Maximalpunktzahl, obwohl Fehler in der Prüfungslösung vorhanden waren.

Warum das passiert: Die Agenten haben sowohl die Musterlösung als auch die zu bewertende Lösung im Kontext. Es ist anscheinend naheliegend, dass sie diese beiden verwechseln.

Problem 4: Inkonsistenz bei wiederholten Korrekturen

Ich testete mehrfach, ob die Agenten bei identischem Input gleiche Punktzahlen vergeben. Ergebnis: Nein.

Bei gleicher Prüfungslösung schwankten die Punktzahlen um 0.5 bis 1.5 Punkte. Bei Finanzprüfungen, wo Präzision entscheidend ist, ist das schwierig.

Diese Variabilität macht KI-Korrekturen unzuverlässig für rechtssichere oder faire Bewertungen.

Mein Fazit: Der Rotstift bleibt uns vorerst erhalten

Die Technologie ist weit. Beeindruckend weit. Dass KI-Agenten Prüfungen mit maximal 0.75 Punkten Abweichung korrigieren können, ist beachtlich.

Aber: Die Fehlerquote ist für den produktiven Einsatz zu hoch. Systematische Fehler (ChatGPT Thinking bei 30.50 “steckenbleibend”), Verwechslungen (Copilot, Gemini) und Inkonsistenz (unterschiedliche Punktzahlen bei identischem Input) machen KI-Korrekturen unzuverlässig.

Picture of Roman Kalberer

Roman Kalberer

15. Dezember 2025

Diesen Beitrag teilen

Warenkorb
Nach oben scrollen