Können die aktuellsten KI-Modelle die eidg. Expertenprüfung für Rechnungslegung und Controlling bestehen? Ich habe den Test gemacht. ChatGPT 5.1 (Pro/Thinking), Claude Sonnet/Opus 4.5, Gemini 3.0 und Copilot traten gegen die Prüfung von 2022 an.
Das Ergebnis ist faszinierend und ernüchternd zugleich. Es zeigt: Die Technologie ist weit, aber sie ersetzt noch lange nicht den Experten, der die Plausibilität prüft.
Die Grenzen des Kontextfensters: 120 Seiten sind zu viel
Ich startete mutig mit der gesamten Prüfung (120 Seiten).
- Claude Max: Nahm die Datenmenge an und lieferte hervorragend (Opus 4.5 einmal sogar mit 93/100).
- ChatGPT Pro: Brach die Verarbeitung immer wieder ab.
- Gemini: Kürzte den Input stark zusammen und liess Aufgaben grosszügig aus. Mut zur Lücke.
- Copilot: Verlangte ständig Bestätigungen, um überhaupt weiterzumachen.
Erkenntnis: Sobald die Aufgaben umfangreich und komplex werden, stossen wir an die Grenzen des Kontextfensters. Aktuelle Modelle lösen kleinere, isolierte Aufgabenstellungen gut. Bei Massendaten (wie einer kompletten Prüfung) sinkt die Qualität stark. Zudem variieren die Ergebnisse selbst bei identischem Input, für Finanzaufgaben, wo Präzision zählt, ist das schwierig.
Für einen fairen Vergleich habe ich den Test auf den Teil “Controlling” reduziert (13 Seiten, 17 Teilaufgaben, maximal 35 Punkte). Die Aufgaben hatten es immer noch in sich:
- Geldflussrechnung erstellen
- Korrektur aktivierte Software berechnen
- Bereinigtes Jahresergebnis quantifizieren
- Betriebskosten pro Jahr berechnen
- User-Lizenz-Preis kalkulieren
- Wahrscheinlichkeiten mit Normalverteilung (3×)
- Lebenszyklus-Umsatz bei 40 Usern
- Werthaltigkeit Software beurteilen
- Kommentar Jahresergebnis für VR
- 4 Anforderungen PoC-Organisation
- 4 Positionen Liquiditätsplanung + Quellen
- Vorteile Modell A / Risiken Modell B
- 2 Pricing-Empfehlungen + 3 weitere Risiken
Detail-Learnings pro Modell (inkl. typische Fehlerbilder)
Das Ranking: Wer liefert ab?
Hier die Ergebnisse meines Tests (erster Take mit vollständiger Lösung):
1. ChatGPT Pro (USD 200 Version) – Der langsame Perfektionist
Ergebnis: 33 von 35 Punkten ChatGPT 5.1 Pro lieferte das beste Ergebnis, hat aber seinen Preis, sowohl monetär als auch zeitlich.
- Stärken: Sehr gute analytische Ergebnisse.
- Schwächen: Die Wartezeiten (teils bis 20 Minuten) sind im Alltag kaum praktikabel. Zudem passierte ein klassischer Fehler: Ein Plus-/Minus-Rechen-Fehler in der Geldflussrechnung, von dem man dachte, er gehöre der Vergangenheit an. Auch der wichtige Hinweis auf OR 725 (Unterbilanz) fehlte.
2. Claude Opus 4.5 (Max-Version) – Der Strukturierte
Ergebnis: 31.25 von 35 Punkten Claude ist stark bei grossen Datenmengen und arbeitet sehr strukturiert.
- Die Fehler (6 Stück): Aktivierte Eigenleistungen landeten im operativen statt im Investitions-Cashflow. Die Software-Abschreibung wurde nur für 1 Jahr statt 1¾ Jahre berechnet. Zudem schlug er “Mengenrabatte” vor, wo “Staffelpreise” gefragt waren.
- Fazit: Sehr präzise bei komplexen Berechnungen, aber nicht ganz fehlerfrei.
3. Gemini 3.0 – Der “Kürzer”
Ergebnis: 27 von 35 Punkten Gemini hat leider seine frühere Stärke vom Modell 2.5 (grosse Kontextfenster) eingebüsst.
- Das Problem: In der Version 3.0 tendiert das Modell stark zum Zusammenfassen und Auslassen, selbst wenn man explizit Vollständigkeit fordert. Ganze Teile (Investitions-/Finanzierungsteil) fehlten. Wichtige Abschreibungen wurden übersehen.
- Fazit: Das Auslassen von Informationen ist bei Prüfungsaufgaben schwierig. Version 2.5 wirkte hier in der Verarbeitung noch robuster.
4. Copilot – Der Umständliche
Copilot habe ich aus der Wertung genommen. Das ständige Nachfragen nach Bestätigung stört den Workflow massiv. Für fokussiertes Arbeiten an komplexen Cases ist das Tool derzeit weniger geeignet.
Das kritische Fazit: Variabilität ist ein Problem
Ein Punkt, der selten diskutiert wird, aber entscheidend ist: Ich musste mit dem Lösen der Prüfungsaufgaben mehrfach neu beginnen, verschiedene Prompts testen, Aufgaben in diversen Formaten hochladen.
Die Ergebnisse waren wirklich sehr unterschiedlich, manchmal besser, manchmal schlechter. KI-Modelle bringen unterschiedliche Ergebnisse, selbst mit identischem Input variieren Outputs.
Bei Finanzaufgaben, wo Präzision zählt, ist das ein Problem. Es bedeutet: Man kann sich nicht blind auf ein einziges Ergebnis verlassen. Validierung bleibt Pflicht.
Meine wichtigste Erkenntnis
Die Technologie ist weit, aber sie ersetzt keinesfalls den Experten, der die Plausibilität prüft.
Die Ergebnisse können beeindruckend sein, 33 von 35 Punkten bei ChatGPT zeigen das Potenzial. Aber dann können mit gleichem Prompt vereinfachte und schlicht falsche Ergebnisse kommen.
Das Kontextfenster-Problem bleibt: Bei wirklich umfangreichen Aufgaben (100+ Seiten) stossen aktuelle Modelle an ihre Grenzen. ChatGPT bricht ab, Gemini kürzt, Copilot nervt mit Nachfragen. Nur Claude Max schafft den Umfang, aber auch nicht fehlerfrei.
Praxis-Tipps für den Einsatz von KI bei Finanzaufgaben
- Nutze Claude für umfangreiche Aufgaben: Wenn du 50+ Seiten Analysen hast, ist Claude Opus 4.5 aktuell die beste Wahl.
- Nutze ChatGPT Pro für Tiefenanalysen: Wenn du Zeit hast und höchste Präzision brauchst (und 20 Minuten Wartezeit akzeptierst), liefert ChatGPT Pro hervorragende Resultate.
- Vermeide Gemini 3.0 für umfangreiche Aufgaben: Das starke Kürzen und Zusammenfassen macht es ungeeignet für detaillierte Prüfungen.
- Mehrfach-Testing ist Pflicht: Führe dieselbe Aufgabe 2-3x aus. Wenn die Ergebnisse stark variieren, ist Vorsicht geboten.
- Nutze KI als Assistenten, nicht als Autopilot: KI kann rechnen, analysieren, strukturieren, aber die finale Plausibilitätsprüfung bleibt beim Experten.
- Kontextfenster beachten: Bei 100+ Seiten Aufgaben: Aufgaben in kleinere Teile splitten und dann zusammenführen.
