🧠Eidgenössische Expertenprüfung: ChatGPT, Claude, Gemini, Deepseek im Vergleich.

Erst vor kurzem hat OpenAI ihre neuen ChatGPT-Modelle o3 und o4 mini high veröffentlicht. Wohl nicht umsonst, denn die Konkurrenz klopft an: Gemini 2.5 Pro und Claude 3.7 Sonnet. Und auch Deepseek performt. Da ich bei ChatGPT das Bezahl-Modell von Pro auf Plus runter gestuft habe, teste ich jetzt dafür die Bezahlversionen von Claude/Gemini. Für mich ein guter Test weiterhin die eidgenössische höhere Fachprüfung für Expert:innen Controlling (2021), der 15-seitige Teil “Corporate Finance”.

Da alle Anbieter mit grösseren Kontextfenstern “werben”, habe ich die 15-seitige Aufgabe gesamthaft zum Lösen einkopiert respektive versucht diese auch als pdf hochzuladen. Früher konnte ich jeweils nur Aufgabe um Aufgabe lösen lassen.

Der Inhalt der gesamten Aufgabe ist nicht ohne😀:
1. Berechnung Eigenkapitalkostensatz (nach CAPM); 2. Plan-Erfolgsrechnung und Plan-Bilanz (4 Jahre); 3. Mittelflussrechnung, 4. EVA-Conversions (Produktionsanlagen, F+E-Kosten), 5. Netto Operating Assets (NOA), 6. EVA-Ermittlung, 7. Spread ROIC – WACC, 8. Identifikation Wertgeneratoren, 9. 10 Multiple Choice-Fragen zum allgemeinen Verständnis

🔍 Ergebnisse im Detail nach meinem persönlichen Ranking:

➔ OpenAI O3 (Zahlversion):
Das stärkste Modell. 95% der Aufgaben direkt richtig gelöst. Schwächen: Fehler in der FK-Zinsberechnung im 4. Jahr (Plan-ER) sowie im Bankkontokorrent in der Plan-Bilanz. Nach einmaligem Hinweis wurden alle Fehler samt Folgefehlern korrigiert. Überraschend: Bei den Multiple-Choice-Fragen schnitt O3 mit nur 8/10 richtigen Antworten am schlechtesten ab. Spannend: O3 erkennt im pdf, dass es eine Prüfung ist und verweigert die Lösung.

➔ Gemini Advanced 2.5 Pro (Zahlversion)
Positive Überraschung! Sehr stark bei der Erstlösung. Gleiche kleine Fehler (FK-Zinsen, Kontokorrent), aber ansonsten fast alles korrekt.
Auch bei den Multiple Choice: Alle Fragen richtig! Nach kurzem Nachfassen → fehlerfreie Version. Fazit: Fast auf Augenhöhe mit O3.

➔ Claude 3.7 Sonnet (Zahlversion)
Eigenkapitalkostensatz im ersten Anlauf falsch berechnet. Insgesamt aber ähnliche Qualität wie O3 bei der Aufgabenlösung. Gleiche Schwächen wie O3 bei FK-Zinsen und Kontokorrent. Problem bei der EVA-Ermittlung (kalkulatorische Steuern). Nach Nachfrage wurden einige Fehler korrigiert, aber nicht alle. Fazit: Leicht hinter O3 und Gemini.

➔ DeepSeek Reasoning (Free Version)
Sehr spannende Ergebnisse: Zwar nur Teillösungen auf einmal, aber was geliefert wurde, war praktisch 100% korrekt. Eigenkapitalkostensatz, Multiple Choice → fehlerfrei. Fazit: Auf Augenhöhe mit Top-Modellen, aber Teil-Aufgaben müssen einzeln eingegeben werden.

➔ OpenAI O4 mini high (Zahlversion)
Im ersten Durchlauf am schwächsten: Verwechslung von Jahres-Spalten. Nach Feedback: Schnell korrigiert – fast auf dem Niveau von O3. Erkenntnis: Gutes Modell, aber (noch) nicht so zuverlässig im Erstversuch wie O3.

Picture of Roman Kalberer

Roman Kalberer

27. Oktober 2025

Diesen Beitrag teilen

Warenkorb
Nach oben scrollen