Praxistest: Wie gut löst KI Buchhaltungsaufgaben?

Ich bin ja immer wieder erstaunt, was mit KI bereits möglich ist, und teste daher gerne alltägliche Aufgaben. Wer eine Ausbildung in der Buchhaltung gemacht hat, kennt vielleicht das Lehrbuch „FIBU 1″ von Carlen, Giannini, Riniker. Also lag es nahe, eine Aufgabe daraus mit KI zu testen.

Mein Test-Setup: Ich habe die folgenden Chatbots getestet:
ChatGPT-5 (Thinking-Modus); Claude Opus 4.1; das neue Claude Sonnet 4.5; Google Gemini Pro 2.5, Manus AI (einen vielversprechender Agent) und zu guter Letzt den erstarkten Copilot von Microsoft (GPT-5-Modell).

Alle bekamen die gleiche Aufgabe als Foto(!) mit 11 einfachen bis mittelschweren Buchungssätzen, wie z.B. hier einfachere Fragen:
– Rechnung eines Lieferanten von CHF 34’000.- für gelieferte Rohmaterialien
– Eine selbst hergestellte Maschine wird mit CHF 130’000.- aktiviert
– Für einen nicht versicherten Wasserschaden trifft die Rechnung von CHF 44’000.- ein.

Dazu habe ich den Kontoplan im Anhang des Buches ebenfalls als Foto hochgeladen.

Das Ergebnis: Ui, da wurde zum Teil kräftig herumhalluziniert, vor allem bei den komplexeren Geschäftsvorfällen! Ich habe teilweise wohlwollend halbe Punkte vergeben, wenn es bereits in die richtige Richtung ging.

🏆Das Ranking (von 11 möglichen Punkten):
🥇 ChatGPT-5: 5 vollständig richtig, total 7.5 Punkte
🥈 Copilot: 4.5 Punkte (aber nur bis Aufgabe 5 gelöst)
➡️ Claude Sonnet 4.5: 2 richtig, total 4 Punkte
➡️ Claude Opus 4.1: 2 richtig, total 4 Punkte
➡️ Gemini 2.5 Pro: 2 richtig, 4 Punkte
➡️ Manus AI: 2 richtig, 3.5 Punkte
➡️ Deepseek: 0 Punkte

Meine Erkenntnisse:
✅Zu meinem Erstaunen hat Copilot (ChatGPT-5) bis zur 5. Aufgabe am besten und wirklich stark performt, hat dann aber abgebrochen und ich bin auch mit Nachfragen nicht mehr in die Spur gekommen. Vermutlich Kontextfenster-Limit erreicht.

✅ChatGPT-5 scheint wirklich am besten abzuschneiden – die anderen Modelle funktionieren vor allem bei den komplexeren Aufgaben noch nicht wirklich überzeugend.

✅ Manus AI lieferte erst beim zweiten Anlauf konkrete Buchungssätze – ein Verhalten, das ich bei diesem Tool bereits mehrfach beobachtet habe.

✅Ich habe dann noch überprüft, ob die Modelle die Fotos überhaupt richtig auslesen und mir die Aufgabe in Textform geben lassen. Das funktioniert erstaunlich gut, aber den Kontenplan vollständig mit allen Konten in ein Excel ausgeben lassen war nicht möglich.

🎯 Mein Fazit: KI beeindruckt mich täglich, aber bei etwas komplexeren
Buchungssätzen zeigen Standard-Chatbots noch Schwächen.

Interessant wären Folgetests mit:
👉 Custom GPTs mit Buchhaltungs-Wissensbasis
👉 KI-Systeme mit Zugriff auf Buchhaltungs-Dokumente (RAG)
👉 Speziell auf Buchhaltungsdaten trainierte Modelle
👉 Multi-Agenten-Systeme mit spezialisierten Rollen (einer kontiert, einer prüft, einer validiert)

Picture of Roman Kalberer

Roman Kalberer

27. Oktober 2025

Diesen Beitrag teilen

Warenkorb
Nach oben scrollen