„Angriff“ auf die Buchführung? Betriebsprüfung in Zeiten von Big Data und Monetary Unit Sampling

Fehler in der Buchführung als Drohkulisse der Betriebsprüfung?

Nur eine ordnungsgemäße Buchführung kann der Besteuerung zugrunde gelegt werden (§ 158 AO). Vor diesem Hintergrund hört es sich schon brisant an, wenn Vertreter der Finanzverwaltung formulieren, dass ein einziger Fehler aus einer Stichprobe von Finanzbuchhaltungsdaten die Beweiskraft der Buchführung erschüttern und die Schätzungsbefugnis durch die Betriebsprüfung eröffnen kann. Mit einer solch effektvollen Aussage wird man im Zusammenhang mit der Anwendung des Monetary Unit Sampling zur Überprüfung von Massendaten konfrontiert. Sie ist im ersten Moment furchterregend, weil sie flächendeckende Steuermehrergebnisse impliziert. Bei Lichte betrachtet muss sie aber relativiert werden. Aber der Reihe nach…

Anforderungen an eine ordnungsmäßige Buchführung

Alle Beteiligten im Besteuerungsverfahren sind sich bewusst, dass es in Zeiten von exponentiell wachsenden Datenmassen nicht mehr möglich ist, jeden einzelnen Geschäftsvorfall auf seine steuerliche Richtigkeit zu prüfen. Das geht dem Steuerpflichtigen so und auch der Betriebsprüfung. Um das Risiko von Fehlern zu reduzieren, hat der Steuerpflichtige interne Kontrollsysteme (IKS) einzurichten (GoBD, Tz. 100). Verfügt der Steuerpflichtige über ein wirksames IKS oder Tax CMS besteht die Vermutung, dass Fehler mit einer angemessen hohen Wahrscheinlichkeit entweder nicht passieren oder diese identifiziert und anschließend korrigiert werden. Jedenfalls dann kann die Ordnungsmäßigkeit der Buchführung bei fallweise gefundenen Fehlern nicht per se bezweifelt werden.

Der Grundsatz der Ordnungsmäßigkeit verlangt es nämlich nicht, dass die Buchführung zu 100% fehlerfrei sein muss. Denn Menschen wie Maschinen unterlaufen Fehler und auch ein IKS findet nicht jeden Fehler. Ein wie auch immer vom Betriebsprüfer gefundener Fehler ist also nicht zwingend ein Indiz dafür, dass die Beweiskraft der Buchführung erschüttert ist. Objektive Ordnungsmäßigkeit verlangt neben der Einhaltung von formalen Anforderungen an die Haltung von Büchern, dass die steuerrelevanten Daten qualitativ hochwertig generiert bzw. verarbeitet werden und sich das Fehlerpotenzial in einem tolerierbaren Bereich („Fehlertoleranz“) bewegt. Diese Sicht auf die Dinge nehmen auch Wirtschaftsprüfer bei ihrer Beurteilung ein, ob durch die Bilanz und GuV ein zutreffendes Bild der Vermögens-, Finanz- und Ertragslage vermittelt wird. Die materielle Ordnungsmäßigkeit wird also im Ergebnis unter Wesentlichkeitsaspekten bewertet.

Einsatz von Datenanalysemethoden in der Betriebsprüfung

Diese Grundhaltung wird auch von den meisten BetriebsprüferInnen geteilt. Aus Sicht der BP-Praxis ist es wichtig, dass diese Grundhaltung nicht erodiert, wenn sich die Betriebsprüfung zunehmend auf die datengetriebene Fehlerfindung ausrichtet und dabei Prämissen formuliert und Methoden angewendet werden, die auf das Prüffeld nach wissenschaftlichen Maßstäben nicht sachgerecht angewendet werden dürfen. Es ist also aus Unternehmens- und Beratersicht ein Augenmerk darauf zu legen, dass der Betriebsprüfer methodisch „sauber“ arbeitet. Das fängt schon dabei an, wie der Betriebsprüfer das Prüffeld filetiert bzw. die Stichprobe zieht. Methodische Mängel sollten früh erkannt und angesprochen werden, um eine schnell emotional eskalierende Debatte über die Ordnungsmäßigkeit der Buchführung zu vermeiden.

Vor diesem Hintergrund ist auch die Aufforderung des Bundesrechnungshofs zu begrüßen, dass durch das BMF länderübergreifende Standards für den Einsatz von quantitativen Prüfungsmethoden geschaffen werden (Link). Denn die Entwicklungen zum Einsatz von IT-gestützten Datenanalysen sind in den Bundesländern heterogen ausgeprägt. Ein bundesweit einheitlicher Steuervollzug ist nicht gewährleistet, weshalb die gleichmäßige Besteuerung gefährdet ist. Aber auch die Gerechtigkeit des Steuervollzugs im Einzelfall ist gefährdet, wenn Betriebsprüfer von Oberbehörden dabei alleingelassen werden, die neuen Methoden richtig anzuwenden. Wenn ein Prüfer dazu angehalten wird, sich von der sog. Daumenkino-Methode loszusagen, bei der wesentliche Geschäftsvorfälle unsystematisch und selektiv auf ihre Richtigkeit überprüft werden, dann ist ihm auch das erforderliche methodische Rüstzeug zu vermitteln. Andernfalls drohen neue und wesentliche Konfliktpotenziale, wenn mangels Know-How falsche Analysemethoden angewendet werden. 

Das jeweilige Prüffeld bestimmt entscheidend darüber, ob Datenanalysen – wie bspw. das Monetary Unit Sampling (s.u.) – sinnvoll einsetzbar sind. In der Regel erfordert das Prüffeld eine Grundgesamtheit, die eine kritische Masse an Datensätzen bzw. Geschäftsvorfällen enthält. Zu denken ist bspw. an das Prüffeld Vorsteuerabzug. Dann stellt sich die Frage, wie groß die Stichprobe sein muss, damit für das Prüffeld eine repräsentative Anzahl an Fällen selektiert wird, die einer Einzelfallprüfung durch den Betriebsprüfer zu unterziehen ist. In die Festlegung der Größe der Stichprobe fließt ein, welche Fehlererwartungen der Betriebsprüfer in Bezug auf das jeweilige Prüffeld – ggf. aus Erfahrungen aus Vor-Betriebsprüfungen – hat. In die Eingrenzung der statistischen Fehlererwartung ist auch einzubeziehen, ob der Betriebsprüfer das Tax CMS oder IKS für wirksam hält (so auch Schlegel, Steuerliche Betriebsprüfung 2020, Seite 350 (351)). Ferner spielt für die Bestimmung des Stichprobenumfangs eine Rolle, welche Wesentlichkeits- bzw. Fehlergrenze der Betriebsprüfer noch bereit ist hinzunehmen, dass Fehler aufgrund der Stichprobenprüfung mitunter unentdeckt bleiben. Der Betriebsprüfer setzt bei Anwendung der Methode also – wie ein WP – die „Wesentlichkeitsbrille“ auf.

Monetary Unit Sampling als ein Beispiel für eine „neue“ Prüfungs- und Schätzmethode

Einige Landesfinanzverwaltungen haben das Monetary Unit Sampling bereits in Betriebsprüfungen im Einsatz. Diese Methode ist in der Wirtschaftsprüfung schon seit Jahrzehnten erprobt und eignet sich insbes. für Prüffelder mit großen Datenmengen und geringer Fehlererwartung. Auch die EU-Kommission zählt Monetary Unit Sampling zu den geeignetsten und am häufigsten eingesetzten Stichprobenverfahren für Prüfzwecke (Link). Es handelt sich hierbei um ein statistisches Stichprobenverfahren, bei dem die Geldeinheit als Hilfsvariable für die Probenahme verwendet wird (Stichprobe in Geldeinheiten). Dieser Ansatz beruht in der Regel auf einer systematischen Stichprobenziehung, bei der die Wahrscheinlichkeit in einem proportionalen Verhältnis zur Größe steht, d.h. in einem proportionalen Verhältnis zum Geldwert der Stichprobeneinheit (Elemente mit hohen Werten werden mit größerer Wahrscheinlichkeit ausgewählt).

Beispiel (nach Schlegel, Steuerliche Betriebsprüfung 2020, Seite 350 (351)): Gegenstand des Prüffelds soll ein beliebiges Aufwandskonto des Steuerpflichtigen sein, das 10.293 Buchungssätze enthält (bereinigt um Storno- und Umbuchungen) und einen Kontosaldo von 12.563.123 EUR aufweist.

Der Kontosaldo bildet die Summe der einzelnen Aufwandsbuchungen und zugleich die „monetäre“ Grundgesamtheit. Aus dieser wird die Stichprobe (das „Sample“) für die Anwendung des Monetary Unit Sampling gezogen. Der Prüfer erwartet hier keine großen Unwuchten, sondern geht vielmehr davon aus, dass die Daten grundsätzlich eine hohe Qualität haben. Er stellt also im Ausgangspunkt die zu testende Hypothese auf, dass die Buchführung ordnungsgemäß ist.

Um den Stichprobenumfang in einem vereinfachten Verfahren festlegen zu können, der eine aussagekräftige Grundlage für den Hypothesentest bildet, sind Wesentlichkeitsgrenze (bzw. Fehlertoleranzgrenze) und Konfidenzniveau zu bestimmen. In der Betriebsprüfungspraxis ist häufig eine Wesentlichkeitsgrenze von 3% und ein Konfidenzniveau von 95% zu beobachten. Legt man diese Prozentsätze bei der angenommenen hypergeometrischen Verteilung der Geldeinheiten – der Monetary Units – zugrunde, führt dies zu einem Stichprobenumfang von 99 Fällen (auf die mathematische Gesetzmäßigkeit wird hier nicht näher eingegangen; zur Abhängigkeit des Stichprobenumfangs von dem Konfidenzniveau und von der Wesentlichkeitsgrenze s. Giezek/Wähnert/Becker, Steuerliche Betriebsprüfung 2016, Seite 347 (348 f.)).

Über Division des Stichprobenumfangs (99) durch die Grundgesamtheit (12.563.123 EUR) gelangt man zur Intervallgröße (126.900,23 EUR), die die Geldeinheiten der Grundgesamtheit in gleichgroße Blöcke aufteilt. Da die Geldeinheiten innerhalb der Blöcke gleichverteilt sind, kann hierüber auch der erwartete Fehler für die Grundgesamtheit extrapoliert werden. Der erwartete Fehler – auch als Most Likely Error bezeichnet – errechnet sich aus der Anzahl an tatsächlich gefundenen Fehlern in der Stichprobe multipliziert mit der v.g. Intervallgröße. Werden bspw. im Rahmen der Prüfung der Stichprobenelemente 3 Fehler gefunden (vereinfachende Annahme von 100%-Fehlern), ergibt sich für die Grundgesamtheit ein Most Likely Error in Höhe von 380.700,69 EUR (= 3 x 126.900,23 EUR). Dieser Betrag wird mit dem maximal akzeptierten Fehlervolumen abgeglichen; das maximale Fehlervolumen berechnet sich wiederum aus dem Produkt von Wesentlichkeitsgrenze (3%) und Grundgesamtheit (12.563.123 EUR). Überschreitet der Most Likely Error (380.700,69 EUR) wie im Beispielsfall den Betrag des maximal akzeptierten Fehlervolumens (376.893,69 EUR = 3% x 12.563.123 EUR), ist von einem wesentlichen, d.h. nicht tolerierbaren Fehlerpotenzial in der Grundgesamtheit auszugehen. In diesem Fall neigt die Betriebsprüfung dann einer schätzungsbasierten Aufwandskürzung in Höhe des Most Likely Error.

Von der extrapolierten Hinzuschätzung ausgenommen werden solche Fehler, die bspw. auf einen Fehler in den Systemeinstellungen der EDV zurückzuführen sind; diese werden entsprechend systemisch korrigiert. Werden im Zuge der Einzelprüfung erhebliche formelle Mängel (z.B. Verstoß gegen Aufzeichnungspflichten) festgestellt, kann eine Anwendung von Monetary Unit Sampling ausgeschlossen sein.

Gedanken zum Umgang mit Schätzungsszenarien auf Basis quantitativer Methoden

Über die zunehmende Bedeutung des „Data Mining“ in der Betriebsprüfung haben wir schon in verschiedenen Blogbeiträgen berichtet (z.B. „Datenanalysen und Kommunikationssysteme im Fokus der Verwaltungsgrundsätze 2020“ oder „Mit dem digitalen Datenabdruck Steuergestalter erkennen und Steuerhinterzieher entlarven„). Dabei darf aber nicht verkannt werden, dass sich die Finanzverwaltung teils noch im „Experimentierstadium“ mit der Anwendung von quantitativen Methoden befindet. Das obige Beispiel zeigt auch nur in absoluten Grundzügen die Herangehensweise beim Monetary Unit Sampling auf. Im Detail ist die Anwendung dieser Methode deutlich komplexer. Dies zeigen die elaborierten Ausführungen zum Thema Monetary Unit Sampling bspw. in den zitierten Leitlinien der EU-Kommission zu Stichprobenverfahren für Prüfbehörden (Link) oder die Dissertation von Giezek. Fehlendes Know-How auf Prüferseite muss daher identifiziert und entsprechend fundiert festgestellt werden, um eine sachfremde Methodenanwendung und unnötige Debatten zu vermeiden. In vielen Prüfungsfällen wird es auch nicht damit getan sein, einfach nur eine Softwarelösung mit standardmäßig vorgegebenen Annahmen über das Prüffeld laufen zu lassen, sondern man wird sich über die Angemessenheit der getroffenen Annahmen im konkreten Einzelfall und die sachgerechte Interpretation des ausgeworfenen Ergebnisses der Prüfsoftware zu unterhalten haben. Ferner ist es auch noch nicht abschließend geklärt, ob der vielfach angenommene Sicherheitsgrad von 95% (s.o. zum Konfidenzniveau) belastbar genug ist, um die Beweiskraft der Buchführung zu erschüttern und Schätzungsbefugnisse auf Grundlage der quantitativen Methode zu eröffnen.

Um es aber gar nicht erst auf solche Diskussionen hinauslaufen zu lassen, ist man gut beraten, wenn man seine Systeme so aufsetzt und administriert, dass man die Anwendung von Monetary Unit Sampling & Co. nicht fürchten muss. Mein Bloggerkollege Gregor Danielmeyer spricht hier gerne von der berühmten Prophylaxe! Erstrebenswert ist es, den Hypothesentest zu bestehen, um ein Schätzszenario im Ansatz zu vermeiden. Eine hochgradige Standardisierung und Automatisierung von Geschäfts- und Verwaltungsprozessen reduziert das Fehlerrisiko deutlich. Unbeschadet dessen sollten zur laufenden Qualitätssicherung von Daten und Prozessen IT-gestützte Datenanalysen – u.a. mittels Monetary Unit Sampling – gefahren werden, um verbliebene Fehlerpotenziale sozusagen in Vorbereitung auf die nächste Betriebsprüfung erkennen und bereinigen zu können.