Steuergesetze in der semantischen Netzwerkanalyse

Taxy.io arbeitet an der semantischen Analyse von steuerrechtlichen Texten wie Gesetzen, Richtlinien und Urteilen, um ein maschinelles Verständnis dieser Texte aufzubauen und für individuelle Fragestellungen gezielte Lösungshinweise aus der Rechtslehre zu geben.

Anwendung findet diese Technologie, die ständig in der Weiterentwicklung ist, bei ausgewählten Kunden und Software-Programmen von Drittanbietern.

Zum besseren Verständnis der primären Datengrundlage sowie zum Ableiten von Zusammenhängen und Rankings wurde kürzlich mit einer Netzwerkanalyse experimentiert. Dabei wurde untersucht, wie zehntausende Rechtstexte über Paragraphen-Referenzen und Zitationen miteinander verknüpft sind. Diese Zwischenergebnisse sind nachfolgend zusammengefasst.

Aufbau des Netzwerks

Die Netzwerkanalyse wurde auf der Basis von ca. 6.500 Gesetzen und Richtlinien sowie 45.000 Urteilen durchgeführt.

Eine Schwierigkeit dabei ist, dass es dutzende verschiedene Darstellungsformen und Verkettungen von Referenzen gibt, bspw. „§3 Absatz 4 Satz 1 Einkommensteuergesetz” oder “§3 Abs. 4 S. 1 EstG”.

Insofern war der nächste Schritt eine intelligente Grammatik zu entwickeln, die möglichst viele Referenzformen erkennt. Ignoriert wurden hierbei Auto-Referenzen innerhalb der Paragraphen oder Artikel eines Gesetzes oder Urteils auf sich selbst, da nur die Abhängigkeit von einem Dokument zu einem anderen interessiert.

Auf Basis der erkannten Referenzen in den Originaltexten wurde anschließend ein gerichteter Graph entwickelt, der die Verweise von einem Urteil oder einem Gesetz auf ein anderes Dokument in der Datenbank repräsentiert. Jeder Paragraph bzw. Artikel wird dabei als ein Dokument interpretiert. Dieser Graph wurde in einer speziellen Datenbank abgelegt, die für umfangreiche Graphen konzipiert ist. Die Kalkulationen wurden auf der Open Telekom Cloud durchgeführt, zu der Taxy.io als ausgewähltes Startup des TechBoost-Programms vergünstigten Zugang hat.

Schließlich konnte erstmals die Vernetzung von zehntausenden Rechtsdokumenten in Deutschland sichtbar und digital verarbeitbar gemacht werden.

Überblick des Netzwerks

Was hier aussieht wie eine Galaxie mit unzähligen Sternen, stellt das deutsche Rechtssystem dar. Neben den extrahierten Dokumenten, die als ca. 137.000 Punkte dargestellt sind, erkennt man außerdem ca. 17.3000 Verbindungslinien zwischen zwei Punkten (sog. gerichtete Kanten) zu erkennen, die die Referenzen von einem Dokument auf ein anderes repräsentieren. Dabei symbolisieren türkisfarbene Punkte die Gesetze, Verordnungen und Richtlinien, die violetten Knoten die zugehörigen Paragraphen und Artikel, sowie die gelben Punkte die Rechtsprechung.

Darüber hinaus gibt es zahlreiche Knoten, die wie entfernte Kometen nicht mit dem Gesamtwerk verbunden zu sein scheinen. Dies sind ausnahmslos Paragraphen und Urteile, die nicht auf anderen Dokumente innerhalb des Datenpools referenzieren.

Außerdem ist sichtbar, dass es Knoten gibt, die sehr viele eingehende oder ausgehende Verlinkungen besitzen. Die Spitzenreiter dabei sind die Dokumente zu §§ 8 f. MarkenG und Art. 103 GG. In den §§ 8 ff. des Markengesetzes geht es um Schutzhindernisse bei der Eintragung von Marken und im Artikel 103 des Grundgesetzes um rechtliches Gehör, strafrechtliche Bestimmtheit und den Strafklageverbrauch.

Für die semantische Suchtechnologie auf steuerrechtlichen Texten sowie dem intelligenten Matching von Mandantendaten auf Steuerthemen werden diese “Gewichte” an den Kanten verwendet, um die Relevanz bzw. Wichtigkeit von Dokumenten und Referenzen ableiten zu können. Ein Dokument, das von vielen wichtigen Dokumenten referenziert wird, zählt dabei als ebenfalls wichtiges Dokument. Ein ähnliches Prinzip hat Larry Page, der Gründer von Google, verwendet, um seinen PageRank bei der Sortierung in der Google-Ergebnisliste einzuführen.

Zoom ins Steuer-Cluster

Die gesamte “Galaxie” des deutschen Rechts zu verwalten, ist auch für moderne Datenbanken ein Kraftakt. Daher hat das Team von Taxy.io sich für die weitere Analyse der für sie relevanten Rechtsthemen auf ein Sub-Cluster Steuern fokussiert. Hieraus kann für die Taxy.io-Produkte auch der größte Mehrwert gezogen werden.

Da das gesamte Steueruniversum – offensichtlich – immer noch sehr umfangreich ist, wurden thematische Cluster gebildet.

Ausgangspunkt dafür war die Berechnung von „Communities“ mit speziellen Algorithmen“, wobei hier die „Communities“ um die wichtigen Steuergesetze AO, EStG und UStG und die damit zusammenhängenden Gesetze sowie Urteile gefiltert wurden.

Auch im Steuer-Cluster fallen “Gravitationszentren” ins Auge, also Textteile (Paragraphen von Gesetzen oder Urteile), die besonders stark vernetzt sind und so einen hohen Page-Rank aufweisen.

Auf der einen Seite ist hier die Abgabenordnung (AO) als das „Grundgesetz des Steuerwesens“ zu nennen. Auf der anderen Seite gibt es auch sehr schwach vernetzte Bereiche, wie bspw. das Bewertungsgesetz (BewG).

Bei einem weiteren Zoom ins Steueruniversum fällt auf, dass insbesondere einem Thema sehr viel Primärliteratur gewidmet wurde: der Steuerhinterziehung.

Auf diesen § 370 AO referenzieren mit Abstand die meisten Urteile der durchgeführten Stichprobe (siehe der violette Paragraph, auf den eine Vielzahl an goldenen Urteilen referenziert, westlich des KaffeeStG).

Das dargestellte Sternensystem ist nur eine Momentaufnahme. Wöchentlich kommen durchschnittlich 100 weitere Urteile hinzu und vergrößern den Korpus, den ein Rechtsanwalt oder Steuerberater ständig auf dem Radar haben müsste.

Nächste Schritte & Kontakt

Da es für Mitarbeiter in der Steuerberatung sehr schwierig ist, den Überblick über die aktuell geltende Rechtslage zu behalten, wird diese Technologie in Kombination mit weiteren semantischen Technologien sowie einem Abgleich mit Mandantendaten sowohl als Stand-Alone-Lösung, als auch über Schnittstellen integrierbar in Software der Steuerberatung (CRM, DMS, Buchführung, Kanzleimanagement) angeboten.

Für weitere Infos oder Kooperationen nutzen Sie bitte den direkten Kontakt zu Taxy.io unter info@taxy.io.