„HyPlag“ (Hybrid Plagiarism Detection)

Wuppertaler Forscher arbeiten daran, Plagiate zuverlässiger zu erkennen

Red.

Das System „HyPlag“ geht über das reine Auffinden identischer Textstellen hinaus und identifiziert auch auffällige Ähnlichkeiten nicht-textueller Elemente.
Grafik: Bela Gipp

HyPlag
 
Wuppertaler Forscher arbeiten daran, Plagiate zuverlässiger zu erkennen
 
Software zur Plagiatserkennung soll dabei unterstützen, wissenschaftliche Arbeiten auf kritische Textstellen wie zum Beispiel nicht markierte Zitate oder fehlende Quellenangaben zu untersuchen. Vereinfacht zusammengefasst geht das so: Das zu überprüfende Dokument wird digitalisiert in das System geladen und automatisch mit vorhandenen Quellen einer oder mehrerer Datenbanken verglichen. Soweit die Theorie. In der Praxis stellt sich die Überprüfung als gar nicht so leicht heraus. Wissenschaftler der Bergischen Universität Wuppertal arbeiten daher an der Entwicklung von „HyPlag“ (Hybrid Plagiarism Detection) – einem System, das leistungsfähiger und zuverlässiger in der Identifikation auffälliger, inhaltlicher Ähnlichkeiten ist.

Beim Einsatz von Softwaresystemen zur Plagiatserkennung müssen Nutzer einiges bedenken. Effektivität und Bedienbarkeit weisen häufig Mängel auf. Liegen die Datenbanken der genutzten Anwendungen zudem auf Servern im Ausland, ist der Einsatz hinsichtlich des Datenschutzes problematisch, denn nicht immer ist klar, was genau mit den Dokumenten passiert oder welche Urheberrechte dabei an die Anbieter abgetreten werden.
„Bei HyPlag geht es zunächst darum, ein System zu entwickeln, das mehr leistet als den reinen Textvergleich. Um Ideen- oder Übersetzungsplagiate in Forschungspublikationen – wie z.B. in Zeitschriftenartikeln, Doktorarbeiten aber auch Stipendien- und Drittmittelanträgen – aufzudecken, müssen auch Bilder, Grafiken, Formeln und Quellenverweise überprüfbar sein“, erklärt Norman Meuschke, Wissenschaftlicher Mitarbeiter am Lehrstuhl für Data & Knowledge Engineering von Prof. Dr. Bela Gipp. Meuschke arbeitet im Rahmen seiner Promotion an der Entwicklung von HyPlag.
Auf Basis bestätigter Plagiate hat das System bereits viel gelernt: „Die Erkennung läuft gut“, bewertet Meuschke. HyPlag geht über das reine Auffinden identischer Textstellen hinaus: So ist das System bereits in der Lage, Paraphrasierungen zu erkennen. Außerdem arbeiten die Wissenschaftler derzeit daran, Verfahren zu integrieren, die erkennen, wenn sich der Schreibstil innerhalb eines Dokumentes ändert. „Solche Schreibstiländerungen können ein Hinweis auf nicht deklarierte Textübernahmen sein“, so Meuschke.
Dahinter stecken von den Forschern vorprogrammierte Algorithmen, ebenso wie maschinelle Lernverfahren. Die Benutzer erhalten nach erfolgter Analyse eine Ergebnisübersicht zur schnellen Überprüfung von identifizierten Ähnlichkeiten sowie eine detaillierte Vergleichsansicht, um betroffene Dokumentstellen näher zu betrachten – darin enthalten sind dann eben nicht nur identische Textstellen, auch auffällige Muster in den verwendeten Quellenverweisen oder ein potentiell vorliegender Ideenklau beim Anfertigen einer Grafik wird markiert. „Die Analyse von nicht-textuellen Merkmalen, wie Quellenverweisen, Abbildungen und auch mathematischen Inhalten, hilft, ein großes Problem aktueller Systeme, die nur den Text analysieren, zu lösen: Übersetzungsplagiate“, erklärt Meuschke. Zu erkennen, daß Text aus einer anderen Sprache übernommen wurde, das war bisher kaum möglich. Auch Formeln würden aktuelle Systeme vollkommen ignorieren, was die Analyse mathematischer Publikationen enorm erschwert.
Mittelfristig soll HyPlag zu einer offenen Plattform entwickelt werden, die als Serviceleistung auch von anderen Universitäten genutzt werden kann. „Ziel ist es, einen unabhängigen Dienst aus öffentlicher Hand bereitzustellen. Damit ließen sich auch die Themen Datenschutz und Urheberrecht besser überblicken“, so Prof. Gipp. Doch bis es so weit ist, sind noch einige Entwicklungsschritte notwendig, die auch finanziert werden wollen. Meuschke: „Um eine solche Plattform zur Verfügung zu stellen, muß natürlich auch die IT-Infrastruktur passen. Zum Beispiel muß die Sicherheit der Nutzerdaten garantiert sein und sehr große Dokumentbestände so verwaltet werden, daß das System zu überprüfende Dokumente schnell mit ihnen vergleichen kann. Außerdem sollte das System leistungsfähig genug sein, um auch zahlreiche gleichzeitige Nutzeranfragen verarbeiten zu können. Das bedeutet entsprechend viel Arbeit neben der reinen Entwicklung der Erkennungsalgorithmen.“ Um diese Pläne weiter verfolgen zu können, laufen bereits die Anträge für Fördergelder bei der Deutschen Forschungsgemeinschaft (DFG).
„Eine Software alleine kann nie in der Lage sein, über Plagiate zu entscheiden. Aber wir können damit das System anbieten, um eine Expertenkommission, die im Verdachtsfall weitere Entscheidungen treffen muß, zu unterstützen und ihre Arbeit um ein Vielfaches zu erleichtern“, betonen Gipp und Meuschke.
 
Mehr Informationen: