Es passiert nicht alle Tage, dass meine beiden Interessen – Plagiat und Automated Content – in ein und derselben Story zusammentreffen: Am 15. April 2019 ging die Jubelmeldung durch alle Medien: Das erste vollständig von einem Algorithmus „verfasste“ wissenschaftliche Buch sei veröffentlicht worden. Der 278 Seiten starke Forschungsüberblick zu Lithium-Ionen-Batterien sei ein „wichtiger Meilenstein“, freute sich der Verlag.
WissenschaftsjournalistInnen haben offenbar keine Zeit oder keine Kompetenzen (mehr), um Jubelmeldungen von Verlagen oder aus der Wissenschaft kritisch zu überprüfen. Zur journalistischen Sorgfaltspflicht hatte dies einmal gehört. Zumindest irgend jemand hätte auf die Idee kommen können, das von Software generierte Buch, das im Internet mit nur einem Klick kostenlos heruntergeladen werden kann, mit geeigneter Software auf Plagiat zu überprüfen. Wenn schon eine Software Texte „schreibt“, sollte auch eine (andere) Software prüfen, ob diese Software taugt. Oder? Nun ja, das Ergebnis einer Prüfung mit Turnitin ist eindeutig: Das Buch stammt zu 19 Prozent aus dem Paper „Recent progress in cobalt-based compounds as high-performance anode materials for lithium ion batteries“, erschienen 2017 in der Fachzeitschrift „Rare Metals“, ebenfalls bei Springer. Ein Inhouse-Plagiat sozusagen. Aber deshalb wohl nicht minder problematisch.
Die Übereinstimmungen mit Texten aus dem Internet und der Turnitin-Datenbank machen insgesamt 41 Prozent aus.
Quelle: S. 15 von https://link.springer.com/content/pdf/10.1007%2F978-3-030-16800-1.pdf
PS: Natürlich ist im (vom menschlichen Forscher geschriebenen) Vorwort zum Buch die Rede von einer „cross-corpora auto-summarization of current texts from Springer Nature’s content platform ‚SpringerLink'“ (S. v) und von „similarity-based clustering“ (ebenda). Anhand von zwei Beispielen wird auch das Paraphrasieren von Originalen gezeigt (S. xix). Dass aber ganze Absätze inklusive Literaturreferenzen einfach kopiert und nur leicht verändert wurden, kann wohl nicht Sinn der Sache gewesen sein. Der virtuelle Autor „Beta Writer“ ist also kein guter Schreiber. Er ist lediglich schlauer gewesen als die JournalistInnen, die auf ihn reingefallen sind.
PPS: Der Blog-Autor ist sich dessen bewusst, dass die naturwissenschaftliche Zitierweise anderen Regeln als die geisteswissenschaftliche gehorcht.
Der Beitrag ist ja nun schon etwas älter, aber ich habe ihn gerade erst gesehen.
Leider beruht er auf einem Missverständnis darüber, was dieser Text ist und sein soll. Ehrlich gesagt wurde nie etwas anderes behauptet, als dass wir extraktive Textzusammenfassung und Paraphrasierung machen, das steht genau so im Vorwort. Der Beitrag ist auch keineswegs, originell zu schreiben (das ist sehr einfach), sondern *verifizierbar* zusammenzufassen.
Tatsächlich ist die Extraktion (= „Textklau“) systembedingt bei 100% (!), und ist *immer* (für jeden einzelnen Satz) mit Quellenangabe gekennzeichnet (besagtes Paper wird wohl „[29]“ sein), für den Fall, dass längere Phrasen wörtlich übereinstimmen, sogar als wörtliche Rede (wie oben „The stability …“). Dass da nur 41% Textübereinstimmung herauskommen, zeigt eigentlich, wie gut die Paraphrasierung funktioniert, denn 59% hält er für originell (ich gehe mal davon aus, dass Turnitin auf das komplette Springer-Archiv zugreift, das war die einzige Datenquelle). Was man übrigens auch in Ihrem Ausschnitt sieht, ist, dass die Sätze nicht absatzweise extrahiert wurden, sondern immer wieder von Beiträgen aus anderen Quellen unterbrochen werden. Ein wichtiger Beitrag des Verfahrens besteht denn auch in der Reorganisation vorhandener Information, in der Gewichtung, Auswahl und Kombination unterschiedlicher Quellen liegt der Mehrwert und das durch das Verfahren generierte neue Wissen.
Das ganze so nah an den Quellen zu halten war übrigens keine ganz freiwillige Entscheidung, sondern die Fachkollegen, die die Ergebnisse verschiedener Verfahren evaluiert haben, die wir entwickelt haben, haben sich letztlich für eines entschieden, dass sehr eng an der ursprünglichen Formulierung blieb. Die Herausforderung war, eine Abstraktionsebene zu finden, die einerseits originell genug war, um rechtssicher zu sein (wofür man diesen Text hält, das wurde geprüft), andererseits keine unverifizierten Informationen enthält (was beim Paraphrasieren leicht passieren kann).
Ich kann verstehen, wie das Missverständnis zustandekommt, aber der Begriff „Plagiat“ ist schon wegen der systematischen Quellenangabe unangemessen. Sie haben lediglich nachvollzogen, wie das Verfahren funktioniert (und wie es auch beschrieben wurde, wir sind da ganz transparent).
Ich kann Sie übrigens beruhigen: Wir arbeiten aktuell daran, das damalige extraktive Verfahren durch ein abstraktives zu ersetzen. Direkten Text-Reuse wird es damit nicht mehr geben.