Warum KI-Texte gefälschte Zitate in den Peer-Review schleusen – und ein praktischer Zotero-Workflow, der jede Referenz in Minuten statt Stunden prüft.

KI-Zitatprüfung für Forschende: Halluzinierte Quellen erkennen, bevor der Reviewer es tut

Letzten Winter schickte uns eine Doktorandin ihr Literaturkapitel. Zweiunddreissig Zitate, sauber formatiert, jede Quelle in der Zotero-Bibliothek. Ein Reviewer markierte eines davon — ein Paper, das nicht existierte. Die DOI lief ins Leere, die Autorinnen hatten nie zusammen publiziert, der Journalband war echt, der Artikel nicht. Sie hatte das Zitat nicht erfunden. Ihr KI-Assistent hatte es sechs Monate zuvor halluziniert, und seitdem stand es in Zotero.

Das ist der neue Fehlermodus im wissenschaftlichen Schreiben. Das Modell formuliert selbstbewusst, das Zitat sieht plausibel aus, und solange niemand das Quell-PDF öffnet und die Behauptung gegen die Seite prüft, reitet die falsche Referenz durch den gesamten Workflow. Gerichte haben es gesehen. Medizinische Journals haben es gesehen. Dissertationen fangen jetzt an, es zu sehen. KI-Zitatprüfung ist kein Nice-to-have mehr — sie ist der tragende Schritt zwischen einem KI-unterstützten Entwurf und einer verteidigungsfähigen Publikation.

Warum manuelle Prüfung nicht skaliert

Der klassische Ablauf ist einfach und überlebt keinen echten Abgabetermin. Quell-PDF öffnen. Stichwort aus der Behauptung suchen. Umgebenden Absatz lesen. Entscheiden, ob die Quelle die Behauptung wirklich stützt, teilweise stützt oder ihr widerspricht. Dreissig Mal wiederholen.

Bei rund fünf Minuten pro Referenz auf einem sauberen PDF sind das zweieinhalb Stunden für ein einziges Kapitel — vorausgesetzt, du verlierst dich nicht in einem Nebenargument in Abschnitt 4. In der Praxis gehen drei Dinge schief:

Überfliegen und Vertrauen unter Zeitdruck. Wenn der Titel passt und das Abstract stimmt, bekommt das Zitat einen Freibrief, den es nicht verdient hat.
Teilweise Unterstützung als volle Unterstützung kodiert. Die Quelle sagt, der Effekt wurde bei Mäusen beobachtet; der Entwurf behauptet, er gelte für Menschen. Das Zitat passiert das Auge.
Sekundärzitate werden nie geprüft. "Wie Smith et al. (2021) anmerken, fand Jones (2018) …" — das Jones-Paper wird selten geöffnet.

Wer schon einmal eine Abschlussarbeit betreut hat, kennt alle drei. Und wer einen KI-Assistenten für ein Literaturkapitel benutzt hat, hat alle drei produziert, ohne es zu merken.

Wie eine "gut genug"-Prüfung aussieht

Bevor wir ein Werkzeug empfehlen, hier die Kriterien, an denen wir einen Prüf-Workflow messen — herstellerneutral, in der Reihenfolge ihrer Bedeutung:

Sie liest die Behauptung und das Quell-PDF, nicht nur die Zitations-Metadaten. Ein DOI-Matcher sagt dir, dass das Paper existiert. Das ist nicht die Frage.
Sie unterscheidet zwischen gestützt, teilweise gestützt und ungestützt. Binäre Urteile verstecken den häufigsten Fehlermodus: das halbrichtige Zitat.
Sie liefert einen Konfidenzwert und ein wörtliches Zitat. Du solltest sehen können, warum der Prüfer zu seinem Urteil kam, nicht nur das Urteil selbst.
Sie erkennt Modell-Uneinigkeit und meldet sie für menschliche Prüfung. Ein einzelnes LLM kann selbstbewusst danebenliegen. Zwei LLMs, die sich uneinig sind, sind das Signal, genauer hinzusehen.
Sie hält deine Quellen auf vertrauenswürdiger Infrastruktur. Für die meisten europäischen Forschenden heisst das FADP- oder DSGVO-konforme Datenverarbeitung — nicht eine US-Consumer-Cloud, die dein unveröffentlichtes Manuskript fürs Training behält.

Diese fünf gelten, egal ob du den Prüfer selbst baust, aus Open-Source-Teilen zusammensetzt oder fertig kaufst.

Der Zotero-native Workflow, den wir gebaut haben

Wir sind in Kundenprojekten — und in unserem eigenen Schreiben — oft genug gegen dieses Problem gelaufen, dass wir ein Werkzeug dafür gebaut haben. Es heisst Acurio und sitzt direkt im Zotero-Workflow, den die meisten Forschenden ohnehin schon nutzen.

Der Ablauf hat drei Schritte:

DOCX exportieren mit eingebetteten Zotero-Zitaten aus Word, Google Docs oder LibreOffice (das Standard-Zotero-Plugin macht das).
Quellen hinzufügen — die PDFs, BibTeX- und RIS-Dateien aus deiner Zotero-Bibliothek. Acurio liest sie direkt ein.
Bericht lesen. Jedes Zitat kommt farbcodiert zurück als gestützt, teilweise gestützt oder ungestützt, mit Konfidenzwert und einem wörtlichen Zitat aus der Quelle.

Wenn sich zwei der prüfenden Modelle bei einem Zitat uneinig sind, mittelt Acurio nicht. Es stellt die strittige Referenz in eine Warteschlange für eine nächtliche Zweitmeinung durch eine andere Modell-Konstellation und liefert das neue Urteil am nächsten Morgen. Das ist die Fehlermodus-Absicherung, die wir empfehlen würden, egal welches Werkzeug du nutzt — Modell-Uneinigkeit ist ein Signal, kein Rauschen.

Ein paar Details, die speziell für das akademische Publikum zählen:

Schweizer Datenverarbeitung unter FADP und DSGVO. Dein unveröffentlichtes Manuskript und deine Quell-PDFs bleiben auf Infrastruktur, die europäischem Datenrecht entspricht. Details zum Datenhandling siehst du unter wie Acurio Zotero-Zitate prüft.
DOCX rein, DOCX raus. Der Analysebericht ist ein Word-Dokument, das du Betreuerin oder Co-Autor übergeben kannst, ohne zwischen Tools zu wechseln.
Funktioniert mit dem Standard-Zotero-Word-Plugin (v6 und v7). Kein neuer Referenzmanager zu lernen.

Wer bereits in Zotero investiert hat — und das tun die meisten arbeitenden Forschenden — bekommt damit den reibungsärmsten Weg von "Ich habe ein KI-Kapitel" zu "Ich weiss, welchen Zitaten ich trauen kann".

Acurio wird bereits von Studierenden an der ETH Zürich, LMU München, IU Internationale Hochschule und Berner Fachhochschule genutzt.

Die Rechnung: Zeit und Kosten

Die Zahlen, die wir mit Kundinnen durchrechnen:

	Manuell	Acurio
Zeit pro 30-Zitate-Kapitel	~2,5 Stunden	~5 Minuten deiner Zeit plus Modell-Laufzeit
Kosten	Dein Stundensatz × 2,5	Einmalige Thesis-Pakete ab CHF 19; Student, Pro, Lab und Lifetime
Erkennt teilweise-gestützte Fehler	Nur bei sorgfältigem Lesen	Ja, mit wörtlichen Zitaten
Erkennt erfundene DOIs	Ja, wenn du sie anklickst	Ja
Audit-Pfad für die Betreuung	Die PDFs auf deinem Schreibtisch	DOCX-Bericht zum Übergeben

Keine Abo-Verlängerung und nichts zu kündigen. Acurio verkauft ein Paket pro Thesis: Der kostenlose Start prüft die ersten 10 Zitate, Student beginnt bei einmalig CHF 19, Pro bei einmalig CHF 29, Lab bei einmalig CHF 49 und Lifetime bei einmalig CHF 79. Für ein einziges Dissertationskapitel kann die gesparte Zeit das Paket bereits rechtfertigen. Preise und Anmeldung findest du auf der Acurio-Seite.

Grenzen — was es nicht leistet

Im Stil unserer anderen Praktiker-Beiträge hier der ehrliche Abschnitt.

Es ist ein Triage-Werkzeug, kein Freibrief. Ein "gestützt"-Urteil eines Multi-LLM-Prüfers heisst, dass die Quelle die Behauptung plausibel stützt. Es heisst nicht, dass die Quelle die beste, die aktuellste oder die in deinem Fach erwartete Quelle ist. Dieses Urteil bleibt bei dir.

Nicht-Standard-Zitierverfahren sind weniger zuverlässig. Acurio funktioniert am besten mit dem Standard-Zotero-Word-Plugin (v6/v7). Manuell getippte Zitate, Better-BibTeX-Exporte mit ungewöhnlichen Vorlagen und Zitate aus Drittplugins werden unterstützt, aber mit geringerer Konfidenz.

Bild-PDFs brauchen vorher OCR. Wenn deine Quelle ein gescanntes PDF ohne Textebene ist, schicke sie zuerst durch OCR. Der Prüfer liest Text, keine Bilder von Text.

Es schreibt das Zitat nicht. Acurio prüft, was du (oder dein KI-Assistent) geschrieben hast. Es wählt keine Quellen aus, schlägt keine besseren vor, formuliert keine Prosa. Das bleibt dein Job — was, ehrlich gesagt, auch richtig so ist.

Wo du morgen anfängst

Nimm das nächste Kapitel oder Manuskript, das du gerade schreibst. Prüfe die ersten zwanzig Zitate manuell, so wie immer. Stoppe die Zeit. Dann lass dasselbe Kapitel durch Acurio laufen und vergleiche die beiden Berichte nebeneinander. Wenn Acurio eine teilweise-gestützte Stelle oder ein erfundenes Zitat findet, das du übersehen hast, hat sich das Paket schon gerechnet. Falls nicht, hast du zumindest deinen eigenen Prozess auditiert und kannst beim nächsten Kapitel mit mehr Vertrauen zügiger arbeiten.

Der Sinn automatischer Zitatprüfung ist nicht, dein Urteil zu ersetzen. Sondern dafür zu sorgen, dass dein Urteil bei den Zitaten landet, die es wirklich brauchen.

Für einzelne Forschende ist Acurio testen der schnellste Weg. Für Institute oder Forschungsgruppen, die das auf Abteilungsebene ausrollen wollen — zusammen mit den breiteren KI-Governance-Fragen aus unserer ChatGPT-Governance-Checkliste — vereinbare einen kostenlosen KI-Potenzial-Check und wir gehen es gemeinsam durch.

Das Problem der gefälschten Zitate verschwindet nicht. Die Reviewer werden besser darin, es zu finden. Sei schneller als sie.

KI-Zitatprüfung für Forschende: Halluzinierte Quellen erkennen, bevor der Reviewer es tut

KI-Zitatprüfung für Forschende: Halluzinierte Quellen erkennen, bevor der Reviewer es tut

Warum manuelle Prüfung nicht skaliert

Wie eine "gut genug"-Prüfung aussieht

Der Zotero-native Workflow, den wir gebaut haben

Die Rechnung: Zeit und Kosten

Grenzen — was es nicht leistet

Wo du morgen anfängst

acurio · Halluzinierte Zitate? Nicht in deinem Manuskript.

Verwandte Beiträge

Von der Idee zum Produkt: Wie aus einem Halluzinations-Problem citecheck und Acurio wurden

Der Great American AI Act: Was die US-KI-Regulierung für Ihr Unternehmen bedeutet

Warum 95 % der Enterprise-KI-Agenten die Produktion nie erreichen