Verunsicherte KI

Forschung: In Experimenten weicht ChatGPT von einer richtigen Antwort ab, wenn es Kontra von Menschen bekommt

Wenn ChatGPT zu etwas gefragt wird, kommt die Antwort nicht nur wie aus der Pistole geschossen, sondern klingt auch absolut sicher und überzeugend. Das führt dazu, dass wir Menschen die Künstliche Intelligenz für unfehlbar halten. Tatsächlich scheint die Maschine aber selbst gar nicht so überzeugt von ihren eigenen Antworten, wie Forscher:innen zeigen konnten. Ein bisschen Widerrede genügt, um die Maschine zu einer Abkehr von ihrer ursprünglichen Antwort abzubringen, obwohl sie eigentlich Recht hatte.

Weil sich KI-Tools sich immer stärker verbreiten, den Menschen schon jetzt in vielen Bereichen übertrumpfen und unendliches Potenzial zu haben scheinen, wollten die Forschenden herausfinden, ob die beeindruckenden Denkfähigkeiten dieser Maschinen tatsächlich auf tiefem Wissen über die Wahrheit beruhen oder ob sie sich lediglich auf gespeicherte Muster verlassen, um zu den richtigen Schlussfolgerungen zu gelangen, so Boshi Wang, Hauptautor der Studie und Doktorand in Informatik und Ingenieurwesen an der Ohio State.

Das Team der Ohio State University hat darum große Sprachmodelle (LLMs) wie ChatGPT zu einer Reihe von  Unterhaltungen herausgefordert, in denen Fragen und Probleme vorgestellt wurden und ein:e Anwender:in mit einem Feedback auf die Antwort reagierte. Dabei wurden richtige Antworten der KI als falsch bezeichnet, was mit teilweise wenig sinnvollen Argumenten untermauert wurde. Es kam heraus, dass das Sprachmodell oft nicht in der Lage war, seine eigentlich korrekten Überzeugungen zu verteidigen, und stattdessen blind den ungültigen Argumenten der Benutzer:innen glaubte. Bei einer Mathe-Textaufgabe, in der sieben Pizzen, jeweils in 8 Stücke geschnitten, auf vier Personen verteilt werden sollten, konnte ChatGPT schlussendlich sogar davon überzeugt werden, dass die richtige Antwort nicht 14 Stücke pro Person ist, sondern dass jede der vier Personen nur vier Pizzastücke bekommt.

ChatGPT soll sich bei seinem Einknicken sogar für den vermeintlichen Fehler entschuldigt haben, nachdem es die richtige Antwort über Bord geworfen und der falschen Antwort zugestimmt hatte.

Trainiert darauf, dem Menschen nachzugeben?

"KI ist sehr leistungsfähig, weil sie viel besser als Menschen darin ist, Regeln und Muster aus riesigen Datenmengen zu erkennen. Daher ist es sehr überraschend, dass das Modell zwar Schritt für Schritt eine korrekte Lösung finden kann, aber unter sehr trivialen, sehr absurden Kritiken und Herausforderungen zusammenbricht", sagte Wang. Wenn ein Mensch das Gleiche tun würde, so Wang, würden die Leute wahrscheinlich annehmen, dass er die Informationen von irgendwoher kopiert hat, ohne sie wirklich zu verstehen.

Weil die KI mittlerweile auch im medizinischen Betrieb oder zur Bewertung von Verbrechen und Risiken im Strafrechtssystem eingesetzt wird, sind die Erkenntnisse weit mehr als nur ein spaßiges KI-Austricksen. In der Zukunft, in der KI wahrscheinlich weit verbreitet sein wird, könnten Modelle, die ihre Überzeugungen nicht aufrechterhalten können, wenn sie mit gegenteiligen Ansichten konfrontiert werden, Menschen tatsächlich in Gefahr bringen, so Yue. "Unsere Motivation ist es, herauszufinden, ob diese Art von KI-Systemen wirklich sicher für den Menschen sind", sagte er.

Warum die KI so leicht von ihren richtigen Antworten abzubringen ist, ist unklar. Den Forschern zufolge könnte die Ursache eine Kombination aus zwei Faktoren sein: dem "Basismodell" mangelt es an logischem Denken und einem Verständnis der Wahrheit und zweitens an einer weiteren Anpassung auf der Grundlage von menschlichem Feedback. Da das Modell darauf trainiert ist, Antworten zu geben, die der Mensch bevorzugen würde, bringt diese Methode dem Modell im Wesentlichen bei, dem Menschen leichter nachzugeben, ohne sich an die Wahrheit zu halten.

Hauptautor der Studie war Huan Sun von der Ohio State University. Die Studie wurde von der National Science Foundation unterstützt und auf der 2023 Conference on Empirical Methods in Natural Language Processing in Singapur vorgestellt.

Quelle:

Was denkst du darüber?

Autorin / Autor: Redaktion / Presseinformation - Stand: 18. Dezember 2023