KI-Kollaps?

Experiment: Wenn Künstliche Intelligenz nur noch mit Daten von Künstlicher Intelligenz trainiert wird, kollabiert sie irgendwann und es kommt nur noch Quatsch raus

KI kann alles Mögliche. Sie kann Artikel, Gedichte und Geschichten schreiben, Musik komponieren, Filme und Bilder erzeugen. Das Internet ist jetzt schon voll von KI-generierten Inhalten. Künftige KI-Entwicklungen werden dementsprechend mit Daten trainiert, die selbst schon zu großen Teilen von KI produziert wurden.

Was passiert, wenn KI-Modelle nur noch mit Daten ihrer Vorgängermodelle trainiert werden, hat ein britisch-kanadisches Forschungsteam in verschiedenen Experimenten untersucht. Mit überraschenden Ergebnissen: die Systeme kollabieren und es kommt nur noch Blödsinn raus - grob ausgedrückt.

Und das obwohl die Modelle selbst immer leistungsfähiger werden. Auf die Daten scheint das aber nicht zuzutreffen. Denn durch den weit verbreiteten Einsatz von maschinellen Lernmodellen werden immer mehr KI-Daten ohne menschliche Aufsicht erzeugt, was die Art und Weise, wie die Modelle lernen, grundlegend verändert.

Gefahr von KI-Echokammern

Für die Studie wurden verschiedene KI-Modelle zunächst mit Wikipedia-Texten trainiert, in denen es um Kirchenarchitektur ging. Wie es bei dem Training von selbstlernenden Systemen üblich ist, wurden die Ergebnisse aus dem Training noch einmal verfeinert. In dieser Studie geschah diese Verfeinerung mit den Daten des Vorgängermodells. Nach fünf Durchläufen hatte sich das Ergebnis schon deutlich von den Originaltexten entfernt.
In der Studie zeigte sich insgesamt deutlich, dass das Trainieren von KI-Modellen mit Daten, die von früheren Modellen erzeugt wurden, zu langfristigen Lernproblemen führt. Die Modelle verlieren an Qualität und können schließlich versagen. In der Studie wird dies darauf zurückgeführt, dass sich im Laufe der Zeit kleinere Fehler und Fehleinschätzungen ansammeln, die für Modelle des maschinellen Lernens typisch sind. Die kleinen Fehler werden dann von später trainierten Modellen wiederholt und mit weiteren Fehlern angereichert. Im Laufe der Zeit kann dies dazu führen, dass die Modelle zusammenbrechen.

"Je mehr Modelle sich von ihren eigenen Ergebnissen ernähren, desto weiter entfernen sie sich von der Realität. Der Modellkollaps droht, eine KI-Echokammer zu schaffen," erklärt Forscher Yarin Gal.

Die Studie hat den Forschenden zufolge erhebliche Auswirkungen auf die Zukunft dieser sich schnell entwickelnden und weit verbreiteten KI-Modelle und wirft Fragen auf, wie robust diese Modelle wirklich sind und welche wichtige Rolle Orignaldaten von Menschen spielen, um einen Zusammenbruch zu verhindern. Denn in der Studie wurden zum Vergleich auch Durchläufe gemacht, in denen 10% des Feintunings nach jedem Durchlauf mit den Originaldaten gemacht wurden - mit einem deutlich besseren Endergebnis.

Die Forschenden betonen, dass es darum wichtig ist, dass die Herkunft der Daten - menschgemacht oder KI-generiert - auch bekannt ist. Das dürfte allerdings mit der Zeit immer schwieriger werden. Wer kann am Ende noch mit Sicherheit sagen, welche Anteile von Inhalten wirklich menschlichen Ursprungs sind?