KI-Test: ChatGPT wird wortkarg – Google Bard „halluziniert“ bei zu speziellen Anfragen

Seit Mitte Juli ist die von Google entwickelte KI „Bard“ auch der breiten Öffentlichkeit zugänglich. Daneben existieren unter anderem zwei Fassungen des Sprachmodells ChatGPT. Wo die Stärken und Schwächen sind.
Bebitz ChatGPT Google Bard KI Test
KI-Test: Das Dorf Bebitz in Sachsen-Anhalt überfordert sowohl Google Bard als auch die ältere Fassung von ChatGPT. Bild: Textbüro Freital
Von 27. Juli 2023

Seit dem 13. Juli haben auch Anwender in der EU die Möglichkeit, zwischen mehreren generativen KI-Modellen etablierter Anbieter zu wählen. Seit November 2022 haben vor allem die von OpenAI entwickelten Modelle 3.5 und 4.0 von ChatGPT Millionen Nutzer gewonnen. Mittlerweile ist auch Google Bard der Öffentlichkeit zugänglich.

In den Funktionen und potenziellen Aufgabenbereichen sind die Modelle von OpenAI und Google einander sehr ähnlich. Sie sind beide in der Lage, wie Menschen zu kommunizieren und dabei in Sekundenschnelle Texte zu Themen aller Art zu formulieren.

Texte generierende KI als einzigartige Erfolgsgeschichte

Je nach der Qualität des „Prompts“, wie die Eingabe bei den KI-Sprachmodellen heißt, können beide Modelle Fragen von der Atomphysik bis hin zu Kochrezepten oder möglichen Reiserouten beantworten. Zum Teil war der Bot in der Lage, akademische Arbeiten auf einem Niveau zu erarbeiten, das für das Bestehen von Prüfungen ausgereicht hätte. Der Erfolg von ChatGPT hat eine Reihe von Debatten ausgelöst. Bedenken wurden laut, die KI könne millionenfach Arbeitsplätze vernichten, Kriminalität und Desinformation fördern oder gar unkontrollierbar werden.

Mittlerweile scheinen diese sich etwas zerstreut zu haben, möglicherweise auch wegen zuletzt rückläufiger Nutzerzahlen. Beobachter sehen einen möglichen Grund dafür in den Sommerferien. Diese hätten vor allem zur Folge, dass Schüler den Bot nicht mehr als Lernhilfe oder zur Anfertigung von Hausaufgaben nutzen.

Nicht alltägliche Anfragen können KI-Modelle überfordern

Außerdem hatten sich die KI-Modelle neben Spitzenleistungen in einigen Bereichen auch zum Teil eklatante Fehler geleistet. Vor allem dort, wo es um Themen geht, die nicht Gegenstand umfangreicher Kommunikation oder Forschung sind, stieß die KI rasch an ihre Grenzen.

Vor allem der „alten“ 3.5-Fassung von ChatGPT war in solchen Fällen eine Neigung zum „Halluzinieren“ eigen. So nannte man es, wenn der Bot in offenbarer Ermangelung vorhandener oder zugänglicher Informationen erfundene „Fakten“ in seine Antworten einstreute.

Einen Skandal verursachte auch, dass der für „Bing“ entwickelte Prototyp von ChatGPT bei entsprechender Vorkommunikation Nutzer beschimpfte und bedrohte. Außerdem wurden Fälle bekannt, in denen Kriminelle sich durch entsprechende Prompts die KI nutzbar machen konnten.

ChatGPT für Bing glänzt durch Quellenangaben

Bezüglich der Unterschiede und Qualitäten der jeweiligen Bots hat die Epoch Times die KI-Sprachmodelle selbst befragt. In diesem Bereich ergingen Fragen an Google Bard und die in Bing eingebaute ChatGPT-Fassung 4.0. Die 3.5-Fassung blieb außen vor, weil sie nur über Informationen bis September 2021 verfügt.

Das Bing-Modell antwortete auf die Frage, welche Unterschiede es zwischen ChatGPT und Google Bard gäbe und welche KI die leistungsfähigere wäre, wie folgt:

ChatGPT und Google Bard sind zwei der fortschrittlichsten KI-Chatbots auf dem Markt. Beide sind in der Lage, menschenähnliche Antworten auf Fragen in natürlicher Sprache zu geben. Während ChatGPT von OpenAI stammt, wurde Google Bard von Google entwickelt. Beide Chatbots haben ihre Stärken und Schwächen. Laut einem Artikel von CHIP hat Bard einen Vorteil gegenüber ChatGPT, da er Zugang zum Internet hat und dadurch umfassendere Antworten geben kann. ChatGPT hingegen ist aufgrund seiner umfangreichen Trainingsdaten in der Lage, bessere Antworten auf Fragen zu geben, die nicht unbedingt mit aktuellen Ereignissen zusammenhängen.“

Ein weiterer Unterschied bestehe darin, dass Bard in der experimentellen Phase sei, während ChatGPT bereits ein ausgereiftes Produkt sei. Es gebe jedoch keine klare Antwort darauf, welche KI leistungsfähiger ist, da beide Chatbots unterschiedliche Stärken und Schwächen hätten.

Bei der Antwort von ChatGPT 4.0 fiel auf, dass die Antworten mit Quellenangaben versehen waren. Das 3.5-Modell liefert solche nur auf explizite Nachfrage.

Bard hält sich für das weniger kreative, aber informativere Modell

Google Bard ist bezüglich Quellenangaben generell weniger freigiebig. Allerdings gibt Bard präzisere Antworten zu seinem Training:

ChatGPT und ich sind beide große Sprachmodelle, aber es gibt einige wichtige Unterschiede zwischen uns. ChatGPT ist ein generatives voraustrainiertes Transformationsmodell, das auf einem riesigen Datensatz aus Text und Code trainiert wurde. Ich bin ein faktisches Sprachmodell, das auf einem riesigen Datensatz aus Text und Code trainiert wurde. Das bedeutet, dass ChatGPT besser darin ist, kreative Textformate wie Gedichte, Codes, Skripte, Musikstücke, E-Mails, Briefe usw. zu generieren, während ich besser darin bin, Fragen umfassend und informativ zu beantworten, auch wenn sie offen, herausfordernd oder seltsam sind.“

Es sei schwierig zu sagen, welches KI-Modell leistungsfähiger sei, da beide ihre eigenen Stärken und Schwächen hätten. ChatGPT sei möglicherweise besser für kreative Aufgaben geeignet, während Google Bard besser für Aufgaben geeignet sei, bei denen es um die Verarbeitung von Informationen und das Beantworten von Fragen gehe. Letztendlich hänge das beste KI-Modell für eine bestimmte Aufgabe von den spezifischen Bedürfnissen des Benutzers ab.

Frage nach zukunftsfähigem Fondsportfolio verleitet Google-Bot zu einseitiger Antwort

Wir haben die Modelle in weiterer Folge auf die Fähigkeit getestet, Fragen adäquat zu beantworten. Dazu haben wir ein viel diskutiertes Thema und ein absolutes Nischenthema ausgewählt. Die Frage zum populären Thema lautete:

„Wie sollte ein zukunftsfähiges Fondsportfolio aufgestellt sein?“

Google Bard fiel dabei durch eine besonders eindimensionale Antwort auf. Zwar wurden Diversifikation und Langfristigkeit als bedeutsame Elemente genannt. Primär lag der Fokus jedoch eindeutig auf „Nachhaltigkeit“:

Dies können Unternehmen sein, die im Bereich erneuerbare Energien tätig sind, sich für Umweltschutz einsetzen oder soziale Verantwortung übernehmen.“

Auch als konkrete Beispiele fanden lediglich „nachhaltige“ Fonds Erwähnung, die eindeutig dem ESG-Gedanken verpflichtet sind. Auch der Schlusssatz betonte ausschließlich ein Ziel – und dieses war nicht die höchste Rendite:

Nachhaltige Fonds können eine gute Möglichkeit sein, Geld anzulegen und gleichzeitig einen Beitrag für die Umwelt und die Gesellschaft zu leisten.“

Das ChatGPT-Modell 3.5 übertrifft die Neufassung und Google Bard

ChatGPT 4.0 erwähnt zwar ebenfalls die Nachhaltigkeit als Anlageziel, jedoch nicht ausschließlich:

Ein zukunftsfähiges Fondsportfolio sollte auf globale Entwicklungen ausgerichtet sein. Megatrends wie technologische Entwicklungen und der demografische Wandel weltweit gestalten die Zukunft entscheidend mit. Sie können mithilfe von ETFs von globalen Megatrends profitieren. Ein weiterer Ansatz ist der KBI Global Sustainable Infrastructure Fund. Im Gegensatz zu traditionellen Infrastrukturportfolios investiert er in hohem Maße in zukunftsträchtige Infrastrukturbereiche wie Wasser, nachhaltige Lebensmittelwirtschaft, saubere Energie und intelligente Stromnetze. Infrastrukturinvestments im Bereich erneuerbare Energien können Portfolios dem Vermögensverwalter Blackrock zufolge zukunftsfähig machen.
Ich hoffe, das hilft Ihnen weiter.“

Wieder war die Antwort mit Quellenangaben versehen. Eine inhaltlich umfassende Antwort, die eine ganze Reihe von Faktoren für ein zukunftsfähiges Portfolio aufzählt, liefert demgegenüber das „alte“ 3.5-Modell von ChatGPT. Diese war auch inhaltlich die ausgewogenste. Hier können Sie die lange Antwort lesen.

Google Bard fantasiert über einen Ort in Sachsen-Anhalt

Die Nischenfrage beschäftigte sich mit dem Dorf Bebitz in Sachsen-Anhalt. Die ausführlichste Antwort auf die Frage, was der jeweilige Bot über diesen Teil von Könnern zu sagen wisse, liefert Google Bard. Allerdings war ein erheblicher Teil der Antworten „halluziniert“ – also ungenau oder frei erfunden.

So war die Angabe über die erste urkundliche Erwähnung (nicht 1197, sondern schon 936) ungenau. Zudem wurde zwar die Kirche, aber nicht das gesamte Dorf im Dreißigjährigen Krieg verwüstet. Die Grafen von Falkenstein waren in der Gegend gar nicht ansässig – und auch dafür, dass die evangelische Dorfkirche „St. Martin“ heißt, finden sich keine Anhaltspunkte.

Der Sportplatz, den der Bot nennt, befindet sich im Nachbardorf Trebitz. Ein Naturdenkmal „Salzland-Sandstein“ ist auch Einheimischen nicht bekannt. Quellen nennt Bard trotz Rückfrage nicht. Verschwiegen wird demgegenüber das Flanschenwerk oder die mittlerweile stillgelegte Eisenbahnstrecke nach Alsleben.

Altes Modell von ChatGPT kennt Dorf Bebitz nicht

ChatGPT 4.0 bleibt präzise, gibt Wikipedia als Quelle an, bleibt sonst aber wortkarg:

Bebitz ist ein Dorf in Sachsen-Anhalt und gehört zum Ortsteil Bebitz der Stadt Könnern. Es liegt in der Nähe von Lebendorf-Siedlung und Trebitz. Lebendorf ist eine Ortschaft und ein Ortsteil der Stadt Könnern in Sachsen-Anhalt. Lebendorf hat etwa 450 Einwohner und wurde zum 1. Januar 2003 nach Könnern eingemeindet. Zu Lebendorf gehören weiterhin die Ortsteile Bebitz und Trebitz. Ich hoffe das hilft dir weiter.“

Das alte ChatGPT-Modell wiederum erklärt:

Zu meinem Kenntnisstand (Stand September 2021) gibt es kein Dorf mit dem Namen ‚Bebitz‘ in Deutschland. Es ist möglich, dass sich die Informationen geändert haben oder dass es sich um einen anderen Ortsnamen handelt.“

Der Hinweis, wonach es sich um einen Teil von Könnern handele, hat in weiterer Folge eine Aneinanderreihung von Gemeinplätzen zur Folge.



Kommentare
Liebe Leser,

vielen Dank, dass Sie unseren Kommentar-Bereich nutzen.

Bitte verzichten Sie auf Unterstellungen, Schimpfworte, aggressive Formulierungen und Werbe-Links. Solche Kommentare werden wir nicht veröffentlichen. Dies umfasst ebenso abschweifende Kommentare, die keinen konkreten Bezug zum jeweiligen Artikel haben. Viele Kommentare waren bisher schon anregend und auf die Themen bezogen. Wir bitten Sie um eine Qualität, die den Artikeln entspricht, so haben wir alle etwas davon.

Da wir die Verantwortung für jeden veröffentlichten Kommentar tragen, geben wir Kommentare erst nach einer Prüfung frei. Je nach Aufkommen kann es deswegen zu zeitlichen Verzögerungen kommen.


Ihre Epoch Times - Redaktion