Chatbots & Künstliche Intelligenz

ChatGPT & Co.: Chatbots lernen von Patenten, Wikis und Nachrichten

Entgegen der öffentlichen Wahrnehmung sind derzeit verfügbare Chatbots wie OpenAIs ChatGPT oder Googles Bard, dessen Integration in sämtliche Google-Dienste auf der Entwickler:innenkonferenz I/O angekündigt wurde, nicht intelligent und besitzen kein eigenes Bewusstsein. Die zugrundeliegenden large language models (LLMs) werden an bereits verfügbaren Informationen aus dem Internet trainiert und setzen diese so neu zusammen, dass das Ergebnis einer Wahrscheinlichkeitsprüfung im Kontext von natürlicher Sprache standhält. Dass manche Quellen eher priorisiert werden als andere, zeigt unsere Grafik auf Basis einer exklusiven Recherche der Washington Post.

Das US-Nachrichtenportal analysierte zusammen mit dem Allen Institute for AI den von Google veröffentlichten C4-Korpus, der 15 Millionen Webseiten-Schnappschüsse enthält und durch Inhaltsfilter bereinigt wurde, auf die Verteilung der enthaltenen Tokens, also Wörter oder Phrasen, auf die im Korpus befindlichen Seiten. Mit 0,46 Prozent hat patents.google.com den größten Anteil. Dabei handelt es sich es um eine Sammlung von mehr als 120 Millionen Patentanmeldungen aus der ganzen Welt sowie Teilen von Google Books und Google Scholar.

Auf dem zweiten Platz landet wikipedia.org mit einem Token-Anteil von 0,19 Prozent, gefolgt von scribd.com mit 0,07 Prozent. Letzteres ist vor allem vor dem Hintergrund der Urheberrechtsfrage bei KI-generierten Texten relevant. Während Inhalte von Wikipedia unter den freien Creative-Commons-Lizenzen laufen, startete Scribd als freie Upload-Plattform für Dokumente, auf die gerade in den Anfangstagen zahlreiche geschützte Werke hochgeladen wurden. Medienangebote wie die New York Times, der Guardian und Forbes befinden sich ebenfalls unter den Top 8, und auch hier ist die Frage nach dem Urheberrecht relevant. Außerdem wichtig zu beachten: Die Auswertung der Washington Post besitzt keine Allgemeingültigkeit und hat keinen Vollständigskeitsanspruch, da kein KI-Modell nur auf Basis von einer einzigen Quelle trainiert wird. Sie kann also lediglich einen beispielhaften Ausschnitt darstellen.

Während Regulierung von und Gesetzgebung zum Thema KI bisher eher schleppend anläuft, wagen einzelne nationale und intranationale Behörden und Organe vereinzelt Vorstöße in diese Richtung. Italien sperrte den Zugang zu ChatGPT kurzzeitig, in Deutschland will die Taskforce KI der Datenschutzkonferenz die DSGVO-Eignung des OpenAI-Chatbots unter die Lupe nehmen, und in der EU wird die Einführung des AI Act diskutiert, der länderübergreifende gesetzliche Rahmenbedingungen für den Einsatz von KI-Tools in der Europäischen Union schaffen soll.

Beschreibung

Diese Grafik zeigt den Anteil der Tokens von spezifischen Webseiten am Gesamt-Token-Anteil in Googles C4-Korpus.

Infografik downloaden
Premium-Statistiken
Umfrage zur Bekanntheit von ChatGPT in Deutschland 2023
Premium-Statistiken
Grenzen beim Einsatz von KI im Textbereich bei deutschen Verlagen 2024
Premium-Statistiken
Nutzung von ChatGPT durch Journalisten in Medienhäusern in Deutschland 2024
Premium-Statistiken
Häufigkeit der Nutzung generativer KI in Deutschland 2024
Premium-Statistiken
Umfrage zur Bewertung der Antworten von ChatGPT nach Branchen 2023
Premium-Statistiken
Umfrage zur Nutzung von ChatGPT nach Berufsgruppen in der DACH-Region 2023

Sie haben noch Fragen?

Kontaktieren Sie uns schnell und einfach.
Wir helfen Ihnen gern!

Möglichkeiten der Kontaktaufnahme

Nutzen Sie gern unser Kontaktformular oder unsere FAQ.
Alternativ können Sie sich auch direkt an unseren Kundenservice wenden.

Statista Content & Design

Sie benötigen maßgefertigte Infografiken, animierte Videos, Präsentationen, Data Research oder Social Media Charts?

Mehr erfahren