Chatbots & Künstliche Intelligenz

ChatGPT & Co.: Chatbots lernen von Patenten, Wikis und Nachrichten

von Florian Zandt,

11.05.2023

KI weltweit

Entgegen der öffentlichen Wahrnehmung sind derzeit verfügbare Chatbots wie OpenAIs ChatGPT oder Googles Bard, dessen Integration in sämtliche Google-Dienste auf der Entwickler:innenkonferenz I/O angekündigt wurde, nicht intelligent und besitzen kein eigenes Bewusstsein. Die zugrundeliegenden large language models (LLMs) werden an bereits verfügbaren Informationen aus dem Internet trainiert und setzen diese so neu zusammen, dass das Ergebnis einer Wahrscheinlichkeitsprüfung im Kontext von natürlicher Sprache standhält. Dass manche Quellen eher priorisiert werden als andere, zeigt unsere Grafik auf Basis einer exklusiven Recherche der Washington Post.

Das US-Nachrichtenportal analysierte zusammen mit dem Allen Institute for AI den von Google veröffentlichten C4-Korpus, der 15 Millionen Webseiten-Schnappschüsse enthält und durch Inhaltsfilter bereinigt wurde, auf die Verteilung der enthaltenen Tokens, also Wörter oder Phrasen, auf die im Korpus befindlichen Seiten. Mit 0,46 Prozent hat patents.google.com den größten Anteil. Dabei handelt es sich es um eine Sammlung von mehr als 120 Millionen Patentanmeldungen aus der ganzen Welt sowie Teilen von Google Books und Google Scholar.

Auf dem zweiten Platz landet wikipedia.org mit einem Token-Anteil von 0,19 Prozent, gefolgt von scribd.com mit 0,07 Prozent. Letzteres ist vor allem vor dem Hintergrund der Urheberrechtsfrage bei KI-generierten Texten relevant. Während Inhalte von Wikipedia unter den freien Creative-Commons-Lizenzen laufen, startete Scribd als freie Upload-Plattform für Dokumente, auf die gerade in den Anfangstagen zahlreiche geschützte Werke hochgeladen wurden. Medienangebote wie die New York Times, der Guardian und Forbes befinden sich ebenfalls unter den Top 8, und auch hier ist die Frage nach dem Urheberrecht relevant. Außerdem wichtig zu beachten: Die Auswertung der Washington Post besitzt keine Allgemeingültigkeit und hat keinen Vollständigskeitsanspruch, da kein KI-Modell nur auf Basis von einer einzigen Quelle trainiert wird. Sie kann also lediglich einen beispielhaften Ausschnitt darstellen.

Während Regulierung von und Gesetzgebung zum Thema KI bisher eher schleppend anläuft, wagen einzelne nationale und intranationale Behörden und Organe vereinzelt Vorstöße in diese Richtung. Italien sperrte den Zugang zu ChatGPT kurzzeitig, in Deutschland will die Taskforce KI der Datenschutzkonferenz die DSGVO-Eignung des OpenAI-Chatbots unter die Lupe nehmen, und in der EU wird die Einführung des AI Act diskutiert, der länderübergreifende gesetzliche Rahmenbedingungen für den Einsatz von KI-Tools in der Europäischen Union schaffen soll.

Beschreibung

Diese Grafik zeigt den Anteil der Tokens von spezifischen Webseiten am Gesamt-Token-Anteil in Googles C4-Korpus.

Infografik downloaden

Umfrage zur Nutzung von generativer KI in deutschen Tourismusorganisationen 2025

Grenzen beim Einsatz von KI im Textbereich bei deutschen Verlagen 2025

Private Investitionen in generative KI weltweit bis 2025

Nutzung von generativer KI in Unternehmen nach Branche 2025

Nutzung von KI-Tools wie ChatGPT durch Kinder in der Schule und zu Hause 2025

Einsatzbereiche von KI im Marketing in der DACH-Region 2026

Verwandte Infografiken

Auslandsinvestitionen

KI-Stromverbrauch

KI im Journalismus

Digital News Report 2026

Siri AI

Digitaler Schutz

Sie haben noch Fragen?

Kontaktieren Sie uns schnell und einfach.
Wir helfen Ihnen gern!

Möglichkeiten der Kontaktaufnahme

Nutzen Sie gern unser Kontaktformular oder unsere FAQ.
Alternativ können Sie sich auch direkt an unseren Kundenservice wenden.

Ihr Kontakt zum Infografik Newsroom

Mathias Brandt

Data Journalist

mathias.brandt@statista.com +49 (40) 284 841 559

Statista Content & Design

Sie benötigen maßgefertigte Infografiken, animierte Videos, Präsentationen, Data Research oder Social Media Charts?