Künstliche Intelligenz & Chatbots

Womit werden ChatGPT & Co. trainiert?

von Florian Zandt,

11.05.2023

KI weltweit

Neben der Ankündigung neuer Hardwareprodukte stand die gestrige Entwickler:innenkonferenz Google I/O im Zeichen der Künstlichen Intelligenz. Bard, das Konkurrenzprodukt zu OpenAIs ChatGPT, soll ab sofort in 180 Ländern verfügbar sein, wichtige Google-Dienste wie Fotos, Gmail, Maps und die Suche erhalten in naher Zukunft umfassende KI-Features. Die zugrundeliegenden large language models (LLM) setzen Wörter und Phrasen, im Fachjargon Tokens genannt, ohne eigenes Bewusstsein nach den wahrscheinlichsten Kombinationsmöglichkeiten zusammen. Wie diese trainiert werden, darüber schweigen sich die meisten Firmen aus – mit Ausnahmen.

Obwohl beispielsweise nicht im Detail bekannt ist, welche Ressourcen explizit zum Training von GPT-4 benutzt wurden, ist dokumentiert, dass Googles T5-Modell und LLaMA von Facebook unter anderem auf den von Google erstellten C4-Korpus zurückgegriffen hat. Dabei handelt es sich um eine Sammlung von 15 Millionen Schnappschüssen von Internetseiten auf Basis des 2019 gestarteten Common-Crawl-Projekts, die im Nachgang durch Google-Filter bereinigt wurden. Wie unsere Grafik aus Basis einer exklusiven Recherche der Washington Post zeigt, stammt rund die Hälfte der kategorisierbaren Tokens aus vier Kategorien.

Die am häufigsten vertretene ist dabei Wirtschaft & Industrie. Darin sind unter anderem Seiten wie kickstarter.com, das Portal der US-amerikanischen Börsenaufsichtsbehörde Securities & Exchange Commission sec.gov oder die Anlageberatung fool.com enthalten. Platz zwei und drei werden vom Sektor Technologie mit Seiten wie medium.com oder forums.macrumors.com sowie der Kategorie Nachrichten & Medien, die unter anderem die Internetauftritte der New York Times und des britischen Guardian sowie den E-Book-Abodienst scribd.com und die englischsprachige Wikipedia enthalten, belegt.

Die von der Washington Post ausgewerteten Daten weisen allerdings Lücken auf, da rund ein Drittel der im Korpus aufgeführten Seiten nicht kategorisiert werden konnten oder nicht mehr online sind. Außerdem spiegelt der C4-Korpus nur einen Teil der Trainingsdaten wider, kein KI-Modell verlässt sich diesbezüglich nur auf eine einzige Quelle. Die Datengrundlage für das Training von KI-Chatbots hat in Deutschland auch Datenschützer:innen auf den Plan gerufen. Anfang April gab die Taskforce KI der Datenschutzkonferenz bekannt, ChatGPT auf die Einhaltung der DSGVO und der Verarbeitung personenbezogener Daten abklopfen zu wollen.

Beschreibung

Diese Grafik zeigt den Anteil aller Kategorien an Googles C4-Korpus.

Infografik downloaden

Umfrage zur Nutzung von generativer KI in deutschen Tourismusorganisationen 2025

Grenzen beim Einsatz von KI im Textbereich bei deutschen Verlagen 2025

Umfrage zur Nutzung von KI durch Studierende 2024/25

Nutzung von generativer KI in Unternehmen nach Branche 2025

Nutzung von KI-Tools wie ChatGPT durch Kinder in der Schule und zu Hause 2025

Einsatz generativer KI für kreative Prozesse in Agenturen in Deutschland 2025

Verwandte Infografiken

Content Marketing Trendstudie 2026

Content Marketing Trendstudie 2026

Content Marketing Trendstudie 2026

Sponsored Post von Booking.com

Tech-Branche

Börse

Sie haben noch Fragen?

Kontaktieren Sie uns schnell und einfach.
Wir helfen Ihnen gern!

Möglichkeiten der Kontaktaufnahme

Nutzen Sie gern unser Kontaktformular oder unsere FAQ.
Alternativ können Sie sich auch direkt an unseren Kundenservice wenden.

Ihr Kontakt zum Infografik Newsroom

Mathias Brandt

Data Journalist

mathias.brandt@statista.com +49 (40) 284 841 559

Statista Content & Design

Sie benötigen maßgefertigte Infografiken, animierte Videos, Präsentationen, Data Research oder Social Media Charts?