Künstliche Intelligenz & Chatbots

Womit werden ChatGPT & Co. trainiert?

Neben der Ankündigung neuer Hardwareprodukte stand die gestrige Entwickler:innenkonferenz Google I/O im Zeichen der Künstlichen Intelligenz. Bard, das Konkurrenzprodukt zu OpenAIs ChatGPT, soll ab sofort in 180 Ländern verfügbar sein, wichtige Google-Dienste wie Fotos, Gmail, Maps und die Suche erhalten in naher Zukunft umfassende KI-Features. Die zugrundeliegenden large language models (LLM) setzen Wörter und Phrasen, im Fachjargon Tokens genannt, ohne eigenes Bewusstsein nach den wahrscheinlichsten Kombinationsmöglichkeiten zusammen. Wie diese trainiert werden, darüber schweigen sich die meisten Firmen aus – mit Ausnahmen.

Obwohl beispielsweise nicht im Detail bekannt ist, welche Ressourcen explizit zum Training von GPT-4 benutzt wurden, ist dokumentiert, dass Googles T5-Modell und LLaMA von Facebook unter anderem auf den von Google erstellten C4-Korpus zurückgegriffen hat. Dabei handelt es sich um eine Sammlung von 15 Millionen Schnappschüssen von Internetseiten auf Basis des 2019 gestarteten Common-Crawl-Projekts, die im Nachgang durch Google-Filter bereinigt wurden. Wie unsere Grafik aus Basis einer exklusiven Recherche der Washington Post zeigt, stammt rund die Hälfte der kategorisierbaren Tokens aus vier Kategorien.

Die am häufigsten vertretene ist dabei Wirtschaft & Industrie. Darin sind unter anderem Seiten wie kickstarter.com, das Portal der US-amerikanischen Börsenaufsichtsbehörde Securities & Exchange Commission sec.gov oder die Anlageberatung fool.com enthalten. Platz zwei und drei werden vom Sektor Technologie mit Seiten wie medium.com oder forums.macrumors.com sowie der Kategorie Nachrichten & Medien, die unter anderem die Internetauftritte der New York Times und des britischen Guardian sowie den E-Book-Abodienst scribd.com und die englischsprachige Wikipedia enthalten, belegt.

Die von der Washington Post ausgewerteten Daten weisen allerdings Lücken auf, da rund ein Drittel der im Korpus aufgeführten Seiten nicht kategorisiert werden konnten oder nicht mehr online sind. Außerdem spiegelt der C4-Korpus nur einen Teil der Trainingsdaten wider, kein KI-Modell verlässt sich diesbezüglich nur auf eine einzige Quelle. Die Datengrundlage für das Training von KI-Chatbots hat in Deutschland auch Datenschützer:innen auf den Plan gerufen. Anfang April gab die Taskforce KI der Datenschutzkonferenz bekannt, ChatGPT auf die Einhaltung der DSGVO und der Verarbeitung personenbezogener Daten abklopfen zu wollen.

Beschreibung

Diese Grafik zeigt den Anteil aller Kategorien an Googles C4-Korpus.

Infografik downloaden
Premium-Statistiken
Umfrage zur Bekanntheit von ChatGPT in Deutschland 2023
Premium-Statistiken
Grenzen beim Einsatz von KI im Textbereich bei deutschen Verlagen 2024
Premium-Statistiken
Nutzung von ChatGPT durch Journalisten in Medienhäusern in Deutschland 2024
Premium-Statistiken
Häufigkeit der Nutzung generativer KI in Deutschland 2024
Premium-Statistiken
Umfrage zur Bewertung der Antworten von ChatGPT nach Branchen 2023
Premium-Statistiken
Umfrage zur Nutzung von ChatGPT nach Berufsgruppen in der DACH-Region 2023

Sie haben noch Fragen?

Kontaktieren Sie uns schnell und einfach.
Wir helfen Ihnen gern!

Möglichkeiten der Kontaktaufnahme

Nutzen Sie gern unser Kontaktformular oder unsere FAQ.
Alternativ können Sie sich auch direkt an unseren Kundenservice wenden.

Statista Content & Design

Sie benötigen maßgefertigte Infografiken, animierte Videos, Präsentationen, Data Research oder Social Media Charts?

Mehr erfahren