Im April 2023 hat die Washington Post den Artikel Inside the secret list of websites that make AI like ChatGPT sound smart veröffentlicht, indem sie ihre Recherche zu Trainingsdaten für Chatbots teilten.
Sie konnten die Trainingsdaten, mit denen speziell ChatGPT trainiert wurde, nicht analysieren, da sie bis dato noch nicht von OpenAI (dem Hersteller von ChatGPT) selbst veröffentlicht wurden.
Was sie aber machen konnten, war eine Analyse der Trainingsdaten, die sie in Googles C4 Trainingsdaten gefunden haben. Diese Trainingsdaten wurden zur Entwicklung Googles T5 und Facebooks LLaMA verwendet. C4 steht für Colossal Clean Crawled Corpus, also in etwa einer intensiv gefilterten Datenbasis. Dabei wurde versucht Duplikate und Nonsense zu entfernen, sowie unanständige, obszöne und andere ungewünschte Wörter herauszufiltern.
Die C4-Trainingsdaten beinhalten rund 15 Millionen Websites.
Adventskalender 2023
Goldene Nuggets 🎄 für die Vorweihnachtszeit – mit Tipps, Impulsen und Aktionen zum 🔐 Datenschutz ohne Rechtsblabla, zur IT-Sicherheit und zum verantwortungsvollen Umgang mit 🤖 KI-Tools.
Die Analyse
Um diese Größe an Daten zu analysieren haben sich die Autoren der Washington Post mit dem Allen Institut for AI zusammengetan. Außerdem wurde für die Analyse der Websites ein weiteres Unternehmen Similarweb hinzugezogen, um die Websites der Trainingsdaten kategorisieren zu können.
Anzumerken ist, dass diese Ergebnisse reine Spekulationen in Bezug auf ChatGPTs Trainingsgrundlage sind. Niemand außer OpenAI kann sagen, ob diese Daten von Googles C4 den Daten von ChatGPT ähneln.
Das Ergebnis: Die Trainingsdaten
Spannend ist es trotzdem und daher die Keyfacts zu den verwendeten Websites, die es in die C4-Trainingsdaten geschafft haben:
- Ein Drittel der Websites, also rund 5 Millionen, konnten nicht kategorisiert und analysiert werden. Hauptsächlich, weil sie nicht mehr online sind.
- Die restlichen Websites kommen überwiegend aus den Bereichen Journalismus, Unterhaltung, Software Entwicklung, Medizin und Content Erstellung.
- Die drei am häufigsten vorkommenden Websites sind: patents.google.com (Patente), wikipedia.org (Wissensplattform) und scribd.com (das Netflix für Bücher).
- Mindestens 27 Websites, auf denen Inhalte illegal heruntergeladen werden können bzw. konnten, sind ebenfalls mit dabei.
- Zwei Websites der 100 größten Trainingswebsites beinhalten auch Daten von Wählern.
- Inhalte von Kickstarter (Crowdfunding, #25 der größten Trainingswebsites) und Patreon (für Content Ersteller eine mögliche Einnahmequelle für exklusiven Content, #2.398) wurden ebenfalls miteinbezogen.
- Inhalte von Newsmagazinen in den Top 10: NYTimes (#4), The Guardian (#7), Forbes (#8), HuffPost (#9).
- Die Trainingsdaten beinhalten auch rund 5% religiöse Websites. Von diesen 5% sind in den Top 20 der religiösen Websites: 14 christliche, zwei jüdische und eine muslimische, eine mormonische, eine von den Zeugen Jehovas und eine für alle Religionen.
- Mehr als eine halbe Million persönliche Blogs dienen ebenso als Trainingsgrundlage. Dies beinhalten unter anderem Plattformen, wie Medium (#46), WordPress, Tumblr, Blogspot und Live Journal.
- An einigen Stellen befanden sind rechtsextreme, transfeindliche und regierungsfeindliche Websites.
Im Artikel der Washington Post kannst du dir die Websites genauer anschauen, die als Trainingsgrundlage verwendet wurden. Du kannst auch speziell nach Websites suchen und dir anzeigen lassen, an welcher Stelle die Websites erscheinen und daraus ableiten, wie viele Inhalte der Sites in die Trainingsdaten mit eingeflossen sind.

Fazit
Nach dem Artikel der Washington Post ist anzunehmen, dass die Trainingsdaten, für GPT-3 (auf der ChatGPT basiert) die 40-fache Menge der C4-Daten beinhaltet. Interessant auch die Aussage (bei der sie sich auf Experten im Feld stützen): Scheuen sich KI-Unternehmen die Quellen der Trainingsdaten zu dokumentieren. Aus Angst, personenbezogene Daten, urheberrechtlich geschütztes Material und andere Daten zu finden, ohne vorher um Erlaubnis gefragt zu haben.