- Datensammlung: Meine Ausbildung begann mit einem vielfältigen Angebot an Internettexten. Allerdings sollte ich beachten, dass ich zwar anhand eines breiten Datensatzes geschult wurde, aber keine genauen Informationen darüber habe, welche Dokumente Teil dieses Trainingssatzes waren, und dass ich keinen Zugriff auf bestimmte Dokumente oder Quellen habe.
- Erstausbildung (Vorschulung): Hier habe ich gelernt, das nächste Wort in einem Satz vorherzusagen. Ich habe weder Englisch noch eine andere Sprache gelernt. Stattdessen lernte ich durch die Vorhersage des nächsten Wortes in Millionen von Sätzen nach und nach etwas über Grammatik, Fakten über die Welt und einige Denkfähigkeiten. Allerdings bedeutet dies auch, dass ich möglicherweise aus voreingenommenen oder falschen Informationen gelernt habe, da die Daten nicht gründlich gefiltert wurden.
- Feinabstimmung: Nach der ersten Schulung stellten meine Entwickler bei OpenAI weitere Anleitungen mit einem spezifischeren Datensatz zur Verfügung, der mithilfe menschlicher Gutachter erstellt wurde. Diese Prüfer befolgen Richtlinien, um mögliche Modellausgaben für eine Reihe von Beispieleingaben zu überprüfen und zu bewerten. Der Feinabstimmungsprozess ist eine Art Dialog zwischen dem Modell und den Prüfern, der mir hilft, mich besser an den menschlichen Werten auszurichten.
- Fortlaufendes Lernen: Obwohl ich aus Datenschutzgründen nicht aus einzelnen Interaktionen lerne, arbeitet OpenAI kontinuierlich mit einem Team menschlicher Prüfer zusammen, um Feedback zu geben und iterative Verbesserungen auf der Grundlage breiterer Muster und Erkenntnisse vorzunehmen.
- Beispiel vor dem Training: Angenommen, wir haben den Satz „Die Katze saß auf dem __“. In der Vortrainingsphase lernte das Modell wie ich, das nächste Wort im Satz vorherzusagen, das „Matte“, „Dach“ oder „Baum“ sein könnte. Dies wird durch die Verarbeitung von Milliarden Sätzen aus verschiedenen Internettexten gelernt, wobei indirekt menschliche Interaktion bei der Erstellung des ursprünglichen Inhalts durch Menschen einbezogen wird.
- Beispiel für die Feinabstimmung: Nach der Vortrainingsphase tritt das Modell in die Feinabstimmungsphase ein. So könnte es funktionieren:
Der menschliche Prüfer erhält die Aufgabe, mögliche Modellausgaben auf Eingaben wie „Übersetzen Sie den folgenden englischen Text ins Französische: ‚Hallo, wie geht es Ihnen?‘“ zu überprüfen. Das Modell generiert möglicherweise mehrere Antworten wie „Bonjour, comment ça va?“ oder „Salut, Kommentar vas-tu?“ usw.
Der Prüfer bewertet diese Antworten anhand von Faktoren wie Genauigkeit, Geläufigkeit und Angemessenheit. Diese Bewertungen helfen dem Modell, ähnliche Eingaben in der Zukunft zu verallgemeinern und darauf zu reagieren.
Denken Sie daran, dass die hier bereitgestellten Beispiele vereinfacht sind, um den Prozess zu veranschaulichen. Das eigentliche Training erfordert komplexe Algorithmen und riesige Datenmengen.
- Vielfalt an Daten: Dabei kommt es nicht nur auf die Menge der Daten an, sondern auch auf deren Vielfalt. Die Daten müssen vielfältig sein, um ein breites Spektrum an Themen, Stilen und Tönen der menschlichen Sprache abzudecken.
- Qualität der Daten: Auch die Qualität der für das Training verwendeten Daten kann Einfluss darauf haben, wie effektiv das Modell lernt. Bessere Datenqualität kann potenziell den Umfang reduzieren, der für ein effektives Training erforderlich ist.
- Modellarchitektur: Auch die Architektur des Modells (wie die Anzahl der Schichten oder Parameter im neuronalen Netzwerk) kann Einfluss darauf haben, wie viele Daten benötigt werden. Größere Modelle wie GPT-3 oder GPT-4 erfordern normalerweise mehr Daten als kleinere Modelle.
- Trainingsziele: Die Art der Aufgaben, die das Modell ausführen soll, kann die Menge der benötigten Daten beeinflussen. Ein Modell, das für eine bestimmte Aufgabe entwickelt wurde, erfordert möglicherweise weniger Daten, wenn es zielgerichtet ist, während ein Allzweckmodell wie GPT-3 oder GPT-4, das für die Bewältigung einer Vielzahl von Aufgaben entwickelt wurde, für ein umfassenderes Verständnis mehr Daten erfordert.
Im Fall von GPT-3 beispielsweise verfügt das Modell über 175 Milliarden Parameter und wurde auf Hunderten Gigabyte Text trainiert. Doch diese Zahlen spiegeln die Komplexität des Prozesses nicht vollständig wider. Die Einzelheiten des Trainingsprozesses, einschließlich der genauen Menge der verwendeten Daten, sind proprietäre Angaben von OpenAI und ähnlichen Organisationen.
- Fangen Sie klein an: Insbesondere für einfache Probleme oder erste Modellprototypen kann ein kleinerer Datensatz ausreichend sein. Wenn Sie beispielsweise einen einfachen Bildklassifikator erstellen, beginnen Sie möglicherweise mit einigen hundert oder tausend Bildern pro Kategorie.
- Bedenken Sie die Komplexität: Komplexere Probleme erfordern normalerweise mehr Daten. Wenn Sie ein Deep-Learning-Modell entwickeln oder mit einem komplexen Problem wie der Verarbeitung natürlicher Sprache arbeiten, benötigen Sie möglicherweise Millionen von Datenpunkten.
- Qualität vor Quantität: Qualitativ hochwertige, relevante Daten können oft nützlicher sein als eine riesige Menge an Daten von schlechter Qualität. Es ist von entscheidender Bedeutung, sicherzustellen, dass Ihre Daten ordnungsgemäß bereinigt und mit Anmerkungen versehen sind und repräsentativ für das Problem sind, das Sie lösen möchten.
- Balancieren Sie Ihre Klassen: Achten Sie bei betreuten Lernaufgaben auf eine gute Ausgewogenheit der Beispiele für jede Klasse. Ein unausgeglichener Datensatz kann dazu führen, dass ein Modell bei unterrepräsentierten Klassen eine schlechte Leistung erbringt.
- Verwenden Sie Validierungs- und Testsätze: Ein Teil Ihres Datensatzes sollte für die Validierung (Optimierung der Modellparameter) und das Testen (Bewertung der Modellleistung) reserviert werden. Übliche Aufteilungen könnten 70 % der Daten für das Training, 15 % für die Validierung und 15 % für Tests sein, obwohl diese Anteile variieren können.
- Experimentieren und iterieren: Beginnen Sie mit einer anfänglichen Datenmenge, trainieren Sie Ihr Modell, bewerten Sie seine Leistung und fügen Sie iterativ weitere Daten hinzu, optimieren Sie Ihr Modell oder verbessern Sie Ihre Datenqualität basierend auf den Ergebnissen.
Denken Sie daran, dass mehr Daten normalerweise die Leistung von Modellen für maschinelles Lernen verbessern, jedoch nur bis zu einem gewissen Punkt. Ab einem bestimmten Punkt ist das Sammeln weiterer Daten möglicherweise zeitaufwändiger und kostspieliger als es wert ist, und es kann vorteilhafter sein, sich auf die Verbesserung der Datenqualität oder die Verfeinerung der Modellarchitektur zu konzentrieren.
- Vortraining: In dieser Phase wird das Modell einer großen Menge an Internettextdaten ausgesetzt. Diese Daten werden nicht explizit mit Anmerkungen versehen, aber das Modell ist darauf trainiert, das nächste Wort in einem Satz vorherzusagen. Dadurch erhält das Modell ein allgemeines Verständnis der Grammatik, Fakten über die Welt und einige Denkfähigkeiten.
- Feinabstimmung: Nach dem Vortraining wird das Modell anhand eines engeren Datensatzes, der mit Hilfe menschlicher Prüfer erstellt wurde, weiter verfeinert. Diese Prüfer folgen den Richtlinien von OpenAI, um mögliche Modellausgaben für eine Reihe von Eingaben zu überprüfen und zu bewerten. In diesem Sinne kann der Feinabstimmungsprozess als eine Form der Annotation betrachtet werden, bei der menschliche Prüfer die Antworten des Modells steuern und so dazu beitragen, dass es sich besser an menschlichen Werten ausrichtet und dafür sorgt, dass unangemessene oder unsichere Inhalte vermieden werden.
Während also der für das Vortraining verwendete Ausgangsdatensatz nicht im herkömmlichen Sinne annotiert ist, umfasst der Feinabstimmungsprozess eine Form der Annotation, bei der menschliche Prüfer das Verhalten des Modells steuern, indem sie verschiedene Ergebnisse bewerten.
Richtigkeit: Prüfer bewerten, ob die Ausgabe des Modells sachlich korrekt ist.
Ejemplo:
Angemessenheit: Die Ausgabe des Modells wird auf ihre Angemessenheit in Bezug auf die gegebene Eingabe bewertet.
Ejemplo:
Sicherheit: Die Ausgaben werden überprüft, um sicherzustellen, dass sie keine schädlichen Anweisungen oder beleidigende Sprache enthalten.
Ejemplo:
Vollständigkeit: Dadurch wird beurteilt, ob die Antwort des Modells die Anfrage des Benutzers vollständig beantwortet.
Ejemplo:
Geläufigkeit: Prüfer prüfen, ob die Ausgabe des Modells sprachlich flüssig und kohärent ist.
Ejemplo:
Bei diesen Kategorien handelt es sich lediglich um Beispiele. Der eigentliche Feinabstimmungsprozess umfasst ein komplexeres Bewertungssystem und kontinuierliches Feedback zwischen den Prüfern und dem KI-Entwicklungsteam. Das Ziel dieser Anmerkungen besteht darin, die Antworten des Modells hilfreicher, sicherer und an menschlichen Werten auszurichten.
OpenAI, die Organisation hinter ChatGPT, gibt die genaue Anzahl der Prüfer, die am Feinabstimmungsprozess beteiligt sind, nicht öffentlich bekannt. Angesichts des Umfangs und der Komplexität des Trainings eines so großen Sprachmodells kann man jedoch mit Sicherheit sagen, dass an dem Prozess wahrscheinlich ein umfangreiches Team von Prüfern beteiligt ist.
Diese menschlichen Prüfer befolgen die von OpenAI bereitgestellten Richtlinien, um mögliche Modellergebnisse zu überprüfen und zu bewerten. Es handelt sich um einen kontinuierlichen, iterativen Prozess, bei dem das Feedback der Prüfer genutzt wird, um das Modell im Laufe der Zeit zu verbessern und zu verfeinern. OpenAI unterhält eine starke Feedbackschleife mit den Gutachtern, einschließlich wöchentlicher Treffen, um Fragen zu beantworten und Klarstellungen zu geben.
- Komplexität der Aufgabe: Einfache Aufgaben wie das Beschriften von Bildern oder das Kategorisieren von Text würden pro PDF weniger Zeit in Anspruch nehmen, sodass ein einzelner Annotator mehr Dateien verarbeiten könnte. Andererseits würden komplexe Aufgaben wie die detaillierte Entitätsextraktion oder die semantische Analyse mehr Zeit pro Dokument und damit mehr Annotatoren für das gleiche PDF-Volumen erfordern.
- Länge und Komplexität der PDFs: Das Kommentieren einer längeren oder komplexeren PDF-Datei dauert länger als eine kürzere oder einfachere.
- Qualitätsanforderungen: Wenn eine hohe Präzision erforderlich ist, kann es erforderlich sein, mehrere Annotatoren pro PDF zu haben, um Anmerkungen gegenzuverifizieren.
- Zeitbeschränkungen: Wenn die Annotationen schnell abgeschlossen werden müssen, wären mehr Annotatoren erforderlich.
Nehmen wir als hypothetisches Beispiel an, dass ein Annotator fünf PDFs pro Tag für eine bestimmte Aufgabe kommentieren kann und fünf Tage die Woche arbeitet. In diesem Fall würde ein einzelner Kommentator zum Kommentieren von 5 PDFs 5 Tage oder etwa 10,000 Jahre benötigen.
Wenn Sie jedoch ein Team von 20 Annotatoren hätten, könnten diese die Aufgabe in etwa 5 Monaten erledigen (bei 20 Arbeitstagen pro Monat). Mit 100 Annotatoren könnte die gleiche Aufgabe in etwa einem Monat erledigt werden.
Bedenken Sie, dass diese Zahlen rein illustrativer Natur sind und die tatsächliche Geschwindigkeit der Annotation von den oben genannten Faktoren abhängt. Darüber hinaus sind eine ordnungsgemäße Schulung der Annotatoren und eine konsequente Qualitätskontrolle entscheidend für den Erfolg jedes groß angelegten Annotationsprojekts.