Definition
Reinforcement Learning from Human Feedback (RLHF) ist eine Methode zur Anpassung von KI-Modellen an menschliche Werte durch die Einbeziehung menschlicher Urteile in den Trainingsprozess. Sie wird häufig zur Feinabstimmung großer Sprachmodelle eingesetzt.
Zweck
Ziel ist es, KI-Ergebnisse sicherer und nützlicher zu machen und sie an menschliche Präferenzen anzupassen. RLHF verbessert Konversationssysteme, indem es schädliche, voreingenommene oder irrelevante Antworten reduziert.
Bedeutung
- Bietet menschliche Aufsicht beim KI-Training.
- Verbessert die Vertrauenswürdigkeit von KI-Systemen.
- Arbeitsintensiv aufgrund des Bedarfs an menschlichen Anmerkungen.
- Bezieht sich auf Präferenzmodellierung und Ausrichtungsforschung.
Funktionsweise
- Sammeln Sie menschliches Feedback, indem Sie die Modellausgaben vergleichen.
- Trainieren Sie ein Belohnungsmodell anhand menschlicher Vorlieben.
- Verwenden Sie Reinforcement Learning, um das Basismodell zu optimieren.
- Bewerten Sie die Leistung anhand der Ausrichtungsziele.
- Iterieren Sie mit zusätzlichem Feedback.
Beispiele (Reale Welt)
- OpenAI ChatGPT: Feinabstimmung mit RLHF für sicherere Antworten.
- Anthropics konstitutionelle KI: prinzipiengeleitet statt durch direktes Feedback.
- InstructGPT: frühes OpenAI-Modell zur Demonstration von RLHF.
Referenzen / Weiterführende Literatur
- Christiano et al. „Deep Reinforcement Learning aus menschlichen Vorlieben.“ NeurIPS 2017.
- OpenAI InstructGPT-Papier.
- NIST-Rahmenwerk für KI-Risikomanagement.
- Was ist Reinforcement Learning with Human Feedback (RLHF)?