Definition
Synthetische Daten sind künstlich generierte Informationen, die reale Daten nachahmen. Sie können mithilfe von Simulationen, GANs oder anderen generativen Methoden erstellt werden.
Zweck
Der Zweck besteht darin, reale Daten zu ergänzen oder zu ersetzen, wenn diese selten, sensibel oder teuer zu erfassen sind.
Bedeutung
- Schützt die Privatsphäre, indem die Abhängigkeit von personenbezogenen Daten reduziert wird.
- Ermöglicht das Training für seltene oder Randfälle.
- Möglicherweise fehlt die volle Komplexität realer Daten.
- Wird zunehmend in sicherheitskritischer KI verwendet.
Funktionsweise
- Definieren Sie die zu replizierenden Datenmerkmale.
- Verwenden Sie Simulationen oder generative Modelle, um Daten zu erstellen.
- Validieren Sie synthetische Daten anhand realer Verteilungen.
- Verwenden Sie synthetische Daten in Trainingspipelines.
- Achten Sie auf Lücken im Realismus.
Beispiele (Reale Welt)
- Waymo: nutzt synthetische Fahrszenen für autonomes Training.
- NVIDIA Omniverse: generiert synthetische 3D-Daten für die Robotik.
- Gesundheitswesen: Synthetische Patientendaten für die Forschung.
Referenzen / Weiterführende Literatur
- NIST-Sonderveröffentlichung zu synthetischen Daten.
- Goncalves et al. „Generierung und Auswertung synthetischer Daten.“ ACM Computing Surveys.
- Synthetic Data Vault (MIT).
- Was sind synthetische Daten in der KI?