Offene Datensätze
Entdecken Sie Open-Source-Datasets, mit denen Sie ML-Modelle trainieren können
Open-Source-Datensätze für den Einstieg in KI/ML-Modelle
Die Ausgabe Ihrer KI- und ML-Modelle ist nur so gut wie die Daten, die Sie zum Trainieren verwenden – daher ist die Präzision, die Sie bei der Datenaggregation und beim Tagging und Identifizieren dieser Daten anwenden, wichtig!
Wenn Sie also eine neue KI/ML-Initiative starten möchten und jetzt schnell erkennen, dass das Auffinden hochwertiger Trainingsdaten einer der schwierigeren Aspekte Ihres Projekts sein wird, da hochwertige Datensätze der Treibstoff sind, der die KI/ ML-Motor läuft. Wir haben eine Liste mit offenen Datensätzen zusammengestellt, die Sie kostenlos verwenden und Ihre KI/ML-Modelle der Zukunft trainieren können.
| Spezialisierung | Dateityp | Datensatzname | Industrie / Abt. | Anmerkung/Anwendungsfall | Link |
|---|---|---|---|---|---|
| +NLP | Text | Amazon Bewertungen | E-Commerce | Stimmungsanalyse | Link |
| Beschreibung | Ein Satz von 35 Mio. Rezensionen und Bewertungen der letzten 18 Jahre im Klartext mit Benutzer- und Produktdetails. | ||||
| +NLP | Text | Wikipedia-Link-Daten | Allgemein | Link | |
| Beschreibung | Mehr als 4 Millionen Artikel mit 1.9 Milliarden Wörtern aus Wikipedia. Jeder Artikel enthält Hyperlinks zum zugehörigen Eintrag. | ||||
| +NLP | Text | Standford Gefühlsbaumbank | Unterhaltung | Stimmungsanalyse | Link |
| Beschreibung | Sentiment-Annotationen für über 10,000 Sätze aus Rotten Tomatoes-Filmrezensionen. Verfügbar auf Phrasenebene – jeder Satz wird durch Binärisierung der Syntaxbäume im Penn Treebank-Format in Teilphrasen zerlegt. | ||||
| +NLP | Text | Twitter US-Airline-Sentiment | Fluggesellschaft | Stimmungsanalyse | Link |
| Beschreibung | Die Tweets aus dem Jahr 2015 über US-Fluggesellschaften ließen sich in positive, neutrale und negative Stimmungen unterteilen. | ||||
| +CV | Bild | Imagenet | Allgemein | Link | |
| Beschreibung | Der Datensatz umfasst über 14 Millionen Bilder in verschiedenen Dateiformaten, die rund 21,000 Synsets zugeordnet sind. Synsets sind Synonyme mit zugehörigen, als Bild dargestellten Entitäten. Eine Million Bilder verfügen über Begrenzungsrahmen und mehr als eine Million Bilder über SIFT-Merkmale. | ||||
| +CV | Bild | Googles offene Bilder | Allgemein | Link | |
| Beschreibung | Ein Datensatz ähnlich ImageNet mit 600 Kategorien. Verfügbar in Entwicklungs-, Validierungs- und Trainingsversionen. Einige Bilder enthalten außerdem Begrenzungsrahmen und visuelle Beziehungen. | ||||
| +NLP | Text | Cornell-Filmdialoge | Unterhaltung | Dialoge | Link |
| Beschreibung | Eine Sammlung fiktiver Gespräche mit Metadaten zu Charakteren und Filmen. Jede Zeile stellt einen Dialog zwischen zwei Personen im Frage-Antwort-Format dar. | ||||
| +NLP | Text | Yahoo Answers | Allgemein | Frage beantworten | Link |
| Beschreibung | Ein Frage-Antwort-Datensatz mit Fragen und Antworten aus dem Yahoo Answers-Portal zwischen April 2007 und Oktober 2007. | ||||
| +NLP | Text | MS MARCO | Allgemein | Frage beantworten | Link |
| Beschreibung | Ein Frage-Antwort-Datensatz mit Annotationen aus den Web-Suchprotokollen von Bing. Jede Frage enthält eine von einem Nutzer bereitgestellte Antwort sowie Webpassagen, die diese Antwort enthalten. | ||||
| +NLP | Text | Datensatz „Natürliche Fragen“ | Allgemein | Frage beantworten | Link |
| Beschreibung | Dieser von Google veröffentlichte Datensatz enthält echte Nutzeranfragen und -antworten aus Wikipedia-Artikeln. | ||||
| +NLP | Text | DBPedia | Allgemein | Wissen Graph | Link |
| Beschreibung | Eine strukturierte Darstellung von Wikipedia, bei der Entitäten und Beziehungen als Wissensgraph extrahiert werden. | ||||
| +NLP | Text | YAGO | Allgemein | Wissen Graph | Link |
| Beschreibung | Ein Wissensgraph, der Entitäten und Relationen aus Wikipedia, WordNet und GeoNames enthält. | ||||
| +NLP | Text | FreeBase | Allgemein | Wissen Graph | Link |
| Beschreibung | Eine von der Crowd erstellte Wissensdatenbank, bestehend aus Entitäten und Beziehungen, die nun in den Google Knowledge Graph integriert ist. | ||||
| +NLP | Text | Ontonotes | Allgemein | Semantische Rollenkennzeichnung | Link |
| Beschreibung | Ein Korpus mit syntaktischen, semantischen und diskursbezogenen Annotationen, der in den CoNLL Shared Tasks verwendet wurde. | ||||
| +NLP | Text | CoNLL 2003 | Allgemein | Anerkennung benannter Entitäten | Link |
| Beschreibung | Ein englischer Datensatz mit Annotationen für benannte Entitäten wie Person, Organisation und Ort. | ||||
| +CV | Bild | KOKOSNUSS | Allgemein | Objekterkennung | Link |
| Beschreibung | Common Objects in Context: ein reichhaltig annotierter Datensatz für Objekterkennung, Segmentierung und Bildunterschriften. | ||||
| +CV | Bild | PASCAL-VOC | Allgemein | Objekterkennung | Link |
| Beschreibung | Ein Benchmark-Datensatz für Herausforderungen in den Bereichen Objekterkennung und Segmentierung. | ||||
| +CV | Bild | Stadtlandschaften | Autonomes Fahren | Semantische Segmentierung | Link |
| Beschreibung | Datensatz zum Verständnis urbaner Szenen mit pixelgenauen Annotationen für 30 Klassen. | ||||
| +CV | Bild | MNIST | Allgemein | Ziffernklassifizierung | Link |
| Beschreibung | Datensatz handgeschriebener Ziffern mit 60,000 Trainings- und 10,000 Testbildern mit einer Auflösung von 28x28 Pixeln. | ||||
| +CV | Bild | Mode-MNIST | Einzelhandel | Bildklassifizierung | Link |
| Beschreibung | Datensatz mit Artikelbildern von Zalando im gleichen Format wie MNIST, der als direkter Ersatz für Benchmarking-Zwecke verwendet wird. | ||||
| +NLP | Audio | LibriSpeech | Allgemein | ASR | Link |
| Beschreibung | Ein Korpus gelesener englischer Sprache, abgeleitet aus Hörbüchern, mit 1000 Stunden gesprochenem Material und zugehörigen Texten. | ||||
| +NLP | Audio | TED-LIUM | Allgemein | ASR | Link |
| Beschreibung | Transkribierte TED-Vorträge mit Audio und ausgerichteten Transkriptionen für die Spracherkennungsforschung. | ||||
| +NLP | Audio | TIMIT | Allgemein | Phonemerkennung | Link |
| Beschreibung | Phonetisch transkribierte Sprache von amerikanischen Englischsprechern, die häufig für Aufgaben zur Phonemerkennung verwendet wird. | ||||
| +NLP | Audio | Gemeinsame Stimme | Allgemein | ASR | Link |
| Beschreibung | Ein mehrsprachiges Korpus vorgelesener Sprache, zu dem Freiwillige aus aller Welt beigetragen haben. | ||||
| +NLP | Audio | VoxCeleb | Allgemein | Sprechererkennung | Link |
| Beschreibung | Ein umfangreicher Datensatz zur Sprecheridentifizierung, der aus YouTube-Videos zusammengestellt wurde. | ||||
| +NLP | Text | Wikipedia-Dump | Allgemein | Sprachmodellierung | Link |
| Beschreibung | Vollständige, regelmäßig aktualisierte Wikipedia-Artikel, die zum Vortraining von Sprachmodellen verwendet werden. | ||||
| +NLP | Text | Gigaword | Neuigkeiten | Sprachmodellierung | Link |
| Beschreibung | Ein umfassendes Archiv von Nachrichtentexten verschiedener Nachrichtenagenturen. | ||||
| +NLP | Text | IMDB Bewertungen | Unterhaltung | Stimmungsanalyse | Link |
| Beschreibung | Großer Datensatz mit Filmrezensionen für die binäre Stimmungsanalyse. | ||||
| +CV | Video | Kinetik-700 | Allgemein | Aktionserkennung | Link |
| Beschreibung | Ein umfangreicher, qualitativ hochwertiger Datensatz von YouTube-Videoclips, der 700 menschliche Handlungsklassen abdeckt. | ||||
| +CV | Video | UCF101 | Allgemein | Aktionserkennung | Link |
| Beschreibung | Ein Datensatz mit realistischen Actionvideos, mit 101 Actionkategorien. | ||||
| +CV | Video | HMDB51 | Allgemein | Aktionserkennung | Link |
| Beschreibung | Eine große Videodatenbank mit menschlichen Bewegungen und 51 Aktionskategorien. | ||||
| +CV | Bild | LFW (Beschriftete Gesichter in der Wildnis) | Allgemein | Gesichtserkennung | Link |
| Beschreibung | Eine Datenbank mit Gesichtsfotos, die für die Untersuchung der uneingeschränkten Gesichtserkennung entwickelt wurde. | ||||
| +CV | Bild | CASIA-WebFace | Allgemein | Gesichtserkennung | Link |
| Beschreibung | Ein Datensatz mit Millionen von Gesichtsbildern zum Trainieren von Deep-Learning-Modellen zur Gesichtserkennung. | ||||
| +NLP | Text | Kader | Allgemein | Leseverständnis | Link |
| Beschreibung | Stanford Question Answering Dataset: Fragen, die von Crowdworkern zu einer Reihe von Wikipedia-Artikeln gestellt wurden. | ||||
| +NLP | Text | NewsQA | Neuigkeiten | Leseverständnis | Link |
| Beschreibung | Ein Datensatz zum maschinellen Textverständnis mit Fragen und Antworten, die auf CNN-Nachrichtenartikeln basieren. | ||||
| +NLP | Text | MultiNLI | Allgemein | Inferenz natürlicher Sprache | Link |
| Beschreibung | Ein Datensatz für die natürliche Sprachinferenz anhand von Satzpaaren über verschiedene Genres hinweg. | ||||
| +NLP | Text | SNLI | Allgemein | Inferenz natürlicher Sprache | Link |
| Beschreibung | Stanford Natural Language Inference Corpus mit Satzpaaren, die als Folgerung, Widerspruch oder neutral gekennzeichnet sind. | ||||
| +NLP | Text | WikiText | Allgemein | Sprachmodellierung | Link |
| Beschreibung | Eine Sammlung von über 100 Millionen Tokens, die aus den verifizierten Artikeln „Gut“ und „Hervorgehoben“ auf Wikipedia extrahiert wurden. | ||||
| +CV | Bild | Stanford Autos | Automobilindustrie | Feinkörnige Klassifizierung | Link |
| Beschreibung | Ein Datensatz mit 16,185 Bildern von 196 Fahrzeugklassen. | ||||
| +CV | Bild | Oxford Flowers 102 | Pflanzenkunde | Feinkörnige Klassifizierung | Link |
| Beschreibung | 102 Blumenkategorien, die häufig im Vereinigten Königreich vorkommen. | ||||
| +CV | Bild | CIFAR-10 | Allgemein | Bildklassifizierung | Link |
| Beschreibung | Bilder aus 10 Klassen: Flugzeug, Auto, Vogel, Katze, Reh, Hund, Frosch, Pferd, Schiff und Lastwagen. | ||||
| +CV | Bild | CIFAR-100 | Allgemein | Bildklassifizierung | Link |
| Beschreibung | Ein Datensatz ähnlich wie CIFAR-10, jedoch mit 100 fein abgestuften Klassen. | ||||
| +CV | Bild | VOC-Personenlayout | Allgemein | Posenschätzung | Link |
| Beschreibung | Teil von PASCAL VOC, der sich auf Personenlayout-Annotationen wie Kopf, Hände und Füße konzentriert. | ||||
| +CV | Bild | MPII Menschliche Pose | Allgemein | Posenschätzung | Link |
| Beschreibung | Rund 25,000 Bilder mit über 40,000 Personen und annotierten Körpergelenken. | ||||
| +NLP | Text | Reuters-21578 | Finanzen | Textklassifizierung | Link |
| Beschreibung | Sammlung von Reuters-Nachrichtenartikeln für die Textkategorisierungsforschung. | ||||
| +NLP | Text | 20 Newsgroups | Allgemein | Textklassifizierung | Link |
| Beschreibung | Eine Sammlung von 20,000 Newsgroup-Dokumenten, aufgeteilt in 20 verschiedene Newsgroups. | ||||