Offene Datensätze
Entdecken Sie Open-Source-Datasets, mit denen Sie ML-Modelle trainieren können
Open-Source-Datensätze für den Einstieg in KI/ML-Modelle
Die Ausgabe Ihrer KI- und ML-Modelle ist nur so gut wie die Daten, die Sie zum Trainieren verwenden – daher ist die Präzision, die Sie bei der Datenaggregation und beim Tagging und Identifizieren dieser Daten anwenden, wichtig!
Wenn Sie also eine neue KI/ML-Initiative starten möchten und jetzt schnell erkennen, dass das Auffinden hochwertiger Trainingsdaten einer der schwierigeren Aspekte Ihres Projekts sein wird, da hochwertige Datensätze der Treibstoff sind, der die KI/ ML-Motor läuft. Wir haben eine Liste mit offenen Datensätzen zusammengestellt, die Sie kostenlos verwenden und Ihre KI/ML-Modelle der Zukunft trainieren können.
Spezialisierung | Dateityp | Datensatzname | Industrie / Abt. | Anmerkung/Anwendungsfall | Beschreibung | Link |
---|---|---|---|---|---|---|
NLP | Text | Amazon Bewertungen | E-Commerce | Stimmungsanalyse | Ein Satz von 35 Mio. Rezensionen und Bewertungen der letzten 18 Jahre im Klartext mit Benutzer- und Produktdetails. | Link |
NLP | Text | Wikipedia-Link-Daten | Allgemein | Mehr als 4 Mio. Artikel mit 1.9 Mrd. Wort, das aus Wörtern und Phrasen sowie Absätzen besteht. | Link | |
NLP | Text | Standford Gefühlsbaumbank | Unterhaltung | Stimmungsanalyse | Datensatz mit Stimmungsanmerkungen für über 10,000 Rezensionen von Rotten Tomatoes im HTML-Dateiformat | Link |
NLP | Text | Twitter US-Airline-Sentiment | Fluggesellschaft | Stimmungsanalyse | Tweets von 2015 über US Airlines unterteilten sich in positive, negative und neutrale Töne | Link |
CV | Bild | Beschriftete Gesichter in freier Wildbahn | Allgemein | Gesichtserkennung | Datensatz mit über 13,000 zugeschnittenen Gesichtern mit zwei verschiedenen Bildern für das Gesichtserkennungstraining. | Link |
CV | Video, Bild | UMDFaces-Datensatz | Allgemein | Gesichtserkennung | Annotierter Datensatz mit über 367,000 Gesichtern von über 8,000 Motiven, der Stand- und Videobilder enthält. | Link |
CV | Bild | Imagenet | Allgemein | Datensatz mit über 14 Mn. Bilder in verschiedenen Dateiformaten, organisiert nach der WordNet-Hierarchie. | Link | |
CV | Bild | Googles offene Bilder | Allgemein | 9 Mio. URLs zur Kategorisierung öffentlicher Bilder aus über 6,000 Kategorien. | Link | |
NLP | Text | MIMIC-Datenbank für Intensivpflege | Gesundheitswesen | Computational Physiology Datasets mit anonymisierten Daten von 40,000 Intensivpatienten. Der Datensatz enthält Informationen wie Demografie, Vitalparameter, Medikamente usw. | Link | |
CV | Bild | Nationales Reise- und Tourismusbüro der USA | Tourismus | Bietet umfassende Fotografien aus der Tourismusbranche mit vertrauenswürdigen Datenbanken, die Themen wie ein- und ausgehende Reisen und internationale Touristeninformationen abdecken. | Link | |
NLP | Text | Verkehrsministerium | Tourismus | Tourismusdatensätze mit Nationalparks, Fahrerregistern, Brücken und Bahninformationen usw. | Link | |
NLP | Audio | Flickr-Audiountertitel-Korpus | Allgemein | Über 40 gesprochene Untertitel aus 8,000 Fotos, die für unbeaufsichtigte Sprachmuster entwickelt wurden | Link | |
NLP | Audio | Datensatz für Sprachbefehle | Allgemein | Spracherkennung, Audiokommentar | 1 Sekunde lange Äußerungen von Tausenden von Personen, um eine grundlegende Sprachschnittstelle zu erstellen. | Link |
NLP | Audio | Umweltaudiodatensätze | Allgemein | Umgebungsaudio-Datasets, die Geräuschtabellen von Ereignissen und Tabellen für akustische Szenen enthalten. | Link | |
NLP | Text | Offener COVID-19-Forschungsdatensatz | Gesundheitswesen | Medizinische KI | Ein Forschungsdatensatz bestehend aus 45,000 wissenschaftlichen Artikeln zu COVID-19 und der Coronavirus-Virenfamilie. | Link |
CV | Bild | Offener Waymo-Datensatz | Automobilindustrie | Die unterschiedlichsten autonomen Fahrdatensätze von Waymo | Link | |
CV | Bild | Beschriften Sie mich | Öffentliche Regierung | Große Auswahl an kommentierten Bildern, die über das Labelme Matlab zugänglich sind | Link | |
CV | Bild | SPULE100 | Allgemein | Über 100 verschiedene Objekte, die aus mehreren Blickwinkeln (dh 360 Grad) fotografiert wurden | Link | |
CV | Bild | Stanford-Hunde-Datensatz | Allgemein | Über 20,500 Bilder kategorisiert in Bildersets von 120 verschiedenen Hunderassen | Link | |
CV | Bild | Indoor-Szenenerkennung | Allgemein | Szenenerkennung | Ein spezifischer Datensatz bestehend aus 15620 Bildern aus 67 Indoor-Kategorien zum Erstellen von Szenenerkennungsmodellen | Link |
CV | Bild | VisualQA | Allgemein | Ein Datensatz mit offenen Fragen zu 265,016 Fotos, für deren Beantwortung ein Seh- und Sprachverständnis erforderlich ist. | Link | |
NLP | Text | Datensatz zur Multidomänen-Sentimentanalyse | E-Commerce | Stimmungsanalyse | Datensatz mit Produktbewertungen von Amazon | Link |
NLP | Text | IMDB Bewertungen | Unterhaltung | Stimmungsanalyse | Datensatz mit 25000 Filmkritiken zur Stimmungsanalyse | Link |
NLP | Text | Blogger-Korpus | Allgemein | Keyprase-Analyse | Datensatz mit 681,288 Blog-Posts von blogger.com, der aus mindestens 200 Vorkommen weit verbreiteter englischer Wörter besteht. | Link |
NLP | Text | Jeopardy | Allgemein | Chatbot-Schulung | Datensatz mit mehr als 200,000 Fragen, mit denen Modelle für maschinelles Lernen trainiert werden können, um intelligent automatisch zu antworten | Link |
NLP | Text | SMS-Spam-Sammlung auf Englisch | Telekommunikation | Spam-Erkennung | Ein Spam-Nachrichten-Dataset bestehend aus 5,574 englischen SMS | Link |
NLP | Text | Yelp Bewertungen | Allgemein | Stimmungsanalyse | Ein von Yelp veröffentlichter Datensatz mit über 5 Mio. Rezensionen | Link |
NLP | Text | Spambase der UCICI | Unternehmen | Spam-Erkennung | Ein großer Datensatz von Spam-E-Mails, der für die Spam-Filterung nützlich ist. | Link |
CV | Video, Bild | Berkeley DeepDrive BDD100k | Automobilindustrie | Autonome Fahrzeuge | Einer der größten Datensätze für selbstfahrende KI mit 1,100 Stunden Fahrerlebnissen in über 100,000 Videos zu verschiedenen Tageszeiten aus New York und San Francisco. | Link |
CV | Video | Komma.ai | Automobilindustrie | Autonome Fahrzeuge | Ein 7-Stunden-Datensatz für Autobahnfahrten, bestehend aus Informationen zu Geschwindigkeit, Beschleunigung, Lenkwinkel und GPS-Koordinaten des Fahrzeugs | Link |
CV | Video, Bild | Stadtbild-Datensatz | Automobilindustrie | Semantisches Label für autonomes Fahrzeug | Ein Datensatz mit 5,000 Anmerkungen auf Pixelebene plus ein größerer Satz von 20,000 schwach kommentierten Bildern in Stereo-Videosequenzen, aufgenommen aus 50 verschiedenen Städten | Link |
CV | Bild | KUL Belgien Verkehrszeichendatensatz | Automobilindustrie | Autonome Fahrzeuge | Über 10000+ Verkehrszeichenanmerkungen aus der Region Flandern basierend auf physisch unterschiedlichen Verkehrszeichen aus ganz Belgien. | Link |
CV | Bild | LISA: Labor für intelligente und sichere Automobile, UC San Diego Datensätze | Automobilindustrie | Autonome Fahrzeuge | Ein umfangreiches Dataset mit Verkehrszeichen, Fahrzeugerkennung, Ampeln und Trajektorienmustern. | Link |
CV | Bild | CIFAR-10 | Allgemein | Objekterkennung | Ein Datensatz bestehend aus 50,000 Bildern und 10,000 Testbildern (dh 60,000 32×32 Farbbilder in 10 Klassen) zur Objekterkennung. | Link |
CV | Bild | Mode MNIST | Fashion | Ein Bilddatensatz, der aus 60,000 Beispielen und einem Testsatz von 10,000 Beispielen in 28×28 Graustufenbildern besteht, verbunden mit einem Label aus 10 Klassen. | Link | |
CV | Bild | IMDB-Wiki-Datensatz | Unterhaltung | Gesichtserkennung | Ein großer Datensatz von Gesichtsbildern mit Bezeichnungen wie Geschlecht und Alter. Von den insgesamt 523,051 Gesichtsbildern stammen 460,723 Bilder von 20,284 Prominenten aus IMDB und 62,328 aus Wikipedia. | Link |
CV | Video | Kinetik-700 | Allgemein | Für jede Aktionsklasse besteht der hochwertige Datensatz aus 650,000 Videoclips und umfasst 700 menschliche Aktionsklassen mit mindestens 600 Videoclips. Hier dauert jeder Clip etwa 10 Sekunden. | Link | |
CV | Bild | MS Coco | Allgemein | Objekterkennung, Segmentierung | Der Datensatz enthält 328k Bilder und hat insgesamt 2.5 Mio. Instanzen und 91 Objektbilder, um groß angelegte ML-Modelle zur Objekterkennung, Segmentierung und Datenbeschriftung zu trainieren. | Link |
CV | Bild | MPII-Datensatz zur menschlichen Haltung | Allgemein | Der Datensatz enthält etwa 25 Fotos mit über 40 Personen mit annotierten Körpergelenken, die für die artikulierte Schätzung der menschlichen Pose verwendet werden. Insgesamt deckt der Datensatz 410 menschliche Aktivitäten ab und jedes Bild ist mit einem Aktivitätslabel versehen. | Link | |
CV | Bild | Öffnen Sie Bilder | Allgemein | Anmerkungen zum Objektstandort | Bilddatensatz mit etwa 9 Mn Bildern, die mit Bildebenen-Labels, Objektbegrenzungsrahmen, Objektsegmentierung usw. annotiert sind. Der Datensatz besteht ebenfalls aus 16 Mn. Bounding Boxes für 600 Objektklassen auf 1.9 Mn Bildern. | Link |
CV | Video, Bild | Argo, von Argo, USA | Automobilindustrie | Begrenzungsrahmen, optischer Fluss, Verhaltenslabel, semantisches Label, Fahrspurmarkierung | Ein selbstfahrender Datensatz, der aus HD-Karten mit geometrischen und semantischen Metadaten besteht, z. B. Fahrspurmittellinien, Fahrspurrichtung und befahrbarer Bereich. Der Datensatz wird verwendet, um ML-Modelle zu trainieren, um genauere Wahrnehmungsalgorithmen zu erstellen, die selbstfahrenden Fahrzeugen helfen, sicher zu navigieren. | Link |
CV | Video | Bosch Kleine Ampeln, von Bosch North America Research | Automobilindustrie | Begrenzungsrahmen | Ein Datensatz bestehend aus 13427 Kamerabildern mit einer Auflösung von 1280*720, um ein visionsbasiertes Ampelerkennungssystem aufzubauen. Der Datensatz enthält mehr als 24000 kommentierte Ampeln. | Link |
CV | Video | Brain4Cars, von Cornell Univ., USA | Automobilindustrie | Verhaltenslabel | Ein Datensatz, der aus einer Reihe von Kabinensensoren (Kameras, taktile Sensoren, intelligente Geräte usw.) besteht, um nützliche Statistiken über die Aufmerksamkeit des Fahrers zu extrahieren. Unsere Algorithmen können schläfrige oder abgelenkte Fahrer erkennen und die erforderlichen Alarme auslösen, um den Schutz zu verbessern. | Link |
CV | Bild | CULane, von Chinese Univ. von Hongkong, Peking, China | Automobilindustrie | Fahrspurmarkierung | Ein Computer Vision-Datensatz zur Fahrspurerkennung, bestehend aus 55 Stunden Videos, von denen 133,235 (88880 Trainingsset, 9675 Validierungsset und 34680 Testset) Frames extrahiert wurden. Es wird von Kameras gesammelt, die an sechs verschiedenen Fahrzeugen angebracht sind, die von verschiedenen Fahrern in Peking gefahren werden. | Link |
CV | Video | DAVIS, von Univ. Zürich,ETH ¨ Zürich, Deutschland, Schweiz | Automobilindustrie | Ein End-to-End-Fahrzeugfahrtrainingsdatensatz, der eine DAVIS Event+Frame-Kamera verwendet. Fahrzeugdaten wie Lenkung, Gas, GPS etc. werden verwendet, um die Fusion von Rahmen- und Ereignisdaten für Automotive-Apps auszuwerten. | Link | |
CV | Video | DBNet, von Shanghai Jiao Tong Univ., Xiamen Univ., China | Automobilindustrie | Punktwolke, LiDAR | Reale 1000-KM-Fahrdaten, die abgestimmte Videos, Punktwolken, GPS und Fahrerverhalten umfassen, um das Fahrverhalten eingehend zu untersuchen. | Link |
CV | Video | Dr(eye)ve, von Univ. von Modena und Reggio Emilia, Modena, Italien | Automobilindustrie | Verhaltenslabel | Datensatz mit 74 Videosequenzen von jeweils 5 Minuten, die in mehr als 500,000 Frames kommentiert wurden. Der Datensatz besteht aus georeferenzierten Standorten, Fahrgeschwindigkeit, Kurs und auch Labels, Blickfixierungen und deren zeitliche Integration, die aufgabenspezifische Karten liefern. | Link |
CV | Video | ETH Fussgänger (2009), von ETH Zürich, Zürich, Schweiz | Allgemein | Begrenzungsrahmen | Ein Datensatz von 74 Videosequenzen von jeweils 5 Minuten, kommentiert in mehr als 500,000 Bildern. Der Datensatz liefert georeferenzierte Positionen, Fahrgeschwindigkeit, Fahrtrichtung sowie beschriftet Blickfixierungen für Fahrer und deren zeitliche Integration, einschließlich aufgabenspezifischer Karten. | Link |
CV | Video | Ford (2009), von Univ. von Michigan, Michigan, USA | Automobilindustrie | Begrenzungsrahmen, , LiDAR | Ein Datensatz, der von einem automatisierten Landfahrzeug zusammengestellt wurde, das mit einem Velodyne 3D-Lidar-Scanner, zwei zukunftsweisenden Rieg-Lidars, einer technischen und Verbraucher-Inertialmesseinheit (IMU) und einem omnidirektionalen Kamerasystem Point Grey Ladybug3 ausgestattet ist. | Link |
CV | Video | HCI Challenging Stereo, Bosch Corporation Research, Hildesheim, Deutschland | Allgemein | Ein Datensatz mit mehreren Millionen Bildern aus aufgenommenen Videoszenen, die eine Vielzahl unterschiedlicher Wetterbedingungen, mehrere Bewegungsebenen und Tiefen umfassen; Situationen in Stadt und Land usw. | Link | |
CV | Video | JAAD, von der York University, Ukraine, Kanada | Automobilindustrie | Begrenzungsrahmen, Verhaltensetikett | „JAAD ist ein Datensatz zur Untersuchung der gemeinsamen Aufmerksamkeit im Kontext des autonomen Fahrens. Der Fokus liegt auf dem Fußgänger- und Fahrerverhalten am Kreuzungspunkt und Faktoren, die es beeinflussen. Dazu bietet der JAAD-Datensatz eine reich kommentierte Sammlung von 346 Kurzvideos Clips (5–10 Sekunden lang), die aus über 240 Stunden Fahrmaterial von mehreren Orten in Nordamerika und Osteuropa extrahiert wurden. Für alle Fußgänger werden Begrenzungsrahmen mit Okklusions-Tags verwendet, wodurch dieser Datensatz für die Fußgängererkennung geeignet ist. Verhaltensanmerkungen geben das Verhalten von Fußgängern an die mit dem Fahrer interagieren oder die Aufmerksamkeit des Fahrers erfordern. Für jedes Video gibt es mehrere Tags (Wetter, Standorte usw.) und mit einem Zeitstempel versehene Verhaltenslabels (z. B. angehalten, gehen, schauen usw.). Darüber hinaus ist eine Liste demografischer Attribute vorhanden für jeden Fußgänger (zB Alter, Geschlecht, Bewegungsrichtung etc.) sowie eine Liste der sichtbaren Verkehrsszenenelemente (zB Stoppschild, Ampel etc.) in jedem Frame." | Link |
CV | Bild | Verkehrszeichen LISA, von Univ. aus Kalifornien, San Diego, USA | Automobilindustrie | Begrenzungsrahmen | Der Datensatz mit Videos und kommentierten Frames mit US-Verkehrszeichen. Es wird in zwei Stufen veröffentlicht, eine mit nur den Bildern und eine mit Bildern und Videos. | Link |
CV | Bild | Mapillary Vistas, von Mapillary AB, weltweit | Automobilindustrie | Semantisches Label | Ein Fotografie-Dataset auf Straßenebene zur Interpretation von Straßenszenen auf der ganzen Welt mit pixelgenauen und instanzspezifischen menschlichen Anmerkungen. | Link |
CV | Video, Bild | Semantisches KITTI der Universität Bonn, Karlsruhe, Deutschland | Automobilindustrie | Begrenzungsrahmen, semantisches Etikett, Fahrspurmarkierung | Ein Datensatz, der eine semantische Annotation für alle Odometry Benchmark-Sequenzen enthält. Der Datensatz annotiert verschiedene Arten von bewegtem und unbewegtem Verkehr: einschließlich Autos, Fahrräder, Fahrräder, Fußgänger und Radfahrer, sodass Objekte in der Szene untersucht werden können. | Link |
CV | Video | Stanford Track, von Stanford Univ., Vereinigte Staaten | Automobilindustrie | Objekterkennung / Klassifizierung LiDAR, GPS, Codes | Ein Datensatz, der 14,000 beschriftete Objektspuren enthält, wie sie von einem Velodyne HDL-64E S2 LIDAR in natürlichen Straßenszenen beobachtet wurden, und der verwendet werden kann, um maschinelle Lernmodelle für die 3D-Objekterkennung zu trainieren. | Link |
CV | Video, Bild | The Boxy Dataset, von Bosch, USA United | Automobilindustrie | Bounding Box / Fahrzeugerkennung | Ein Datensatz zur Fahrzeugerkennung mit 2 Millionen annotierten Fahrzeugen zum Trainieren und Analysieren von Objekterkennungsstrategien für selbstfahrende Autos auf Autobahnen. | Link |
CV | Video | TME-Autobahn, von der Tschechischen Technischen Universität, Norditalien | Automobilindustrie | Begrenzungsrahmen | Ein Datensatz mit 28 Clips für insgesamt 27 Minuten, aufgeteilt in über 30,000 Fahrzeuganmerkungsframes. Die Annotation wurde halbautomatisch mit den Daten des Laserscanners erstellt. Diese Datensammlung umfasst variable Verkehrsszenarien, die Anzahl der Fahrspuren, die Straßenkrümmung und die Beleuchtung und deckt einen Großteil der Bedingungen der vollständigen Erfassung ab. | Link |
CV | Video | Unbeaufsichtigte Lamas, von Bosch, USA | Automobilindustrie | Fahrspurmarkierung, LiDAR | Der Datensatz "Unüberwachte Lamas" wurde annotiert, indem hochauflösende automatische Fahrkarten, einschließlich Lidar-basierter Fahrspurmarkierungen, generiert wurden. An diesen Karten kann das autonome Fahrzeug ausgerichtet werden und die Fahrbahnmarkierungen werden in den Kamerarahmen projiziert. Die 3D-Projektion wird optimiert, indem die Diskrepanz zwischen bereits beobachteten und vorhergesagten Bildmarkierungen minimiert wird. | Link |
NLP | Audio | Facebook AI Mehrsprachiges LibriSpeech (MLS) | Allgemein | Audiokommentar / Spracherkennung | Facebook AI Multilingual LibriSpeech (MLS) ist ein umfangreicher Open-Source-Datensatz, der entwickelt wurde, um die Forschung im Bereich der automatischen Spracherkennung (ASR) voranzutreiben. MLS bietet mehr als 50,000 Stunden Audio in 8 Sprachen: Englisch, Deutsch, Niederländisch, Französisch, Spanisch, Italienisch, Portugiesisch und Polnisch. | Link |