Offene Datensätze

Entdecken Sie Open-Source-Datasets, mit denen Sie ML-Modelle trainieren können

Open-Source-Datensätze für den Einstieg in KI/ML-Modelle

Die Ausgabe Ihrer KI- und ML-Modelle ist nur so gut wie die Daten, die Sie zum Trainieren verwenden – daher ist die Präzision, die Sie bei der Datenaggregation und beim Tagging und Identifizieren dieser Daten anwenden, wichtig!

Wenn Sie also eine neue KI/ML-Initiative starten möchten und jetzt schnell erkennen, dass das Auffinden hochwertiger Trainingsdaten einer der schwierigeren Aspekte Ihres Projekts sein wird, da hochwertige Datensätze der Treibstoff sind, der die KI/ ML-Motor läuft. Wir haben eine Liste mit offenen Datensätzen zusammengestellt, die Sie kostenlos verwenden und Ihre KI/ML-Modelle der Zukunft trainieren können.

Spezialisierung	Dateityp	Datensatzname	Industrie / Abt.	Anmerkung/Anwendungsfall	Beschreibung	Link
NLP	Text	Amazon Bewertungen	E-Commerce	Stimmungsanalyse	Ein Satz von 35 Mio. Rezensionen und Bewertungen der letzten 18 Jahre im Klartext mit Benutzer- und Produktdetails.	Link
NLP	Text	Wikipedia-Link-Daten	Allgemeines		Mehr als 4 Mio. Artikel mit 1.9 Mrd. Wort, das aus Wörtern und Phrasen sowie Absätzen besteht.	Link
NLP	Text	Standford Gefühlsbaumbank	Unterhaltung	Stimmungsanalyse	Datensatz mit Stimmungsanmerkungen für über 10,000 Rezensionen von Rotten Tomatoes im HTML-Dateiformat	Link
NLP	Text	Twitter US-Airline-Sentiment	Fluggesellschaft	Stimmungsanalyse	Tweets von 2015 über US Airlines unterteilten sich in positive, negative und neutrale Töne	Link
CV	Bild	Beschriftete Gesichter in freier Wildbahn	Allgemeines	Gesichtserkennung	Datensatz mit über 13,000 zugeschnittenen Gesichtern mit zwei verschiedenen Bildern für das Gesichtserkennungstraining.	Link
CV	Video, Bild	UMDFaces-Datensatz	Allgemeines	Gesichtserkennung	Annotierter Datensatz mit über 367,000 Gesichtern von über 8,000 Motiven, der Stand- und Videobilder enthält.	Link
CV	Bild	Imagenet	Allgemeines		Datensatz mit über 14 Mn. Bilder in verschiedenen Dateiformaten, organisiert nach der WordNet-Hierarchie.	Link
CV	Bild	Googles offene Bilder	Allgemeines		9 Mio. URLs zur Kategorisierung öffentlicher Bilder aus über 6,000 Kategorien.	Link
NLP	Text	MIMIC-Datenbank für Intensivpflege	Gesundheitswesen		Computational Physiology Datasets mit anonymisierten Daten von 40,000 Intensivpatienten. Der Datensatz enthält Informationen wie Demografie, Vitalparameter, Medikamente usw.	Link
CV	Bild	Nationales Reise- und Tourismusbüro der USA	Tourismus		Bietet umfassende Fotografien aus der Tourismusbranche mit vertrauenswürdigen Datenbanken, die Themen wie ein- und ausgehende Reisen und internationale Touristeninformationen abdecken.	Link
NLP	Text	Verkehrsministerium	Tourismus		Tourismusdatensätze mit Nationalparks, Fahrerregistern, Brücken und Bahninformationen usw.	Link
NLP	Audio	Flickr-Audiountertitel-Korpus	Allgemeines		Über 40 gesprochene Untertitel aus 8,000 Fotos, die für unbeaufsichtigte Sprachmuster entwickelt wurden	Link
NLP	Audio	Datensatz für Sprachbefehle	Allgemeines	Spracherkennung, Audiokommentar	1 Sekunde lange Äußerungen von Tausenden von Personen, um eine grundlegende Sprachschnittstelle zu erstellen.	Link
NLP	Audio	Umweltaudiodatensätze	Allgemeines		Umgebungsaudio-Datasets, die Geräuschtabellen von Ereignissen und Tabellen für akustische Szenen enthalten.	Link
NLP	Text	Offener COVID-19-Forschungsdatensatz	Gesundheitswesen	Medizinische KI	Ein Forschungsdatensatz bestehend aus 45,000 wissenschaftlichen Artikeln zu COVID-19 und der Coronavirus-Virenfamilie.	Link
CV	Bild	Offener Waymo-Datensatz	Automotive		Die unterschiedlichsten autonomen Fahrdatensätze von Waymo	Link
CV	Bild	Visuelles Genom	Allgemeines	Bilduntertitelung	Eine visuelle Wissensdatenbank mit detaillierten Untertiteln von über 100 Bildern	Link
CV	Bild	Beschriften Sie mich	Öffentliche Regierung		Große Auswahl an kommentierten Bildern, die über das Labelme Matlab zugänglich sind	Link
CV	Bild	SPULE100	Allgemeines		Über 100 verschiedene Objekte, die aus mehreren Blickwinkeln (dh 360 Grad) fotografiert wurden	Link
CV	Bild	Stanford-Hunde-Datensatz	Allgemeines		Über 20,500 Bilder kategorisiert in Bildersets von 120 verschiedenen Hunderassen	Link
CV	Bild	Indoor-Szenenerkennung	Allgemeines	Szenenerkennung	Ein spezifischer Datensatz bestehend aus 15620 Bildern aus 67 Indoor-Kategorien zum Erstellen von Szenenerkennungsmodellen	Link
CV	Bild	VisualQA	Allgemeines		Ein Datensatz mit offenen Fragen zu 265,016 Fotos, für deren Beantwortung ein Seh- und Sprachverständnis erforderlich ist.	Link
NLP	Text	Datensatz zur Multidomänen-Sentimentanalyse	E-Commerce	Stimmungsanalyse	Datensatz mit Produktbewertungen von Amazon	Link
NLP	Text	IMDB Bewertungen	Unterhaltung	Stimmungsanalyse	Datensatz mit 25000 Filmkritiken zur Stimmungsanalyse	Link
NLP	Text	Gefühl140	Allgemeines	Stimmungsanalyse	Datensatz mit 160,000 Tweets mit vorab entfernten Emoticons für höhere Genauigkeit	Link
NLP	Text	Blogger-Korpus	Allgemeines	Keyprase-Analyse	Datensatz mit 681,288 Blog-Posts von blogger.com, der aus mindestens 200 Vorkommen weit verbreiteter englischer Wörter besteht.	Link
NLP	Text	Jeopardy	Allgemeines	Chatbot-Schulung	Datensatz mit mehr als 200,000 Fragen, mit denen Modelle für maschinelles Lernen trainiert werden können, um intelligent automatisch zu antworten	Link
NLP	Text	SMS-Spam-Sammlung auf Englisch	Telecom	Spam-Erkennung	Ein Spam-Nachrichten-Dataset bestehend aus 5,574 englischen SMS	Link
NLP	Text	Yelp Bewertungen	Allgemeines	Stimmungsanalyse	Ein von Yelp veröffentlichter Datensatz mit über 5 Mio. Rezensionen	Link
NLP	Text	Spambase der UCICI	Unternehmen	Spam-Erkennung	Ein großer Datensatz von Spam-E-Mails, der für die Spam-Filterung nützlich ist.	Link
CV	Video, Bild	Berkeley DeepDrive BDD100k	Automotive	Autonome Fahrzeuge	Einer der größten Datensätze für selbstfahrende KI mit 1,100 Stunden Fahrerlebnissen in über 100,000 Videos zu verschiedenen Tageszeiten aus New York und San Francisco.	Link
CV	Video	Komma.ai	Automotive	Autonome Fahrzeuge	Ein 7-Stunden-Datensatz für Autobahnfahrten, bestehend aus Informationen zu Geschwindigkeit, Beschleunigung, Lenkwinkel und GPS-Koordinaten des Fahrzeugs	Link
CV	Video, Bild	Stadtbild-Datensatz	Automotive	Semantisches Label für autonomes Fahrzeug	Ein Datensatz mit 5,000 Anmerkungen auf Pixelebene plus ein größerer Satz von 20,000 schwach kommentierten Bildern in Stereo-Videosequenzen, aufgenommen aus 50 verschiedenen Städten	Link
CV	Bild	KUL Belgien Verkehrszeichendatensatz	Automotive	Autonome Fahrzeuge	Über 10000+ Verkehrszeichenanmerkungen aus der Region Flandern basierend auf physisch unterschiedlichen Verkehrszeichen aus ganz Belgien.	Link
CV	Bild	LISA: Labor für intelligente und sichere Automobile, UC San Diego Datensätze	Automotive	Autonome Fahrzeuge	Ein umfangreiches Dataset mit Verkehrszeichen, Fahrzeugerkennung, Ampeln und Trajektorienmustern.	Link
CV	Bild	CIFAR-10	Allgemeines	Objekterkennung	Ein Datensatz bestehend aus 50,000 Bildern und 10,000 Testbildern (dh 60,000 32×32 Farbbilder in 10 Klassen) zur Objekterkennung.	Link
CV	Bild	Mode MNIST	Fashion		Ein Bilddatensatz, der aus 60,000 Beispielen und einem Testsatz von 10,000 Beispielen in 28×28 Graustufenbildern besteht, verbunden mit einem Label aus 10 Klassen.	Link
CV	Bild	IMDB-Wiki-Datensatz	Unterhaltung	Gesichtserkennung	Ein großer Datensatz von Gesichtsbildern mit Bezeichnungen wie Geschlecht und Alter. Von den insgesamt 523,051 Gesichtsbildern stammen 460,723 Bilder von 20,284 Prominenten aus IMDB und 62,328 aus Wikipedia.	Link
CV	Video	Kinetik-700	Allgemeines		Für jede Aktionsklasse besteht der hochwertige Datensatz aus 650,000 Videoclips und umfasst 700 menschliche Aktionsklassen mit mindestens 600 Videoclips. Hier dauert jeder Clip etwa 10 Sekunden.	Link
CV	Bild	MS Coco	Allgemeines	Objekterkennung, Segmentierung	Der Datensatz enthält 328k Bilder und hat insgesamt 2.5 Mio. Instanzen und 91 Objektbilder, um groß angelegte ML-Modelle zur Objekterkennung, Segmentierung und Datenbeschriftung zu trainieren.	Link
CV	Bild	MPII-Datensatz zur menschlichen Haltung	Allgemeines		Der Datensatz enthält etwa 25 Fotos mit über 40 Personen mit annotierten Körpergelenken, die für die artikulierte Schätzung der menschlichen Pose verwendet werden. Insgesamt deckt der Datensatz 410 menschliche Aktivitäten ab und jedes Bild ist mit einem Aktivitätslabel versehen.	Link
CV	Bild	Öffnen Sie Bilder	Allgemeines	Anmerkungen zum Objektstandort	Bilddatensatz mit etwa 9 Mn Bildern, die mit Bildebenen-Labels, Objektbegrenzungsrahmen, Objektsegmentierung usw. annotiert sind. Der Datensatz besteht ebenfalls aus 16 Mn. Bounding Boxes für 600 Objektklassen auf 1.9 Mn Bildern.	Link
CV	Video	Apollo Open Platform, von Baidu Inc, China	Automotive	Begrenzungsrahmen, LiDAR	Ein reichhaltiger Datensatz für autonomes Fahren, der Entwicklern die erforderlichen Daten für das autonome Fahren liefert, um die Effizienz der innovativen Iteration zu beschleunigen.	Link
CV	Video, Bild	Argo, von Argo, USA	Automotive	Begrenzungsrahmen, optischer Fluss, Verhaltenslabel, semantisches Label, Fahrspurmarkierung	Ein selbstfahrender Datensatz, der aus HD-Karten mit geometrischen und semantischen Metadaten besteht, z. B. Fahrspurmittellinien, Fahrspurrichtung und befahrbarer Bereich. Der Datensatz wird verwendet, um ML-Modelle zu trainieren, um genauere Wahrnehmungsalgorithmen zu erstellen, die selbstfahrenden Fahrzeugen helfen, sicher zu navigieren.	Link
CV	Video	Bosch Kleine Ampeln, von Bosch North America Research	Automotive	Begrenzungsrahmen	Ein Datensatz bestehend aus 13427 Kamerabildern mit einer Auflösung von 1280*720, um ein visionsbasiertes Ampelerkennungssystem aufzubauen. Der Datensatz enthält mehr als 24000 kommentierte Ampeln.	Link
CV	Video	Brain4Cars, von Cornell Univ., USA	Automotive	Verhaltenslabel	Ein Datensatz, der aus einer Reihe von Kabinensensoren (Kameras, taktile Sensoren, intelligente Geräte usw.) besteht, um nützliche Statistiken über die Aufmerksamkeit des Fahrers zu extrahieren. Unsere Algorithmen können schläfrige oder abgelenkte Fahrer erkennen und die erforderlichen Alarme auslösen, um den Schutz zu verbessern.	Link
CV	Bild	CULane, von Chinese Univ. von Hongkong, Peking, China	Automotive	Fahrspurmarkierung	Ein Computer Vision-Datensatz zur Fahrspurerkennung, bestehend aus 55 Stunden Videos, von denen 133,235 (88880 Trainingsset, 9675 Validierungsset und 34680 Testset) Frames extrahiert wurden. Es wird von Kameras gesammelt, die an sechs verschiedenen Fahrzeugen angebracht sind, die von verschiedenen Fahrern in Peking gefahren werden.	Link
CV	Video	DAVIS, von Univ. Zürich,ETH ¨ Zürich, Deutschland, Schweiz	Automotive		Ein End-to-End-Fahrzeugfahrtrainingsdatensatz, der eine DAVIS Event+Frame-Kamera verwendet. Fahrzeugdaten wie Lenkung, Gas, GPS etc. werden verwendet, um die Fusion von Rahmen- und Ereignisdaten für Automotive-Apps auszuwerten.	Link
CV	Video	DBNet, von Shanghai Jiao Tong Univ., Xiamen Univ., China	Automotive	Punktwolke, LiDAR	Reale 1000-KM-Fahrdaten, die abgestimmte Videos, Punktwolken, GPS und Fahrerverhalten umfassen, um das Fahrverhalten eingehend zu untersuchen.	Link
CV	Video	Dr(eye)ve, von Univ. von Modena und Reggio Emilia, Modena, Italien	Automotive	Verhaltenslabel	Datensatz mit 74 Videosequenzen von jeweils 5 Minuten, die in mehr als 500,000 Frames kommentiert wurden. Der Datensatz besteht aus georeferenzierten Standorten, Fahrgeschwindigkeit, Kurs und auch Labels, Blickfixierungen und deren zeitliche Integration, die aufgabenspezifische Karten liefern.	Link
CV	Video	ETH Fussgänger (2009), von ETH Zürich, Zürich, Schweiz	Allgemeines	Begrenzungsrahmen	Ein Datensatz von 74 Videosequenzen von jeweils 5 Minuten, kommentiert in mehr als 500,000 Bildern. Der Datensatz liefert georeferenzierte Positionen, Fahrgeschwindigkeit, Fahrtrichtung sowie beschriftet Blickfixierungen für Fahrer und deren zeitliche Integration, einschließlich aufgabenspezifischer Karten.	Link
CV	Video	Ford (2009), von Univ. von Michigan, Michigan, USA	Automotive	Begrenzungsrahmen, , LiDAR	Ein Datensatz, der von einem automatisierten Landfahrzeug zusammengestellt wurde, das mit einem Velodyne 3D-Lidar-Scanner, zwei zukunftsweisenden Rieg-Lidars, einer technischen und Verbraucher-Inertialmesseinheit (IMU) und einem omnidirektionalen Kamerasystem Point Grey Ladybug3 ausgestattet ist.	Link
CV	Video	HCI Challenging Stereo, Bosch Corporation Research, Hildesheim, Deutschland	Allgemeines		Ein Datensatz mit mehreren Millionen Bildern aus aufgenommenen Videoszenen, die eine Vielzahl unterschiedlicher Wetterbedingungen, mehrere Bewegungsebenen und Tiefen umfassen; Situationen in Stadt und Land usw.	Link
CV	Video	JAAD, von der York University, Ukraine, Kanada	Automotive	Begrenzungsrahmen, Verhaltensetikett	„JAAD ist ein Datensatz zur Untersuchung der gemeinsamen Aufmerksamkeit im Kontext des autonomen Fahrens. Der Fokus liegt auf dem Fußgänger- und Fahrerverhalten am Kreuzungspunkt und Faktoren, die es beeinflussen. Dazu bietet der JAAD-Datensatz eine reich kommentierte Sammlung von 346 Kurzvideos Clips (5–10 Sekunden lang), die aus über 240 Stunden Fahrmaterial von mehreren Orten in Nordamerika und Osteuropa extrahiert wurden. Für alle Fußgänger werden Begrenzungsrahmen mit Okklusions-Tags verwendet, wodurch dieser Datensatz für die Fußgängererkennung geeignet ist. Verhaltensanmerkungen geben das Verhalten von Fußgängern an die mit dem Fahrer interagieren oder die Aufmerksamkeit des Fahrers erfordern. Für jedes Video gibt es mehrere Tags (Wetter, Standorte usw.) und mit einem Zeitstempel versehene Verhaltenslabels (z. B. angehalten, gehen, schauen usw.). Darüber hinaus ist eine Liste demografischer Attribute vorhanden für jeden Fußgänger (zB Alter, Geschlecht, Bewegungsrichtung etc.) sowie eine Liste der sichtbaren Verkehrsszenenelemente (zB Stoppschild, Ampel etc.) in jedem Frame."	Link
CV	Video	KAIST Urban, von KAIST, Südkorea	Allgemeines	LiDAR	Die Datenerhebung umfasst zahlreiche Standortsensoren für LiDAR-Daten und Stereobilder, die auf ein sehr komplexes Stadtgebiet (zB Metropolen, komplexe Gebäude und Wohngebiete) abzielen.	Link
CV	Bild	Verkehrszeichen LISA, von Univ. aus Kalifornien, San Diego, USA	Automotive	Begrenzungsrahmen	Der Datensatz mit Videos und kommentierten Frames mit US-Verkehrszeichen. Es wird in zwei Stufen veröffentlicht, eine mit nur den Bildern und eine mit Bildern und Videos.	Link
CV	Bild	Mapillary Vistas, von Mapillary AB, weltweit	Automotive	Semantisches Label	Ein Fotografie-Dataset auf Straßenebene zur Interpretation von Straßenszenen auf der ganzen Welt mit pixelgenauen und instanzspezifischen menschlichen Anmerkungen.	Link
CV	Video, Bild	Semantisches KITTI der Universität Bonn, Karlsruhe, Deutschland	Automotive	Begrenzungsrahmen, semantisches Etikett, Fahrspurmarkierung	Ein Datensatz, der eine semantische Annotation für alle Odometry Benchmark-Sequenzen enthält. Der Datensatz annotiert verschiedene Arten von bewegtem und unbewegtem Verkehr: einschließlich Autos, Fahrräder, Fahrräder, Fußgänger und Radfahrer, sodass Objekte in der Szene untersucht werden können.	Link
CV	Video	Stanford Track, von Stanford Univ., Vereinigte Staaten	Automotive	Objekterkennung / Klassifizierung LiDAR, GPS, Codes	Ein Datensatz, der 14,000 beschriftete Objektspuren enthält, wie sie von einem Velodyne HDL-64E S2 LIDAR in natürlichen Straßenszenen beobachtet wurden, und der verwendet werden kann, um maschinelle Lernmodelle für die 3D-Objekterkennung zu trainieren.	Link
CV	Video, Bild	The Boxy Dataset, von Bosch, USA United	Automotive	Bounding Box / Fahrzeugerkennung	Ein Datensatz zur Fahrzeugerkennung mit 2 Millionen annotierten Fahrzeugen zum Trainieren und Analysieren von Objekterkennungsstrategien für selbstfahrende Autos auf Autobahnen.	Link
CV	Video	TME-Autobahn, von der Tschechischen Technischen Universität, Norditalien	Automotive	Begrenzungsrahmen	Ein Datensatz mit 28 Clips für insgesamt 27 Minuten, aufgeteilt in über 30,000 Fahrzeuganmerkungsframes. Die Annotation wurde halbautomatisch mit den Daten des Laserscanners erstellt. Diese Datensammlung umfasst variable Verkehrsszenarien, die Anzahl der Fahrspuren, die Straßenkrümmung und die Beleuchtung und deckt einen Großteil der Bedingungen der vollständigen Erfassung ab.	Link
CV	Video	Unbeaufsichtigte Lamas, von Bosch, USA	Automotive	Fahrspurmarkierung, LiDAR	Der Datensatz "Unüberwachte Lamas" wurde annotiert, indem hochauflösende automatische Fahrkarten, einschließlich Lidar-basierter Fahrspurmarkierungen, generiert wurden. An diesen Karten kann das autonome Fahrzeug ausgerichtet werden und die Fahrbahnmarkierungen werden in den Kamerarahmen projiziert. Die 3D-Projektion wird optimiert, indem die Diskrepanz zwischen bereits beobachteten und vorhergesagten Bildmarkierungen minimiert wird.	Link
NLP	Audio	Facebook AI Mehrsprachiges LibriSpeech (MLS)	Allgemeines	Audiokommentar / Spracherkennung	Facebook AI Multilingual LibriSpeech (MLS) ist ein umfangreicher Open-Source-Datensatz, der entwickelt wurde, um die Forschung im Bereich der automatischen Spracherkennung (ASR) voranzutreiben. MLS bietet mehr als 50,000 Stunden Audio in 8 Sprachen: Englisch, Deutsch, Niederländisch, Französisch, Spanisch, Italienisch, Portugiesisch und Polnisch.	Link

Offene Datensätze

Open-Source-Datensätze für den Einstieg in KI/ML-Modelle

KI-Datendienste

Spezialitäten

Branche

Produkte

Firma

Downloads

Kontakt