Offene Datensätze

Entdecken Sie Open-Source-Datasets, mit denen Sie ML-Modelle trainieren können

Open-Source-Datensätze für den Einstieg in KI/ML-Modelle

Die Ausgabe Ihrer KI- und ML-Modelle ist nur so gut wie die Daten, die Sie zum Trainieren verwenden – daher ist die Präzision, die Sie bei der Datenaggregation und beim Tagging und Identifizieren dieser Daten anwenden, wichtig!

Wenn Sie also eine neue KI/ML-Initiative starten möchten und jetzt schnell erkennen, dass das Auffinden hochwertiger Trainingsdaten einer der schwierigeren Aspekte Ihres Projekts sein wird, da hochwertige Datensätze der Treibstoff sind, der die KI/ ML-Motor läuft. Wir haben eine Liste mit offenen Datensätzen zusammengestellt, die Sie kostenlos verwenden und Ihre KI/ML-Modelle der Zukunft trainieren können.

SpezialisierungDateitypDatensatznameIndustrie / Abt.Anmerkung/AnwendungsfallProduktbeschreibungLink
NLPTextAmazon BewertungenE-CommerceStimmungsanalyseEin Satz von 35 Mio. Rezensionen und Bewertungen der letzten 18 Jahre im Klartext mit Benutzer- und Produktdetails.Link
NLPTextWikipedia-Link-DatenAllgemeinesMehr als 4 Mio. Artikel mit 1.9 Mrd. Wort, das aus Wörtern und Phrasen sowie Absätzen besteht.Link
NLPTextStandford GefühlsbaumbankUnterhaltungStimmungsanalyseDatensatz mit Stimmungsanmerkungen für über 10,000 Rezensionen von Rotten Tomatoes im HTML-DateiformatLink
NLPTextTwitter US-Airline-SentimentFluggesellschaftStimmungsanalyseTweets von 2015 über US Airlines unterteilten sich in positive, negative und neutrale TöneLink
CVBild Beschriftete Gesichter in freier WildbahnAllgemeinesGesichtserkennungDatensatz mit über 13,000 zugeschnittenen Gesichtern mit zwei verschiedenen Bildern für das Gesichtserkennungstraining.Link
CVVideo, BildUMDFaces-DatensatzAllgemeinesGesichtserkennungAnnotierter Datensatz mit über 367,000 Gesichtern von über 8,000 Motiven, der Stand- und Videobilder enthält.Link
CVBild ImagenetAllgemeinesDatensatz mit über 14 Mn. Bilder in verschiedenen Dateiformaten, organisiert nach der WordNet-Hierarchie.Link
CVBild Googles offene BilderAllgemeines9 Mio. URLs zur Kategorisierung öffentlicher Bilder aus über 6,000 Kategorien.Link
NLPTextMIMIC-Datenbank für IntensivpflegeGesundheitswesenComputational Physiology Datasets mit anonymisierten Daten von 40,000 Intensivpatienten. Der Datensatz enthält Informationen wie Demografie, Vitalparameter, Medikamente usw.Link
CVBildNationales Reise- und Tourismusbüro der USATourismusBietet umfassende Fotografien aus der Tourismusbranche mit vertrauenswürdigen Datenbanken, die Themen wie ein- und ausgehende Reisen und internationale Touristeninformationen abdecken.Link
NLPTextVerkehrsministeriumTourismusTourismusdatensätze mit Nationalparks, Fahrerregistern, Brücken und Bahninformationen usw.Link
NLPAudioFlickr Audio Caption CorpusAllgemeinesÜber 40 gesprochene Untertitel aus 8,000 Fotos, die für unbeaufsichtigte Sprachmuster entwickelt wurdenLink
NLPAudioDatensatz für SprachbefehleAllgemeinesSpracherkennung, Audiokommentar1 Sekunde lange Äußerungen von Tausenden von Personen, um eine grundlegende Sprachschnittstelle zu erstellen.Link
NLPAudioFSD (Freesound)AllgemeinesEine Zusammenstellung von Alltagsgeräuschen, die unter einer Open-Source-Lizenz gesammelt wurden.Link
NLPAudioUmweltaudiodatensätzeAllgemeinesUmgebungsaudio-Datasets, die Geräuschtabellen von Ereignissen und Tabellen für akustische Szenen enthalten.Link
NLPTextOffener COVID-19-Forschungsdatensatz GesundheitswesenMedizinische KIEin Forschungsdatensatz bestehend aus 45,000 wissenschaftlichen Artikeln zu COVID-19 und der Coronavirus-Virenfamilie.Link
CVBildWaymo Open Dataset AutomobilindustrieDie unterschiedlichsten autonomen Fahrdatensätze von WaymoLink
CVBildVisuelles Genom AllgemeinesBilduntertitelungEine visuelle Wissensdatenbank mit detaillierten Untertiteln von über 100 BildernLink
CVBildLabelme Öffentliche RegierungGroße Auswahl an kommentierten Bildern, die über das Labelme Matlab zugänglich sindLink
CVBildSPULE100AllgemeinesÜber 100 verschiedene Objekte, die aus mehreren Blickwinkeln (dh 360 Grad) fotografiert wurdenLink
CVBildStanford-Hunde-DatensatzAllgemeinesÜber 20,500 Bilder kategorisiert in Bildersets von 120 verschiedenen HunderassenLink
CVBildIndoor-SzenenerkennungAllgemeinesSzenenerkennungEin spezifischer Datensatz bestehend aus 15620 Bildern aus 67 Indoor-Kategorien zum Erstellen von SzenenerkennungsmodellenLink
CVBildVisualQAAllgemeinesEin Datensatz mit offenen Fragen zu 265,016 Fotos, für deren Beantwortung ein Seh- und Sprachverständnis erforderlich ist.Link
NLPTextDatensatz zur Multidomänen-SentimentanalyseE-CommerceStimmungsanalyseDatensatz mit Produktbewertungen von AmazonLink
NLPTextIMDB BewertungenUnterhaltungStimmungsanalyseDatensatz mit 25000 Filmkritiken zur StimmungsanalyseLink
NLPTextGefühl140AllgemeinesStimmungsanalyseDatensatz mit 160,000 Tweets mit vorab entfernten Emoticons für höhere GenauigkeitLink
NLPTextBlogger-KorpusAllgemeinesKeyprase-AnalyseDatensatz mit 681,288 Blog-Posts von blogger.com, der aus mindestens 200 Vorkommen weit verbreiteter englischer Wörter besteht.Link
NLPTextJeopardyAllgemeinesChatbot-SchulungDatensatz mit mehr als 200,000 Fragen, mit denen Modelle für maschinelles Lernen trainiert werden können, um intelligent automatisch zu antwortenLink
NLPTextSMS-Spam-Sammlung auf EnglischTelecomSpam-ErkennungEin Spam-Nachrichten-Dataset bestehend aus 5,574 englischen SMSLink
NLPTextYelp BewertungenAllgemeinesStimmungsanalyseEin von Yelp veröffentlichter Datensatz mit über 5 Mio. RezensionenLink
NLPTextSpambase der UCICIUnternehmenSpam-ErkennungEin großer Datensatz von Spam-E-Mails, der für die Spam-Filterung nützlich ist.Link
CVVideo, BildBerkeley DeepDrive BDD100kAutomobilindustrieAutonome FahrzeugeEiner der größten Datensätze für selbstfahrende KI mit 1,100 Stunden Fahrerlebnissen in über 100,000 Videos zu verschiedenen Tageszeiten aus New York und San Francisco.Link
CVVideoBaidu ApolloscapesAutomobilindustrieAutonome Fahrzeuge, , Semantisches Label, FahrspurmarkierungEin breiter Bilddatensatz, der 26 separate semantische Objekte wie Fahrzeuge, Radfahrer, Menschen, Häuser, Straßenlaternen usw. beschreibt.Link
CVVideoKomma.aiAutomobilindustrieAutonome Fahrzeuge Ein 7-Stunden-Datensatz für Autobahnfahrten, bestehend aus Informationen zu Geschwindigkeit, Beschleunigung, Lenkwinkel und GPS-Koordinaten des FahrzeugsLink
CVVideo, BildStadtbild-DatensatzAutomobilindustrieSemantisches Label für autonomes FahrzeugEin Datensatz mit 5,000 Anmerkungen auf Pixelebene plus ein größerer Satz von 20,000 schwach kommentierten Bildern in Stereo-Videosequenzen, aufgenommen aus 50 verschiedenen StädtenLink
CVBildKUL Belgien VerkehrszeichendatensatzAutomobilindustrieAutonome FahrzeugeÜber 10000+ Verkehrszeichenanmerkungen aus der Region Flandern basierend auf physisch unterschiedlichen Verkehrszeichen aus ganz Belgien.Link
CVBildLISA: Labor für intelligente und sichere Automobile, UC San Diego DatensätzeAutomobilindustrieAutonome FahrzeugeEin umfangreiches Dataset mit Verkehrszeichen, Fahrzeugerkennung, Ampeln und Trajektorienmustern.Link
CVBildCIFAR-10AllgemeinesObjekterkennungEin Datensatz bestehend aus 50,000 Bildern und 10,000 Testbildern (dh 60,000 32×32 Farbbilder in 10 Klassen) zur Objekterkennung.Link
CVBildMode MNISTModeEin Bilddatensatz, der aus 60,000 Beispielen und einem Testsatz von 10,000 Beispielen in 28×28 Graustufenbildern besteht, verbunden mit einem Label aus 10 Klassen.Link
CVBildIMDB-Wiki-DatensatzUnterhaltungGesichtserkennungEin großer Datensatz von Gesichtsbildern mit Bezeichnungen wie Geschlecht und Alter. Von den insgesamt 523,051 Gesichtsbildern stammen 460,723 Bilder von 20,284 Prominenten aus IMDB und 62,328 aus Wikipedia.Link
CVVideoKinetik-700AllgemeinesFür jede Aktionsklasse besteht der hochwertige Datensatz aus 650,000 Videoclips und umfasst 700 menschliche Aktionsklassen mit mindestens 600 Videoclips. Hier dauert jeder Clip etwa 10 Sekunden.Link
CVBildMS CocoAllgemeinesObjekterkennung, SegmentierungDer Datensatz enthält 328k Bilder und hat insgesamt 2.5 Mio. Instanzen und 91 Objektbilder, um groß angelegte ML-Modelle zur Objekterkennung, Segmentierung und Datenbeschriftung zu trainieren.Link
CVBildMPII-Datensatz zur menschlichen HaltungAllgemeinesDer Datensatz enthält etwa 25 Fotos mit über 40 Personen mit annotierten Körpergelenken, die für die artikulierte Schätzung der menschlichen Pose verwendet werden. Insgesamt deckt der Datensatz 410 menschliche Aktivitäten ab und jedes Bild ist mit einem Aktivitätslabel versehen.Link
CVBildÖffnen Sie BilderAllgemeinesAnmerkungen zum ObjektstandortBilddatensatz mit etwa 9 Mn Bildern, die mit Bildebenen-Labels, Objektbegrenzungsrahmen, Objektsegmentierung usw. annotiert sind. Der Datensatz besteht ebenfalls aus 16 Mn. Bounding Boxes für 600 Objektklassen auf 1.9 Mn Bildern.Link
CVVideoApollo Open Platform, von Baidu Inc, ChinaAutomobilindustrieBegrenzungsrahmen, LiDAREin reichhaltiger Datensatz für autonomes Fahren, der Entwicklern die erforderlichen Daten für das autonome Fahren liefert, um die Effizienz der innovativen Iteration zu beschleunigen.Link
CVVideo, BildArgo, von Argo, USAAutomobilindustrieBegrenzungsrahmen, optischer Fluss, Verhaltenslabel, semantisches Label, FahrspurmarkierungEin selbstfahrender Datensatz, der aus HD-Karten mit geometrischen und semantischen Metadaten besteht, z. B. Fahrspurmittellinien, Fahrspurrichtung und befahrbarer Bereich. Der Datensatz wird verwendet, um ML-Modelle zu trainieren, um genauere Wahrnehmungsalgorithmen zu erstellen, die selbstfahrenden Fahrzeugen helfen, sicher zu navigieren.Link
CVVideoBosch Kleine Ampeln, von Bosch North America ResearchAutomobilindustrieBegrenzungsrahmenEin Datensatz bestehend aus 13427 Kamerabildern mit einer Auflösung von 1280*720, um ein visionsbasiertes Ampelerkennungssystem aufzubauen. Der Datensatz enthält mehr als 24000 kommentierte Ampeln.Link
CVVideoBrain4Cars, von Cornell Univ., USAAutomobilindustrieVerhaltenslabelEin Datensatz, der aus einer Reihe von Kabinensensoren (Kameras, taktile Sensoren, intelligente Geräte usw.) besteht, um nützliche Statistiken über die Aufmerksamkeit des Fahrers zu extrahieren. Unsere Algorithmen können schläfrige oder abgelenkte Fahrer erkennen und die erforderlichen Alarme auslösen, um den Schutz zu verbessern.Link
CVVideoCaltech Fußgänger (2009), von California Inst. of Tech., Los Angeles, USAAutomobilindustrieBegrenzungsrahmenDer Datensatz besteht aus 10 Stunden 640 x 480 30 Hz Filmmaterial, das in einer städtischen Umgebung von einem Auto aufgenommen wurde, das durch den normalen Verkehr fährt. Annotiert wurden ca. 250,000 Frames (in ca. 137 Minuten langen Segmenten) mit insgesamt 350,000 Begrenzungsboxen und 2300 spezifischen Fußgängern.Link
CVBildCULane, von Chinese Univ. von Hongkong, Peking, ChinaAutomobilindustrieFahrspurmarkierungEin Computer Vision-Datensatz zur Fahrspurerkennung, bestehend aus 55 Stunden Videos, von denen 133,235 (88880 Trainingsset, 9675 Validierungsset und 34680 Testset) Frames extrahiert wurden. Es wird von Kameras gesammelt, die an sechs verschiedenen Fahrzeugen angebracht sind, die von verschiedenen Fahrern in Peking gefahren werden.Link
CVVideoDAVIS, von Univ. Zürich,ETH ¨ Zürich, Deutschland, SchweizAutomobilindustrieEin End-to-End-Fahrzeugfahrtrainingsdatensatz, der eine DAVIS Event+Frame-Kamera verwendet. Fahrzeugdaten wie Lenkung, Gas, GPS etc. werden verwendet, um die Fusion von Rahmen- und Ereignisdaten für Automotive-Apps auszuwerten.Link
CVVideoDBNet, von Shanghai Jiao Tong Univ., Xiamen Univ., ChinaAutomobilindustriePunktwolke, LiDARReale 1000-KM-Fahrdaten, die abgestimmte Videos, Punktwolken, GPS und Fahrerverhalten umfassen, um das Fahrverhalten eingehend zu untersuchen.Link
CVVideoDr(eye)ve, von Univ. von Modena und Reggio Emilia, Modena, ItalienAutomobilindustrieVerhaltenslabelDatensatz mit 74 Videosequenzen von jeweils 5 Minuten, die in mehr als 500,000 Frames kommentiert wurden. Der Datensatz besteht aus georeferenzierten Standorten, Fahrgeschwindigkeit, Kurs und auch Labels, Blickfixierungen und deren zeitliche Integration, die aufgabenspezifische Karten liefern.Link
CVVideoETH Fussgänger (2009), von ETH Zürich, Zürich, SchweizAllgemeinesBegrenzungsrahmenEin Datensatz von 74 Videosequenzen von jeweils 5 Minuten, kommentiert in mehr als 500,000 Bildern. Der Datensatz liefert georeferenzierte Positionen, Fahrgeschwindigkeit, Fahrtrichtung sowie beschriftet Blickfixierungen für Fahrer und deren zeitliche Integration, einschließlich aufgabenspezifischer Karten.Link
CVVideoFord (2009), von Univ. von Michigan, Michigan, USAAutomobilindustrieBegrenzungsrahmen, , LiDAREin Datensatz, der von einem automatisierten Landfahrzeug zusammengestellt wurde, das mit einem Velodyne 3D-Lidar-Scanner, zwei zukunftsweisenden Rieg-Lidars, einer technischen und Verbraucher-Inertialmesseinheit (IMU) und einem omnidirektionalen Kamerasystem Point Grey Ladybug3 ausgestattet ist.Link
CVVideoHCI Challenging Stereo, Bosch Corporation Research, Hildesheim, DeutschlandAllgemeinesEin Datensatz mit mehreren Millionen Bildern aus aufgenommenen Videoszenen, die eine Vielzahl unterschiedlicher Wetterbedingungen, mehrere Bewegungsebenen und Tiefen umfassen; Situationen in Stadt und Land usw.Link
CVVideoJAAD, von der York University, Ukraine, KanadaAutomobilindustrieBegrenzungsrahmen, Verhaltensetikett„JAAD ist ein Datensatz zur Untersuchung der gemeinsamen Aufmerksamkeit im Kontext des autonomen Fahrens. Der Fokus liegt auf dem Fußgänger- und Fahrerverhalten am Kreuzungspunkt und Faktoren, die es beeinflussen. Dazu bietet der JAAD-Datensatz eine reich kommentierte Sammlung von 346 Kurzvideos Clips (5–10 Sekunden lang), die aus über 240 Stunden Fahrmaterial von mehreren Orten in Nordamerika und Osteuropa extrahiert wurden. Für alle Fußgänger werden Begrenzungsrahmen mit Okklusions-Tags verwendet, wodurch dieser Datensatz für die Fußgängererkennung geeignet ist. Verhaltensanmerkungen geben das Verhalten von Fußgängern an die mit dem Fahrer interagieren oder die Aufmerksamkeit des Fahrers erfordern. Für jedes Video gibt es mehrere Tags (Wetter, Standorte usw.) und mit einem Zeitstempel versehene Verhaltenslabels (z. B. angehalten, gehen, schauen usw.). Darüber hinaus ist eine Liste demografischer Attribute vorhanden für jeden Fußgänger (zB Alter, Geschlecht, Bewegungsrichtung etc.) sowie eine Liste der sichtbaren Verkehrsszenenelemente (zB Stoppschild, Ampel etc.) in jedem Frame."Link
CVVideoKAIST Urban, von KAIST, SüdkoreaAllgemeinesLiDARDie Datenerhebung umfasst zahlreiche Standortsensoren für LiDAR-Daten und Stereobilder, die auf ein sehr komplexes Stadtgebiet (zB Metropolen, komplexe Gebäude und Wohngebiete) abzielen.Link
CVBildVerkehrszeichen LISA, von Univ. aus Kalifornien, San Diego, USAAutomobilindustrieBegrenzungsrahmenDer Datensatz mit Videos und kommentierten Frames mit US-Verkehrszeichen. Es wird in zwei Stufen veröffentlicht, eine mit nur den Bildern und eine mit Bildern und Videos.Link
CVBildMapillary Vistas, von Mapillary AB, weltweitAutomobilindustrieSemantisches LabelEin Fotografie-Dataset auf Straßenebene zur Interpretation von Straßenszenen auf der ganzen Welt mit pixelgenauen und instanzspezifischen menschlichen Anmerkungen.Link
CVVideo, BildSemantisches KITTI der Universität Bonn, Karlsruhe, DeutschlandAutomobilindustrieBegrenzungsrahmen, semantisches Etikett, FahrspurmarkierungEin Datensatz, der eine semantische Annotation für alle Odometry Benchmark-Sequenzen enthält. Der Datensatz annotiert verschiedene Arten von bewegtem und unbewegtem Verkehr: einschließlich Autos, Fahrräder, Fahrräder, Fußgänger und Radfahrer, sodass Objekte in der Szene untersucht werden können.Link
CVVideoStanford Track, von Stanford Univ., Vereinigte StaatenAutomobilindustrieObjekterkennung / Klassifizierung LiDAR, GPS, CodesEin Datensatz, der 14,000 beschriftete Objektspuren enthält, wie sie von einem Velodyne HDL-64E S2 LIDAR in natürlichen Straßenszenen beobachtet wurden, und der verwendet werden kann, um maschinelle Lernmodelle für die 3D-Objekterkennung zu trainieren.Link
CVVideoStixel, von Daimler AG, DeutschlandAutomobilindustrieStixelEin Datensatz bestehend aus 12 Stereo-Straßensequenzen, die mit Ground-Truth-Daten zum freien Raum (Stixel) und Fahrzeugdaten (Geschwindigkeit, Gierwinkel und Zeitstempel) und der Kamerageometrie annotiert sind.Link
CVVideo, BildThe Boxy Dataset, von Bosch, USA UnitedAutomobilindustrieBounding Box / FahrzeugerkennungEin Datensatz zur Fahrzeugerkennung mit 2 Millionen annotierten Fahrzeugen zum Trainieren und Analysieren von Objekterkennungsstrategien für selbstfahrende Autos auf Autobahnen.Link
CVVideoTME-Autobahn, von der Tschechischen Technischen Universität, NorditalienAutomobilindustrieBegrenzungsrahmenEin Datensatz mit 28 Clips für insgesamt 27 Minuten, aufgeteilt in über 30,000 Fahrzeuganmerkungsframes. Die Annotation wurde halbautomatisch mit den Daten des Laserscanners erstellt. Diese Datensammlung umfasst variable Verkehrsszenarien, die Anzahl der Fahrspuren, die Straßenkrümmung und die Beleuchtung und deckt einen Großteil der Bedingungen der vollständigen Erfassung ab.Link
CVVideoUnbeaufsichtigte Lamas, von Bosch, USAAutomobilindustrieFahrspurmarkierung, LiDARDer Datensatz "Unüberwachte Lamas" wurde annotiert, indem hochauflösende automatische Fahrkarten, einschließlich Lidar-basierter Fahrspurmarkierungen, generiert wurden. An diesen Karten kann das autonome Fahrzeug ausgerichtet werden und die Fahrbahnmarkierungen werden in den Kamerarahmen projiziert. Die 3D-Projektion wird optimiert, indem die Diskrepanz zwischen bereits beobachteten und vorhergesagten Bildmarkierungen minimiert wird.Link
NLPAudioFacebook AI Multilingual LibriSpeech (MLS)AllgemeinesAudiokommentar / SpracherkennungFacebook AI Multilingual LibriSpeech (MLS) ist ein umfangreicher Open-Source-Datensatz, der entwickelt wurde, um die Forschung im Bereich der automatischen Spracherkennung (ASR) voranzutreiben. MLS bietet mehr als 50,000 Stunden Audio in 8 Sprachen: Englisch, Deutsch, Niederländisch, Französisch, Spanisch, Italienisch, Portugiesisch und Polnisch. Link