Computer Vision

Über 22 meistgesuchte Open-Source-Datensätze für Computer Vision

Ein KI-Algorithmus ist nur so gut wie die Daten, die Sie ihm zuführen.

Es ist weder eine kühne noch eine unkonventionelle Aussage. KI hätte vor ein paar Jahrzehnten noch ziemlich weit hergeholt erscheinen können, aber Künstliche Intelligenz und maschinelles Lernen haben seitdem einen wirklich langen Weg zurückgelegt.

Computer Vision hilft Computern, Beschriftungen und Bilder zu verstehen und zu interpretieren. Wenn Sie Ihren Computer mit den richtigen Bildern trainieren, kann er verschiedene Gesichtsmerkmale erkennen, verstehen und identifizieren, Krankheiten erkennen, autonome Fahrzeuge fahren und durch mehrdimensionales Organscannen Leben retten.

Der Markt für Computer Vision wird voraussichtlich erreichen $ 144.46 Billion bis 2028 von bescheidenen 7.04 Milliarden US-Dollar im Jahr 2020, mit einer jährlichen Wachstumsrate von 45.64 % zwischen 2021 und 2028.

Einige der Anwendungsfälle von Computer Vision sind:

  • Medizinische Bildgebung
  • Autonomes Fahrzeug
  • Gesichts- und Objekterkennung
  • Fehleridentifikation
  • Szenenerkennung

Der Bilddatensatz Sie füttern und trainieren Ihre Machine Learning- und Computer Vision-Aufgaben sind entscheidend für den Erfolg Ihres KI-Projekts. Ein qualitativ hochwertiger Datensatz ist ziemlich schwer zu bekommen. Abhängig von der Komplexität Ihres Projekts kann es zwischen einigen Tagen und einigen Wochen dauern, bis Sie zuverlässige und relevante Datensätze für Computer Vision-Zwecke erhalten.

Hier stellen wir Ihnen eine Reihe (zu Ihrer Vereinfachung kategorisiert) von Open-Source-Datensätzen zur Verfügung, die Sie sofort verwenden können.

Umfassende Liste von Computer Vision-Datensätzen

Allgemein:

  1. IMAGEnet (Link)

    ImageNet ist ein weit verbreiteter Datensatz und enthält erstaunliche 1.2 Millionen Bilder, die in 1000 Kategorien eingeteilt sind. Dieser Datensatz ist gemäß der WorldNet-Hierarchie organisiert und in drei Teile kategorisiert – die Trainingsdaten, Bildbeschriftungen und Validierungsdaten.

  2. Kinetik 700 (Link)

    Kinetics 700 ist ein riesiger hochwertiger Datensatz mit mehr als 650,000 Clips aus 700 verschiedenen menschlichen Aktionsklassen. Jede der Sammelklagen umfasst etwa 700 Videoclips. Die Clips im Datensatz weisen Mensch-Objekt- und Mensch-Mensch-Interaktionen auf, die sich bei der Erkennung menschlicher Handlungen in Videos als sehr hilfreich erweisen.

  3. CIFAR-10 (Link)

    CIFAR 10 ist einer der größten Computer-Vision-Datensätze mit 60000 32 x 32 Farbbildern aus zehn verschiedenen Klassen. Jede Klasse verfügt über etwa 6000 Bilder, die zum Trainieren von Computer-Vision-Algorithmen und maschinellem Lernen verwendet werden.

Gesichtserkennung:

Gesichtserkennung

  1. Beschriftete Gesichter in freier Wildbahn (Link)

    Labeled Faced in the Wild ist ein riesiger Datensatz mit mehr als 13,230 Bildern von fast 5,750 Personen, die aus dem Internet entdeckt wurden. Dieser Datensatz mit Gesichtern soll das Studium der uneingeschränkten Gesichtserkennung erleichtern.

  2. CASIA WebFace (Link)

    CASIA Webface ist ein gut gestalteter Datensatz, der maschinelles Lernen und wissenschaftliche Forschung zur uneingeschränkten Gesichtserkennung unterstützt. Mit mehr als 494,000 Bildern von fast 10,000 echten Identitäten ist es ideal für Gesichtserkennungs- und Verifizierungsaufgaben.

  3. UMD-Gesichtsdatensatz (Link)

    UMD steht einem gut kommentierten Datensatz gegenüber, der zwei Teile enthält – Standbilder und Videoframes. Der Datensatz enthält mehr als 367,800 Gesichtskommentare und 3.7 Millionen kommentierte Videoframes von Probanden.

Handschrifterkennung:

  1. MNIST-Datenbank (Link)

    MNIST ist eine Datenbank, die Beispiele handgeschriebener Ziffern von 0 bis 9 enthält und 60,000 und 10,000 Trainings- und Testbilder enthält. MNIST wurde 1999 veröffentlicht und erleichtert das Testen von Bildverarbeitungssystemen in Deep Learning.

  2. Datensatz für künstliche Zeichen (Link)

    Artificial Characters Dataset sind, wie der Name schon sagt, künstlich generierte Daten, die die englische Sprachstruktur in zehn Großbuchstaben beschreiben. Es kommt mit mehr als 6000 Bildern.

Lassen Sie uns noch heute Ihre Anforderungen an KI-Trainingsdaten besprechen.

Objekterkennung:

  1. MS COCO (Link)

    MS COCO oder Common Objects in Context ist ein Datensatz zur Objekterkennung und Untertitelung.

    Es verfügt über mehr als 328,000 Bilder mit Keypoint-Erkennung, Multi-Objekt-Erkennung, Beschriftung und Segmentierungsmaskenanmerkungen. Es kommt mit 80 Objektkategorien und fünf Bildunterschriften pro Bild.

  2. LSUN(Link)

    LSUN, kurz für Large-scale Scene Understanding, verfügt über mehr als eine Million beschriftete Bilder in 20 Objekt- und 10 Szenenkategorien. Einige Kategorien haben fast 300,000 Bilder, davon 300 Bilder speziell für die Validierung und 1000 Bilder für Testdaten.

  3. Home-Objekte(Link)

    Das Dataset Home Objects enthält kommentierte Bilder von zufälligen Objekten aus dem ganzen Haus – Küche, Wohnzimmer und Badezimmer. Dieser Datensatz enthält auch einige kommentierte Videos und 398 nicht kommentierte Fotos zum Testen.

Automobil:

  1. Stadtbild-Datensatz (Link)

    Cityscape ist der Datensatz, auf den Sie zugreifen können, wenn Sie nach verschiedenen Videosequenzen suchen, die von Straßenszenen mehrerer Städte aufgenommen wurden. Diese Bilder wurden über einen langen Zeitraum und bei unterschiedlichen Wetter- und Lichtverhältnissen aufgenommen. Die Anmerkungen beziehen sich auf 30 Bildklassen, die in acht verschiedene Kategorien unterteilt sind.

  2. Barkley Deep Drive (Link)

    Barkley DeepDrive wurde speziell für das autonome Fahrzeugtraining entwickelt und verfügt über mehr als 100 kommentierte Videosequenzen. Es ist eine der hilfreichsten Trainingsdaten für autonome Fahrzeuge durch die sich ändernden Straßen- und Fahrbedingungen.

  3. Mapillar (Link)

    Mapillary hat weltweit über 750 Millionen Straßenszenen und Verkehrszeichen, was sehr nützlich ist, um visuelle Wahrnehmungsmodelle in maschinellem Lernen und KI-Algorithmen zu trainieren. Es ermöglicht Ihnen, autonome Fahrzeuge zu entwickeln, die auf verschiedene Licht- und Wetterbedingungen und Standpunkte abgestimmt sind.

Medizinische Bildgebung:

  1. Offener Covid-19-Forschungsdatensatz (Link)

    Dieser ursprüngliche Datensatz enthält etwa 6500 Pixel-polygonale Lungensegmentierungen über AP/PA-Thorax-Röntgenaufnahmen. Darüber hinaus sind 517 Bilder von Covid-19-Patientenröntgenaufnahmen mit Tags verfügbar, die den Namen, den Standort, die Aufnahmedetails, das Ergebnis und mehr enthalten.

  2. NIH-Datenbank mit 100,000 Thorax-Röntgenaufnahmen (Link)

    Die NIH-Datenbank ist einer der umfangreichsten öffentlich zugänglichen Datensätze mit 100,000 Thoraxröntgenbildern und verwandten Daten, die für die Wissenschafts- und Forschungsgemeinschaft nützlich sind. Es enthält sogar Bilder von Patienten mit fortgeschrittenen Lungenerkrankungen.

  3. Atlas der digitalen Pathologie (Link)

    Atlas of Digital Pathology bietet mehrere histopathologische Patch-Bilder, insgesamt mehr als 17,000, von fast 100 kommentierten Objektträgern verschiedener Organe. Dieser Datensatz ist nützlich bei der Entwicklung von Software für Computer Vision und Mustererkennung.

Szenenerkennung:

Szenenerkennung

  1. Indoor-Szenenerkennung (Link)

    Indoor Scene Recognition ist ein stark kategorisierter Datensatz mit fast 15620 Bildern von Objekten und Indoor-Szenerien, die für maschinelles Lernen und Datentraining verwendet werden. Es enthält über 65 Kategorien, und jede Kategorie enthält mindestens 100 Bilder.

  2. xAnsicht (Link)

    Als einer der bekanntesten öffentlich verfügbaren Datensätze enthält xView tonnenweise kommentierte Overhead-Bilder aus verschiedenen komplexen und großen Szenen. Mit etwa 60 Klassen und mehr als einer Million Objektinstanzen soll dieser Datensatz mithilfe von Satellitenbildern eine bessere Katastrophenhilfe bieten.

  3. Orte (Link)

    Places, ein vom MIT beigesteuerter Datensatz, enthält über 1.8 Millionen Bilder aus 365 verschiedenen Szenenkategorien. In jeder dieser Kategorien gibt es etwa 50 Bilder zur Validierung und 900 Bilder zum Testen. Das Erlernen von Deep-Scene-Features zum Einrichten von Szenenerkennungs- oder visuellen Erkennungsaufgaben ist möglich.

Unterhaltung:

  1. IMDB WIKI-Datensatz (Link)

    IMDB – Wiki ist eine der beliebtesten öffentlichen Datenbanken von Gesichtern, die angemessen mit Alter, Geschlecht und Namen gekennzeichnet sind. Es hat auch etwa 20 Gesichter von Prominenten und 62 aus Wikipedia.

  2. Promi-Gesichter (Link)

    Celeb Faces ist eine umfangreiche Datenbank mit 200,000 kommentierten Bildern von Prominenten. Die Bilder kommen mit Hintergrundrauschen und Posenvariationen, was sie für das Training von Testsätzen in Computer Vision-Aufgaben wertvoll macht. Es ist sehr vorteilhaft, um eine höhere Genauigkeit bei der Gesichtserkennung, Bearbeitung, Lokalisierung von Gesichtsteilen und mehr zu erreichen.

Jetzt haben Sie eine riesige Liste von Open-Source-Bilddatensätzen, um Ihre Maschinerie der künstlichen Intelligenz anzutreiben. Das Ergebnis Ihrer KI- und Machine-Learning-Modelle hängt in erster Linie von der Qualität der Datasets ab, die Sie füttern und mit denen Sie sie trainieren. Wenn Sie möchten, dass Ihr KI-Modell genaue Vorhersagen liefert, benötigt es hochwertige Datensätze, die aggregiert, mit Tags versehen und perfekt beschriftet sind. Um den Erfolg Ihres Computer Vision Systems zu steigern, müssen Sie hochwertige Bilddatenbanken verwenden, die für Ihre Projektvision relevant sind. Wenn Sie nach mehr solcher Datensätze suchen Hier klicken

Social Share

Share on Facebook
Teilen auf Twitter
Bei LinkedIn teilen
Teilen Sie per E-Mail
Teilen Sie auf WhatsApp