NLP-Datensatz für ML

Die 15 besten NLP-Datensätze zum Trainieren von Modellen zur Verarbeitung natürlicher Sprache

Die Verarbeitung natürlicher Sprache ist ein wesentlicher Bestandteil der Rüstung des maschinellen Lernens. Es braucht jedoch enorme Datenmengen und Training, damit das Modell gut funktioniert. Eines der wesentlichen Probleme bei NLP ist das Fehlen von Trainingsdatensätzen, die große Interessengebiete innerhalb der Domäne abdecken können.

Wenn Sie in diesem weitläufigen Feld beginnen, kann es schwierig und praktisch überflüssig sein, Ihre Datensätze zu erstellen. Vor allem wenn es Qualität gibt NLP Datensätze, die zum Trainieren Ihrer Machine-Learning-Modelle basierend auf ihrem Zweck verfügbar sind.

Der NLP-Markt soll 11.7 und 2018 mit einer CAGR von 2026 % wachsen $ 28.6 Milliarden von 2026. Dank der wachsenden Nachfrage nach NLP und maschinellem Lernen ist es jetzt möglich, qualitativ hochwertige Datensätze für Stimmungsanalysen, Rezensionen, Frage- und Antwortanalysen und Sprachanalysedatensätze in die Hände zu bekommen.

Die NLP-Datensätze für maschinelles Lernen, denen Sie vertrauen können

Da fast täglich unzählige Datensätze – mit Fokus auf unterschiedliche Bedürfnisse – veröffentlicht werden, kann es schwierig sein, auf qualitativ hochwertige, zuverlässige und beste Datensätze zuzugreifen. Hier haben wir Ihnen die Arbeit erleichtert, indem wir Ihnen kuratierte Datensätze, getrennt nach den Kategorien, die sie bedienen, präsentiert haben.

Allgemeines

Spambase, erstellt in den Hewlett-Packard Labs, verfügt über eine Sammlung von Spam-E-Mails der Benutzer mit dem Ziel, einen personalisierten Spam-Filter zu entwickeln. Es hat mehr als 4600 Beobachtungen aus E-Mail-Nachrichten, von denen fast 1820 Spam sind.

Der Enron-Datensatz enthält eine riesige Sammlung anonymisierter „echter“ E-Mails, die der Öffentlichkeit zum Trainieren ihrer maschinellen Lernmodelle zur Verfügung stehen. Es verfügt über mehr als eine halbe Million E-Mails von über 150 Benutzern, hauptsächlich von der Geschäftsleitung von Enron. Dieser Datensatz kann sowohl in strukturierten als auch in unstrukturierten Formaten verwendet werden. Um die unstrukturierten Daten aufzufrischen, müssen Sie Datenverarbeitungstechniken anwenden.

  • Datensatz für Empfehlungssysteme (Link)

Der Datensatz des Recommender-Systems ist eine riesige Sammlung verschiedener Datensätze, die verschiedene Funktionen enthalten, wie z.

  • Bewertungen
  • Sternebewertung
  • Fitness-Tracking
  • Songdaten
  • Soziale Netzwerke
  • Zeitstempel
  • Benutzer-/Artikelinteraktionen
  • GPS-Daten

Stimmungsanalyse

  • Wörterbücher für Filme und Finanzen (Link)

Stimmungsanalyse
Das Dataset Wörterbücher für Filme und Finanzen bietet domänenspezifische Wörterbücher für positive oder negative Polarität in Finanzfüllungen und Filmkritiken. Diese Wörterbücher stammen aus IMDb- und US-Form-8-Füllungen.

Sentiment 140 hat mehr als 160,000 Tweets mit verschiedenen Emoticons, die in 6 verschiedene Felder kategorisiert sind: Tweet-Datum, Polarität, Text, Benutzername, ID und Abfrage. Dieser Datensatz ermöglicht es Ihnen, die Stimmung einer Marke, eines Produkts oder sogar eines Themas basierend auf Twitter-Aktivitäten zu entdecken. Da dieser Datensatz im Gegensatz zu anderen von Menschen annotierten Tweets automatisch erstellt wird, stuft er Tweets mit positiven Emotionen und negativen Emotionen als ungünstig ein.

  • Multi-Domain-Sentiment-Datensatz (Link)

Dieses Multi-Domain-Sentiment-Dataset ist eine Sammlung von Amazon-Rezensionen für verschiedene Produkte. Einige Produktkategorien, wie Bücher, haben Tausende von Rezensionen, während andere nur ein paar Hundert Rezensionen haben. Außerdem können die Bewertungen mit Sternbewertungen in binäre Labels umgewandelt werden.

Lassen Sie uns noch heute Ihre Anforderungen an KI-Trainingsdaten besprechen.

Text

Der WiKi QA Corpus wurde erstellt, um die offene Frage-und-Antwort-Recherche zu unterstützen und ist einer der umfangreichsten öffentlich zugänglichen Datensätze. Es wird aus den Abfrageprotokollen der Bing-Suchmaschine zusammengestellt und enthält Frage-und-Antwort-Paare. Es enthält mehr als 3000 Fragen und 1500 beschriftete Antwortsätze.

  • Datensatz zu Rechtsfallberichten (Link)

Der Datensatz "Rechtsfallberichte" enthält eine Sammlung von 4000 Rechtsfällen und kann verwendet werden, um die automatische Textzusammenfassung und Zitationsanalyse zu trainieren. Jedes Dokument, Schlagworte, Zitationsklassen, Zitationsschlagworte und mehr werden verwendet.

Der Jeopardy-Datensatz ist eine Sammlung von mehr als 200,000 Fragen, die in der beliebten Quiz-TV-Show enthalten sind, die von einem Reddit-Benutzer zusammengestellt wurde. Jeder Datenpunkt wird nach Ausstrahlungsdatum, Episodennummer, Wert, Runde und Frage/Antwort klassifiziert.

Audio-Sprache

  • Gesprochene Wikipedia-Korpora (Link)

Audio-Sprache Dieser Datensatz ist perfekt für alle, die über die englische Sprache hinausgehen möchten. Dieser Datensatz enthält eine Sammlung von Artikeln, die auf Niederländisch, Deutsch und Englisch gesprochen werden. Es hat eine Vielzahl von Themen und Sprechersets, die Hunderte von Stunden umfassen.

Der englische HUB2000-Datensatz 5 enthält 40 Transkripte von Telefongesprächen in englischer Sprache. Die Daten werden vom National Institute of Standards and Technology bereitgestellt und sein Hauptaugenmerk liegt auf der Erkennung von Gesprächssprache und der Umwandlung von Sprache in Text.

Der LibriSpeech-Datensatz ist eine Sammlung von fast 1000 Stunden englischer Sprache, die aufgenommen und nach Themen in Kapitel aus Hörbüchern unterteilt wurde, was ihn zu einem perfekten Werkzeug für die Verarbeitung natürlicher Sprache macht.

Bewertungen

Der Yelp-Datensatz enthält eine riesige Sammlung von etwa 8.5 Millionen Bewertungen von über 160,000 Unternehmen, deren Bewertungen und Benutzerdaten. Die Bewertungen können verwendet werden, um Ihre Modelle in der Sentimentanalyse zu trainieren. Außerdem enthält dieser Datensatz mehr als 200,000 Bilder, die acht Metropolregionen abdecken.

IMDB-Rezensionen gehören zu den beliebtesten Datensätzen mit Besetzungsinformationen, Bewertungen, Beschreibungen und Genres für mehr als 50 Filme. Mit diesem Dataset können Sie Ihre Machine-Learning-Modelle testen und trainieren.

  • Datensatz zu Amazon-Rezensionen und -Bewertungen (Link)

Der Amazon-Rezensions- und Bewertungsdatensatz enthält eine wertvolle Sammlung von Metadaten und Rezensionen zu verschiedenen Produkten von Amazon, die von 1996 bis 2014 gesammelt wurden – etwa 142.8 Millionen Datensätze. Die Metadaten umfassen den Preis, die Produktbeschreibung, die Marke, die Kategorie und mehr, während die Bewertungen die Textqualität, die Nützlichkeit des Textes, Bewertungen und mehr enthalten.

Welchen Datensatz haben Sie also zum Trainieren Ihres Machine-Learning-Modells ausgewählt?

Während wir gehen, lassen wir Sie mit einem Profi-Tipp. 

Lesen Sie die README-Datei gründlich durch, bevor Sie einen NLP-Datensatz für Ihre Anforderungen auswählen. Der Datensatz enthält alle erforderlichen Informationen, die Sie möglicherweise benötigen, z. B. den Inhalt des Datensatzes, die verschiedenen Parameter, nach denen die Daten kategorisiert wurden, und die wahrscheinlichen Anwendungsfälle des Datensatzes.

Unabhängig von den von Ihnen gebauten Modellen gibt es eine spannende Perspektive, unsere Maschinen enger und intrinsischer in unser Leben zu integrieren. Mit NLP werden die Möglichkeiten für Business, Filme, Spracherkennung, Finanzen und mehr um ein Vielfaches erweitert. Wenn Sie nach weiteren solchen Datensätzen suchen Klick hier.

Social Share

Share on Facebook
Teilen auf Twitter
Bei LinkedIn teilen
Teilen Sie per E-Mail
Teilen Sie auf WhatsApp