NLP-Datensätze bilden das Rückgrat vieler Projekte zur natürlichen Sprachverarbeitung und bieten Flexibilität für ein breites Aufgabenspektrum wie Textklassifizierung, Sentimentanalyse und Fragenbeantwortung. Das Blog Authorship Corpus beispielsweise enthält über 681,000 Blogbeiträge von fast 20,000 Bloggern und ist damit eine wertvolle Ressource für die Untersuchung von Schreibstilen, Autorenidentifikation und vielem mehr.
Für alle, die sich für akademische Forschung interessieren, bietet der arXiv-Datensatz „Research Papers“ Zugriff auf eine umfangreiche Sammlung wissenschaftlicher Arbeiten aus verschiedenen Disziplinen und unterstützt fortgeschrittene NLP-Aufgaben wie Zitationsanalyse und Dokumentklassifizierung. Der Datensatz des Federal Procurement Data Center ist eine weitere wertvolle Ressource und bietet detaillierte Informationen zu Bundesaufträgen – ideal für Projekte mit Regierungsdaten und Entity Recognition.
Diese NLP-Datensätze werden häufig zum Trainieren und Evaluieren von Machine-Learning-Modellen verwendet und helfen Forschern und Entwicklern, die Leistung ihrer Systeme bei verschiedenen NLP-Aufgaben zu verbessern. Ob Blogbeiträge, Forschungsarbeiten oder Regierungsdaten – diese Datensätze bilden die Grundlage für robuste und vielseitige NLP-Anwendungen.
Was ist NLP?
NLP (Natural Language Processing) hilft Computern, die menschliche Sprache zu verstehen. Es ist, als würde man Computern beibringen, Texte und Sprache so zu lesen, zu verstehen und darauf zu reagieren wie Menschen.
Was kann NLP?
- Verwandeln Sie unordentlichen Text in organisierte Daten
- Erkennen, ob Kommentare positiv oder negativ sind
- Übersetzen zwischen Sprachen
- Zusammenfassungen langer Texte erstellen
- Und vieles mehr!
- Erste Schritte mit NLP:
Um gute NLP-Systeme zu erstellen, benötigen Sie viele Beispiele, um sie zu trainieren – genau wie Menschen mit mehr Übung besser lernen. Die gute Nachricht ist, dass es viele kostenlose Ressourcen gibt, in denen Sie diese Beispiele finden können: Gesicht umarmen, Kaggle kombiniert mit einem nachhaltigen Materialprofil. GitHub. Auf Datensätze dieser Plattformen kann leicht zugegriffen werden, was die Entwicklung von NLP-Projekten beschleunigt.
Größe und Wachstum des NLP-Marktes:
Im Jahr 2023 wurde der Markt für Natural Language Processing (NLP) auf rund 26 Milliarden US-Dollar geschätzt. Es wird erwartet, dass er deutlich wachsen wird, mit einer durchschnittlichen jährlichen Wachstumsrate (CAGR) von etwa 30 % von 2023 bis 2030. Dieses Wachstum wird durch die steigende Nachfrage nach NLP-Anwendungen in Branchen wie Gesundheitswesen, Finanzen und Kundendienst vorangetrieben.
Berücksichtigen Sie bei der Auswahl eines guten NLP-Datensatzes die folgenden Faktoren:
- Relevanz: Stellen Sie sicher, dass der Datensatz zu Ihrer spezifischen Aufgabe oder Domäne passt.
- Größe: Größere Datensätze verbessern im Allgemeinen die Modellleistung, aber Größe und Qualität müssen in Einklang gebracht werden.
- Diversität: Suchen Sie nach Datensätzen mit unterschiedlichen Sprachstilen und Kontexten, um die Robustheit des Modells zu verbessern.
- Qualität: Achten Sie auf gut beschriftete und genaue Daten, um Fehler zu vermeiden.
- Barierrefreiheit: Stellen Sie sicher, dass der Datensatz zur Verwendung verfügbar ist, und berücksichtigen Sie etwaige Lizenzbeschränkungen.
- Anarbeitung: Bestimmen Sie, ob der Datensatz einer umfassenden Bereinigung oder Vorverarbeitung bedarf.
- Community Support: Beliebte Datensätze verfügen oft über mehr Ressourcen und Community-Support, was hilfreich sein kann.
Durch die Bewertung dieser Faktoren können Sie einen Datensatz auswählen, der den Anforderungen Ihres Projekts am besten entspricht. Die Auswahl der richtigen Datensätze ist entscheidend für optimale Ergebnisse in NLP-Projekten, da sie sich direkt auf die Modellleistung und die Trainingseffizienz auswirken.
Die 33 wichtigsten offenen Datensätze für NLP
Allgemein
Spambase der UCICI (Link)
Spambase, erstellt in den Hewlett-Packard Labs, verfügt über eine Sammlung von Spam-E-Mails der Benutzer mit dem Ziel, einen personalisierten Spam-Filter zu entwickeln. Es hat mehr als 4600 Beobachtungen aus E-Mail-Nachrichten, von denen fast 1820 Spam sind.
Enron-Datensatz (Link)
Der Enron-Datensatz enthält eine umfangreiche Sammlung anonymisierter, „echter“ E-Mails, die öffentlich zugänglich sind, um die Modelle des maschinellen Lernens zu trainieren. Er umfasst mehr als eine halbe Million E-Mails von über 150 Nutzern, hauptsächlich der Enron-Führungskräfte. Dieser Datensatz steht sowohl in strukturierter als auch in unstrukturierter Form zur Verfügung. Um die unstrukturierten Daten aufzubereiten, müssen Datenverarbeitungstechniken angewendet werden.
Datensatz für Empfehlungssysteme (Link)
Der Datensatz des Recommender-Systems ist eine riesige Sammlung verschiedener Datensätze, die verschiedene Funktionen enthalten, wie z.
- Bewertungen
- Sternebewertung
- Fitness-Tracking
- Songdaten
- Soziale Netzwerke
- Zeitstempel
- Benutzer-/Artikelinteraktionen
- GPS-Daten
Penn Baumbank (Link)
Dieses Korpus aus dem Wall Street Journal wird häufig zum Testen von Sequenzmarkierungsmodellen verwendet.
NLTK (Link)
Diese Python-Bibliothek bietet Zugriff auf über 100 Korpora und lexikalische Ressourcen für NLP. Sie enthält außerdem das NLTK-Buch, einen Schulungskurs zur Nutzung der Bibliothek. NLTK bietet Zugriff auf WordNet, eine umfangreiche lexikalische Datenbank der englischen Sprache, in der Wörter wie Substantive, Verben, Adjektive und Adverbien anhand gemeinsamer Bedeutungen in Synsets gruppiert sind. NLTK bietet außerdem eine kommentierte Liste von Korpora und lexikalischen Ressourcen für die NLP-Forschung.
Universelle Abhängigkeiten (Link)
UD bietet eine konsistente Möglichkeit zur Annotation von Grammatik mit Ressourcen in über 100 Sprachen, 200 Baumdatenbanken und Unterstützung von über 300 Community-Mitgliedern.
Datensätze zur Stimmungsanalyse
Wörterbücher für Filme und Finanzen (Link)
Das Dataset Wörterbücher für Filme und Finanzen bietet domänenspezifische Wörterbücher für positive oder negative Polarität in Finanzfüllungen und Filmkritiken. Diese Wörterbücher stammen aus IMDb- und US-Form-8-Füllungen.Gefühl 140 (Link)
Sentiment 140 hat mehr als 160,000 Tweets mit verschiedenen Emoticons, die in 6 verschiedene Felder kategorisiert sind: Tweet-Datum, Polarität, Text, Benutzername, ID und Abfrage. Dieser Datensatz ermöglicht es Ihnen, die Stimmung einer Marke, eines Produkts oder sogar eines Themas basierend auf Twitter-Aktivitäten zu entdecken. Da dieser Datensatz im Gegensatz zu anderen von Menschen annotierten Tweets automatisch erstellt wird, stuft er Tweets mit positiven Emotionen und negativen Emotionen als ungünstig ein.
Multi-Domain-Sentiment-Datensatz (Link)
Dieses Multi-Domain-Sentiment-Dataset ist eine Sammlung von Amazon-Rezensionen für verschiedene Produkte. Einige Produktkategorien, wie Bücher, haben Tausende von Rezensionen, während andere nur ein paar Hundert Rezensionen haben. Außerdem können die Bewertungen mit Sternbewertungen in binäre Labels umgewandelt werden.
Standford Sentiment TreeBank (Link)
Dieser NLP-Datensatz von Rotten Tomatoes enthält längere Phrasen und detailliertere Textbeispiele.
Das Blog-Autorenkorpus (Link)
Diese Sammlung enthält Blogbeiträge mit fast 1.4 Millionen Wörtern, wobei jeder Blog ein separater Datensatz ist.
OpinRank-Datensatz (Link)
300,000 Bewertungen von Edmunds und TripAdvisor, geordnet nach Automodell oder Reiseziel und Hotel.
Textdatensatz
Das Wiki-QA-Korpus (Link)
Der WiKi QA Corpus wurde erstellt, um die offene Frage-und-Antwort-Recherche zu unterstützen und ist einer der umfangreichsten öffentlich zugänglichen Datensätze. Es wird aus den Abfrageprotokollen der Bing-Suchmaschine zusammengestellt und enthält Frage-und-Antwort-Paare. Es enthält mehr als 3000 Fragen und 1500 beschriftete Antwortsätze.
Datensatz zu Rechtsfallberichten (Link)
Der Datensatz "Rechtsfallberichte" enthält eine Sammlung von 4000 Rechtsfällen und kann verwendet werden, um die automatische Textzusammenfassung und Zitationsanalyse zu trainieren. Jedes Dokument, Schlagworte, Zitationsklassen, Zitationsschlagworte und mehr werden verwendet.
Jeopardy (Link)
Der Jeopardy-Datensatz ist eine Sammlung von mehr als 200,000 Fragen, die in der beliebten Quiz-TV-Show enthalten sind, die von einem Reddit-Benutzer zusammengestellt wurde. Jeder Datenpunkt wird nach Ausstrahlungsdatum, Episodennummer, Wert, Runde und Frage/Antwort klassifiziert.
20 Newsgroups (Link)
Eine Sammlung von 20,000 Dokumenten umfasst 20 Newsgroups und Themen, die Themen von Religion bis hin zu populären Sportarten detailliert behandeln.
Reuters-Nachrichtendatensatz (Link)
Dieser erstmals 1987 erschienene Datensatz wurde für maschinelle Lernzwecke beschriftet, indiziert und zusammengestellt.
ArXiv (Link)
Dieser umfangreiche 270-GB-Datensatz enthält den vollständigen Text aller arXiv-Forschungsarbeiten.
Parallelkorpus der Tagungsbände des Europäischen Parlaments (Link)
Satzpaare aus Parlamentssitzungen umfassen Einträge aus 21 europäischen Sprachen, darunter auch einige weniger gebräuchliche Sprachen für Korpora des maschinellen Lernens.
Milliarden-Wörter-Benchmark (Link)
Dieser aus dem WMT 2011 News Crawl abgeleitete Sprachmodellierungsdatensatz umfasst fast eine Milliarde Wörter zum Testen innovativer Sprachmodellierungstechniken.
Audio-Sprachdatensätze
Gesprochene Wikipedia-Korpora (Link)
Dieser Datensatz ist perfekt für alle, die über die englische Sprache hinausgehen möchten. Dieser Datensatz enthält eine Sammlung von Artikeln, die auf Niederländisch, Deutsch und Englisch gesprochen werden. Es hat eine Vielzahl von Themen und Sprechersets, die Hunderte von Stunden umfassen.2000 HUB5 Englisch (Link)
Der englische HUB2000-Datensatz 5 enthält 40 Transkripte von Telefongesprächen in englischer Sprache. Die Daten werden vom National Institute of Standards and Technology bereitgestellt und sein Hauptaugenmerk liegt auf der Erkennung von Gesprächssprache und der Umwandlung von Sprache in Text.
LibriSpeech (Link)
Der LibriSpeech-Datensatz ist eine Sammlung von fast 1000 Stunden englischer Sprache, die aufgenommen und nach Themen in Kapitel aus Hörbüchern unterteilt wurde, was ihn zu einem perfekten Werkzeug für die Verarbeitung natürlicher Sprache macht.
Kostenloser Datensatz für gesprochene Ziffern (Link)
Dieser NLP-Datensatz umfasst mehr als 1,500 Aufzeichnungen gesprochener Ziffern auf Englisch.
Sprachdatensatz von M-AI Labs (Link)
Der Datensatz bietet fast 1,000 Stunden Audio mit Transkriptionen, die mehrere Sprachen umfassen und nach männlichen, weiblichen und gemischten Stimmen kategorisiert sind.
Datenbank für laute Sprache (Link)
Dieser Datensatz enthält parallele verrauschte und saubere Sprachaufzeichnungen, die für die Entwicklung von Sprachverbesserungssoftware gedacht sind, aber auch für das Sprachtraining unter schwierigen Bedingungen nützlich sind.
Rezensionen Datensätze
Yelp Bewertungen (Link)
Der Yelp-Datensatz enthält eine riesige Sammlung von etwa 8.5 Millionen Bewertungen von über 160,000 Unternehmen, deren Bewertungen und Benutzerdaten. Die Bewertungen können verwendet werden, um Ihre Modelle in der Sentimentanalyse zu trainieren. Außerdem enthält dieser Datensatz mehr als 200,000 Bilder, die acht Metropolregionen abdecken.
IMDB Bewertungen (Link)
IMDB-Rezensionen gehören zu den beliebtesten Datensätzen mit Besetzungsinformationen, Bewertungen, Beschreibungen und Genres für mehr als 50 Filme. Mit diesem Dataset können Sie Ihre Machine-Learning-Modelle testen und trainieren.
Datensatz zu Amazon-Rezensionen und -Bewertungen (Link)
Der Amazon-Rezensions- und Bewertungsdatensatz enthält eine wertvolle Sammlung von Metadaten und Rezensionen zu verschiedenen Produkten von Amazon, die von 1996 bis 2014 gesammelt wurden – etwa 142.8 Millionen Datensätze. Die Metadaten umfassen den Preis, die Produktbeschreibung, die Marke, die Kategorie und mehr, während die Bewertungen die Textqualität, die Nützlichkeit des Textes, Bewertungen und mehr enthalten.
Frage- und Antwort-Datensätze
Stanford Frage- und Antwortdatensatz (SQuAD) (Link)
Dieser Leseverständnis-Datensatz enthält 100,000 beantwortbare und 50,000 unbeantwortbare Fragen, die alle von Wikipedia-Crowdworkern erstellt wurden.
Natürliche Fragen (Link)
Dieses Trainingsset umfasst über 300,000 Trainingsbeispiele, 7,800 Entwicklungsbeispiele und 7,800 Testbeispiele, jeweils mit einer Google-Abfrage und einer passenden Wikipedia-Seite.
TriviaQA (Link)
Dieser anspruchsvolle Fragensatz umfasst 950,000 QA-Paare, darunter sowohl von Menschen verifizierte als auch maschinell generierte Teilmengen.
CLEVR (Kompositionssprache und elementares visuelles Denken) (Link)
Dieser visuelle Frage-Antwort-Datensatz enthält 3D-gerenderte Objekte und Tausende von Fragen mit Details zur visuellen Szene.
Welchen Datensatz haben Sie also zum Trainieren Ihres Machine-Learning-Modells ausgewählt?
Während wir gehen, lassen wir Sie mit einem Profi-Tipp.
Lesen Sie die README-Datei gründlich durch, bevor Sie einen NLP-Datensatz für Ihre Anforderungen auswählen. Der Datensatz enthält alle erforderlichen Informationen, die Sie möglicherweise benötigen, z. B. den Inhalt des Datensatzes, die verschiedenen Parameter, nach denen die Daten kategorisiert wurden, und die wahrscheinlichen Anwendungsfälle des Datensatzes.
Unabhängig davon, welche Modelle Sie erstellen, besteht die spannende Aussicht, unsere Maschinen enger und wesentlicher in unser Leben zu integrieren. Mit NLP werden die Möglichkeiten für Wirtschaft, Filme, Spracherkennung, Finanzen und mehr um ein Vielfaches erweitert.