Jetzt hol 50 % RABATT* zu konversationsbasierten KI-Standarddatensätzen
Sprach- und Audiodatensatz für Chatbots, Sprachassistenten und sprachgesteuerte Geräte.
*Zeitlich begrenztes Angebot
Von BranchenfĂĽhrern vertraut
Details | Stichwort (Keyword) | Standardsprachlicher Datensatz | Callcenter-Gespräche 8 kHz* | Allgemeine Gespräche 8 kHz* | Medien und Podcasts 16 kHz* | Äußerung/Skriptmonolog 16 kHz* | Gesamtvolumen in Stunden | Dialekte abgedeckt | Audio Format | Texttranskriptionsformat | Luftüberwachung | Quelle | CTA |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Afrikanisch | Afrikaans-Audiodatensatz | 600 | 900 | 1500 | In Afrika wird Afrikaans gesprochen | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | |||
Arabisch | Arabischer Audiodatensatz | 800 | 1500 | 2300 | Arabisch aus den Golfstaaten | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | |||
Chinesisch | Chinesischer Audiodatensatz | 2000 | 2000 | Chinesen aus China | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | ||||
Dänisch | Dänischer Audiodatensatz | 400 | 600 | 2000 | 3000 | Dänisch aus Dänemark | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | ||
Niederländisch | Niederländischer Audiodatensatz | 2000 | 2000 | Holländer aus den Niederlanden | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | ||||
Englisch - AAVE-Akzent | Englisch – AAVE-Audiodatensatz (African American Vernacular English). | 500 | 500 | 1000 | Die umgangssprachliche Variante (manchmal auch als AAVE bekannt, wird typischerweise von der überwiegenden Mehrheit der Afroamerikaner der Arbeiter- und Mittelschicht gesprochen) und die eher standardisierte Variante (typischerweise von Afroamerikanern der Mittelschicht in formellen und öffentlichen Situationen gesprochen), jedoch mit einer stärkeren Betonung auf den Volksmund. | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | |||
Englisch – Boston/New York-Akzent | Englisch – Boston/New York-Audiodatensatz | 225 | 225 | 350 | 800 | Dies ist eine Sammlung verschiedener regionaler Akzente, die in und um die Städte Boston, New York und Philadelphia gesprochen werden. Diese Akzente klingen möglicherweise ähnlich wie bei Nicht-Einheimischen, unterscheiden sich jedoch von anderen amerikanischen Akzenten. Obwohl sich der lokale Wortschatz teilweise von dem in anderen Teilen der englischsprachigen Welt unterscheidet, sind diese Akzente mit dem anderswo gesprochenen Englisch verständlich. | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | ||
Englisch - Chinesischer Akzent | Englisch - Chinesisch akzentuierter Audiodatensatz | 150 | 300 | 450 | Sprecher, die Chinesisch als Muttersprache sprechen und als Teenager/Erwachsene in die USA gezogen/eingewandert sind und Englisch als Zweitsprache gelernt haben. | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | |||
Englisch – tiefer Südakzent | Englisch – Deep South Audiodatensatz | 275 | 275 | 450 | 1000 | Redner aus (i) Texas; (ii) North Carolina, South Carolina, Georgia; (iii) New Orleans; (iv) Florida-Pfannenstiel; (v) Tennessee, Arkansas, Michigan. | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | ||
Englisch – hispanischer Akzent | Englisch – Audiodatensatz mit hispanischem Akzent | 400 | 400 | 800 | Unter hispanischem Englisch versteht man die Varianten des US-amerikanischen Englisch, die von hispanischen Amerikanern unterschiedlicher nationaler Herkunft gesprochen werden. Der Schwerpunkt lag auf mexikanischen Amerikanern, Sprechern unterschiedlicher nationaler Herkunft (z. B. Mexiko, Puerto Rico, Dominikanische Republik, Ecuador, Kuba usw.) und auch aus verschiedenen Regionen (z. B. Kalifornien, New York, Florida). Zu den Sprechern gehörten sowohl Spanisch als Muttersprache als auch Sprecher hispanischer Herkunft, die Spanisch als Muttersprache sprechen. | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | |||
Englisch-Neuseeländischer Akzent | Englisch – Neuseeland-Audiodatensatz | 250 | 750 | 1000 | Sprecher auf beiden Inseln, darunter eine Mischung aus jüngeren Sprechern (<40 Jahre alt) und älteren Sprechern (>40 Jahre) zu gleichen Teilen. | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | |||
Englisch - Singapur-Akzent | Englisch – Singapur-Audiodatensatz | 400 | 600 | 1000 | Sowohl Standard-Singapur-Englisch als auch umgangssprachliches Singapur-Englisch. Singapurer unterschiedlicher ethnischer Herkunft (z. B. Chinesen, Malaysier, Inder usw.) und mit unterschiedlichem Bildungsniveau. | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | |||
Englisch - südafrikanischer Akzent | Englisch – Südafrika-Audiodatensatz | 400 | 600 | 1000 | Vertreter verschiedener sozioökonomischer Schichten und ethnologischer Hintergründe (z. B. Südafrikaner mit europäischem, afrikanischem, indischem oder gemischtem Hintergrund). | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | |||
Englisch-irischer Akzent | Englisch-irischer Audiodatensatz | 500 | 500 | In Irland wird Englisch gesprochen | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | ||||
Englisch - schottischer Akzent | Englisch – Schottischer Audiodatensatz | 800 | 800 | Englisch wird von Schotten gesprochen | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | ||||
Englisch - walisischer Akzent | Englisch - Walisischer Audiodatensatz | 800 | 800 | Walisisches Englisch | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | ||||
Franko Kanadier | Französisch-kanadischer Audiodatensatz | 1000 | 1000 | Kanadisches Französisch | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | ||||
Hebräisch | Hebräischer Audiodatensatz | 750 | 750 | 1500 | Hebräisch in Israel | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | |||
Indonesian | Indonesischer Audiodatensatz | 1000 | 1000 | 2000 | Bahasa Indonesisch | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | |||
Japanisch | Japanischer Audiodatensatz | 2000 | 2000 | Japaner aus Japan | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | ||||
Koreanisch | Koreanischer Audiodatensatz | 100 | 200 | 1500 | 1800 | Die Redner verteilten sich ĂĽber ganz SĂĽdkorea. | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | ||
Malay | Malaiischer Audiodatensatz | 500 | 500 | 1000 | Malaiisch in Malaysia | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | |||
Mexikanisches Spanisch | Mexikanisch-spanischer Audiodatensatz | 1250 | 1250 | Mexikaner aus Mexiko | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | ||||
Polnisch | Polnischer Audiodatensatz | 250 | 2000 | 2250 | Polnisch aus Polen | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | |||
Russisch | Russischer Audiodatensatz | 2000 | 2000 | Russisch aus Russland | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | ||||
Suaheli | Swahili-Audiodatensatz | 350 | 650 | 1000 | SĂĽdafrikanisches und kenianisches Swahili | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | |||
Schwedisch | Schwedischer Audiodatensatz | 350 | 650 | 1000 | Schwedisch in Schweden | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | |||
Taiwanesische Chinesen | Taiwan-chinesischer Audiodatensatz | 1000 | 1000 | Chinesen aus Taiwan | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | ||||
Thai | Thailändischer Audiodatensatz | 350 | 450 | 800 | Ein informelles Register, das zwischen Freunden verwendet wird, | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | |||
TĂĽrkische | TĂĽrkischer Audiodatensatz | 2000 | 2000 | TĂĽrkisch aus der TĂĽrkei | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | ||||
Vietnamesisch | Vietnamesischer Audiodatensatz | 600 | 400 | 1000 | Nord (z. B. Hanoi), Zentral und SĂĽd (z. B. Ho-Chi-Minh-Stadt). | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | |||
Hindi | Hindi-Audiodatensatz | 800 | 2000 | 2800 | Hindi in Indien, insbesondere in den Regionen Nord, Ost und West | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | |||
Hinglish | Indischer englischer Audiodatensatz | 300 | 500 | 800 | Gesammelt aus städtischen indischen Städten, die aufgrund wachsender wirtschaftlicher Möglichkeiten Finanzzentren des Landes sind. Solche Orte können Noida, Delhi, Dehradun, Chandigarh, Mumbai, Kolkata, Bangalore, Pune, Chennai, Hyderabad usw. sein | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | |||
Englisch | Englischer Audiodatensatz | 700 | 700 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | |||||
kannada | Kannada-Audiodatensatz | 60 | 100 | 40 | 200 | Kannada aus Karnataka, Indien | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | ||
Malayalam | Malayalam-Audiodatensatz | 60 | 100 | 40 | 200 | Malayalam aus Kerala, Lakshadweep und Puducherry | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | ||
Oriya | Oriya-Audiodatensatz | 60 | 100 | 40 | 200 | Oriya aus Teilen von Odisha, Westbengalen, Jharkhand und Chhattisgarh | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | ||
Pandschabi | Punjabi-Audiodatensatz | 60 | 100 | 40 | 200 | Punjabi aus Punjab, Indien | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | ||
Tamilisch | Tamilischer Audiodatensatz | 60 | 100 | 240 | 400 | Tamil aus Tamil Nadu, Indien | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | ||
Telugu | Telugu-Audiodatensatz | 100 | 950 | 950 | 2000 | Telugu aus Andhra Pradesh, Indien | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | ||
Bengalisch | Bengalischer Audiodatensatz | 60 | 100 | 40 | 200 | Bengali aus Westbengalen, Indien | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | ||
Gujarati | Gujarati-Audiodatensatz | 60 | 100 | 40 | 200 | Gujarati aus Gujarat, Indien | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | ||
Marathi | Marathi-Audiodatensatz | 60 | 100 | 40 | 200 | Marathi aus Maharashtra, Indien | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt | ||
Assamese | Assamesischer Audiodatensatz | 60 | 100 | 40 | 200 | Assamesen aus Asssam, Indien | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Saip | Kontakt Kontakt |
Umfangreiches Fachwissen im Bereich Conversational AI
Konversations-KI oder Chatbots oder virtuelle/digitale Assistenten sind nur so intelligent wie die Technologie und Daten dahinter. Bei Shaip bieten wir Ihnen einen breiten Satz abwechslungsreicher Audiodatensätze für die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP), die Gespräche mit echten Menschen nachahmen und es Ihnen ermöglichen, Ihre KI zum Leben zu erwecken. Mit unserem umfassenden Verständnis helfen wir Ihnen, KI-gestützte Sprachmodelle mit höchster Präzision und umfangreichen und strukturierten Datensätzen in mehreren Sprachen aus der ganzen Welt zu erstellen und zu lokalisieren. Wir bieten mehrsprachige Audiosammlungs-, Audiotranskriptions- und Audioanmerkungsdienste basierend auf Ihren Anforderungen und passen dabei die gewünschte Absicht, Äußerungen und demografische Verteilung vollständig an.
Geskriptete Sprachsammlung
Spontane Sprachsammlung
Audiodatentranskription
Datenbeschriftung und Anmerkung
Mit Shaip können Sie Ihre Conversational AI Platform genau trainieren, damit sie:
- Sprechen, texten und chatten Sie nahtlos über mehrere Kanäle hinweg.
- Lernen Sie aus bestehenden Interaktionen in Form von Chat, Sprachmitschriften, Transaktionen usw. und schlagen Sie auf der Grundlage dieser Erkenntnisse Vorschläge und Gespräche vor.
- Verstehen Sie die Absicht hinter der menschlichen Sprache und beseitigen Sie Unklarheiten beim Verstehen der menschlichen Sprache.
- Interagieren Sie persönlich mit Ihnen und können Sie darin trainieren, Benutzer zu identifizieren und sich an vergangene Gespräche zu erinnern.
Ein weltweit fĂĽhrender Anbieter von konversationalen KI-Trainingsdaten
Stundenlange Audiodaten in über 100 Sprachen – Quellen, transkribiert und kommentiert
Lizenzierung von Sprachdaten
Über 20 Stunden Sprachdaten in über 40 Sprachen und Dialekten, die eine Reihe von über 55 Themen aus verschiedenen Bereichen abdecken, z. B. Callcenter, Debatten, allgemeine Gespräche, Reden, Podcasts usw.
Sprachdatenerfassung
Sammeln Sie Audio- und Sprachdaten (Monolog, 2-Personen-Gespräch, Mensch-Bot-Chat) in über 100 Sprachen aus der ganzen Welt, angepasst an Ihre KI-Anforderungen.
Sprachdatentranskription
KostengĂĽnstige Audiotranskription oder Audioanmerkung durch eine starke Belegschaft von 30,000 Mitarbeitern mit garantierter TAT, Genauigkeit und Einsparungen
Beschleunigen Sie die Entwicklung Ihrer Conversational AI-App mit Audio Collection & Audio Annotation Services
Der Shaip-Vorteil
Skala
Wir können Audiodaten aus der ganzen Welt in mehreren Sprachen und Dialekten basierend auf Ihren Anforderungen beschaffen, skalieren und bereitstellen.
Expertise
Wir verfĂĽgen ĂĽber das richtige Know-how in Bezug auf die genaue und unvoreingenommene Datenerfassung, Transkription und Annotation nach Goldstandard.
Netzwerk
Ein Netzwerk von über 30,000 qualifizierten Mitarbeitern, denen schnell Datenerfassungsaufgaben zugewiesen werden können, um ein KI-Trainingsmodell und Scale-up-Dienste aufzubauen.
Technologie
Wir verfügen über eine vollständig KI-basierte Plattform mit proprietären Tools und Prozessen, um das Workflow-Management rund um die Uhr rund um die Uhr zu nutzen.
Agilität
Wir passen uns sehr schnell an veränderte Kundenanforderungen an und helfen dabei, die KI-Entwicklung mit hochwertigen Sprachdaten 5-10x schneller als die Konkurrenz zu beschleunigen.
Sicherheit
Wir legen größten Wert auf Datensicherheit und Datenschutz und sind auch für den Umgang mit streng regulierten sensiblen Daten zertifiziert.
Was wir am besten können
Trainingsdaten
Erhalten Sie beschriftete Daten von höchster Qualität in einem Bruchteil der Zeit. Es ist Goldstandard, zuverlässig und bereit, Ihre KI- und ML-Modelle zu trainieren, um die höchsten Leistungsniveaus zu erreichen.
Datenerfassung, Beschriftung und Anmerkung
Mit Shaip erhalten Sie mehr als 15 Jahre bewährte Expertise im Sammeln, Transkribieren und Kommentieren von Qualitätsdaten. Mit unseren globalen Arbeitskräften können wir Daten aus der ganzen Welt sammeln und dann Kennzeichnungs- und Anmerkungsdienste mit dem perfekten Maß an Fähigkeiten und Fachwissen anbieten, das für Ihre Daten erforderlich ist.
Datenkataloge & Lizenzierung
Mit unserem riesigen Bestand an Millionen von Datensätzen können Sie nach Bedarf sammeln und organisieren. Wir können diese Qualitätsdaten dann für Ihre spezifischen KI- und ML-Nutzungsanforderungen lizenzieren. Außerdem sind diese Daten zu einem Bruchteil der Kosten verfügbar, wenn Sie sie selbst erstellen würden.
Möchten Sie Ihren eigenen Datensatz erstellen?
Kontaktieren Sie uns jetzt, um zu erfahren, wie wir einen benutzerdefinierten Datensatz für Ihre einzigartige KI-Lösung sammeln können.