Die vertrauenswürdigsten Sprachdatenerfassungsdienste für Ihre KI
Trainieren Sie Ihre NLP-Modelle, VAs, TTS-Prototypen und mehr mit hochwertigen Gesprächsdaten mit unseren Audio- und Sprachdatenerfassungsdiensten
Entdecken Sie Audiodaten-Pipelines ohne Engpässe
Ausgewählte Kunden
Professionelle Audio-/Sprachdatenerfassungsdienste
Beliebiges Thema. Jedes Szenario.
Bei Shaip liegt unsere Expertise in der Erstellung hochwertiger Sprachdatensätze, die für unterschiedliche KI/ML-Anforderungen konzipiert sind. Wir bieten ein umfangreiches Spektrum an Sprachen und zeichnen in verschiedenen Umgebungen auf, wodurch unsere Datensätze umfassend und anpassungsfähig sind. ÖUnser Fokus liegt darauf, Modelle mit der größtmöglichen Menge an benutzerdefinierten Sprachdaten in möglichst kurzer Zeit zu versorgen. Mit uns an Bord erwartet Sie:
- Kuratierte hochwertige mehrsprachige Audio-/Sprachdaten zur Verbesserung der Genauigkeit
- Höchstmögliche Ebene der Domänenspezifität für target vielfältiges Szenario -Setup
- Skalieren Sie Ihr ML-Modell, um es an verschiedene Demografien und Branchen anzupassen
- Aufnahmeumgebungen: Studioqualität, mit kristallklarem Audio mit minimalen Hintergrundgeräuschen und Natürliche Umgebungen, bei dem Aufnahmen Umgebungsgeräusche integrieren, um reale Situationen nachzuahmen.
100+
55 +
Daten zu Sprechstunden
250+
Projekte
60+
Sprachen (über 100 Dialekte)
8 / 16 / 44 / 48 kHz
Abtastrate
Unsere Expertise
Richten Sie Audiodaten für intelligentere NLP-Modelle aus
Shaip bietet End-to-End-Dienste zur Erfassung von Sprach-/Audiodaten in mehr als 100 Sprachen, damit sprachgestützte Technologien ein vielfältiges Publikum auf der ganzen Welt bedienen können. Wir können an Projekten jeder Größenordnung und Größe arbeiten; von der Lizenzierung vorhandener Standard-Audiodatensätze über die Verwaltung der benutzerdefinierten Audiodatensammlung bis hin zur Audiotranskription und Annotation. Egal wie groß Ihr Projekt zur Erfassung von Sprachdaten ist, wir können die Audioerfassungsdienste an Ihre Bedürfnisse anpassen, um hochwertige NLP-Datensätze zu erstellen, die auf Dialekte, Töne und Sprachen abzielen. Wählen Sie aus unserem breiten Angebot an Sprachdatensätzen und Audiodatenerfassungsressourcen für sprachaktivierende intelligente Setups.
Monolog im Drehbuch und spontane Rede
Der Schwerpunkt liegt auf der Verarbeitung der Sprache eines einzelnen Sprechers. Nutzen Sie skriptgesteuerte Eingabeaufforderungen zur Einspeisung in einkanalige Audiodateien und stellen Sie so die Erfassung einzigartiger Sprachmuster, Töne und Nuancen sicher, die für diese Person spezifisch sind.
Dialoggesteuerte und spontane Rede
Interaktion mit zwei Personen, Nachbildung realer Gespräche und Dialoge mit mehrsprachiger Darstellung über Dual-Channel-Dateien und transkribierte Ressourcen.
Gruppe/Muti-Party
Gespräche
Diskussionen mit mehreren Personen, Erfassung von Gruppendynamik, Überschneidungen und unterschiedlichen Tönen, um Sprachmodelle präzise zu trainieren.
Sammlung von Aktivierungswörtern/Schlüsselphrasen/Äußerungen
Trainieren Sie KIs, um Schlüsselphrasen zu identifizieren oder Wörter oder Äußerungen mit ähnlicher Bedeutung zu wecken, indem Sie vielfältige, reichhaltige und authentische Äußerungen für eine erweiterte Verarbeitung und ein besseres Verständnis natürlicher Sprache verwenden.
Akustische Daten
Sammlung
Wir können Audiodaten in Studioqualität professionell aufzeichnen, sei es in Restaurants, Büros oder Privathäusern oder aus verschiedenen Umgebungen und Sprachen, und dabei einen größeren akustischen Bereich abdecken (umfassende Klangdatensätze).
Automatische Spracherkennung (ASR)
Verbessern Sie die Genauigkeit Ihrer automatischen Spracherkennungssysteme (ASR), indem Sie Zugriff auf modernste diversifizierte Sprach-/Audiodatensätze aus einer Vielzahl von Demografien haben.
Mehrsprachige Sprach-/Audio-Trainingsdaten
Unsere erfahrenen Sprachprofis auf der ganzen Welt bieten mehrsprachige Audio-/Sprachdaten in verschiedenen Sprachen und Dialekten. Diese Bemühungen fördern die globale Kommunikation, überbrücken Sprachbarrieren und tragen so zu integrativeren und effektiveren KI-Lösungen bei.
Text-to-Speech
(TTS)
Erstellen Sie mit Hilfe unserer weltweiten Belegschaft ein mehrsprachiges Text-to-Speech-Modell (TTS), das Ihnen dabei hilft, Sprachdaten in über 150 Sprachen und Dialekten zu sammeln, um Ihre KI-Modelle von Fahrzeugsteuerungen bis hin zu Chatbots und Lernlösungen mit hoher Qualität zu verbessern. hochwertige Audiodaten.
Call Center
Gespräche
Echter Austausch zwischen Agenten und Kunden, unterstützt zahlreiche Sprachen wie Spanisch, Deutsch, amerikanisches Englisch, Bengali, Japanisch, Chinesisch und Hindi.
Erfolgsgeschichten
Konversations-KI-Datensätze mit über 3 Stunden Daten in 8 Sprachen
Auf der Suche nach einer mehrsprachigen Plattform für indische Sprachen arbeitete der Kunde mit Shaip zusammen, um große Datensätze in mehreren indischen Sprachen zu sammeln, zu segmentieren und zu transkribieren. Dies würde dazu beitragen, effektive Sprachmodelle zu entwickeln, die die innovative neue Plattform des Kunden vorantreiben könnten.
Problem: Über 3,000 Stunden Audiodaten wurden in 8 indischen Sprachen gesammelt, segmentiert und transkribiert, um eine automatische Spracherkennung zu entwickeln.
Lösung: Wir haben die Datenerfassung, Segmentierung und Transkription bereitgestellt und JSON-Dateien mit Metadaten bereitgestellt. Für das Sprachtechnologieprojekt des Kunden haben wir 3000 Stunden Audiodaten in 8 indischen Sprachen im großen Maßstab gesammelt.
Gründe, Shaip als Ihren vertrauenswürdigen Partner für die Sprachdatenerfassung zu wählen
Personen
Engagierte und geschulte Teams:
- 30,000+ Mitarbeiter für Datenerstellung, Kennzeichnung und QA
- Zertifiziertes Projektmanagement-Team
- Erfahrenes Produktentwicklungsteam
- Talentpool-Sourcing- und Onboarding-Team
Prozess
Höchste Prozesseffizienz wird gewährleistet durch:
- Robuster 6-Sigma-Stage-Gate-Prozess
- Ein engagiertes Team von 6 Sigma Black Belts – Key Process Owners & Quality Compliance
- Kontinuierliche Verbesserung und Feedbackschleife
Plattform
Die patentierte Plattform bietet Vorteile:
- Webbasierte End-to-End-Plattform
- Einwandfreie Qualität
- Schnellere TAT
- Nahtlose Lieferung
Personen
Engagierte und geschulte Teams:
- 30,000+ Mitarbeiter für Datenerstellung, Kennzeichnung und QA
- Zertifiziertes Projektmanagement-Team
- Erfahrenes Produktentwicklungsteam
- Talentpool-Sourcing- und Onboarding-Team
Prozess
Höchste Prozesseffizienz wird gewährleistet durch:
- Robuster 6-Sigma-Stage-Gate-Prozess
- Ein engagiertes Team von 6 Sigma Black Belts – Key Process Owners & Quality Compliance
- Kontinuierliche Verbesserung und Feedbackschleife
Plattform
Die patentierte Plattform bietet Vorteile:
- Webbasierte End-to-End-Plattform
- Einwandfreie Qualität
- Schnellere TAT
- Nahtlose Lieferung
Sprach-/Audio-Datensätze von der Stange
Details | Korpus-ID (eindeutig) | Stichwort (Keyword) | Sprachdatensatz | Sprachcode | Abtastrate | Datensatztyp | Gesamte Audiostunden | Kurzbeschreibung | Beschreibung des Datensatzes | Audio-Kanal | Aufzeichnungsplattform | WIR SIND (%) | Audio Format | Transkriptionsformat | Luftüberwachung | Anzahl der Lautsprecher | CTA |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
New York Englisch_GC_8 | New Yorker Englisch | New Yorker Englisch | en_US | 8 kHz | Allgemeine Konversation | 107 | New York English General Conversation-Daten | Unbeschriebenes Telefongespräch zwischen zwei Personen. Ca. Audiodauer (Bereich) - 15-60 Minuten, | Dual | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 118, Männlich 114, Unbekannt 0 | Kontakt | |
Russisch_SM_48 | Russisch | Russisch | ru-RU | 48 kHz | Geskripteter Monolog | 2,398 | Russischer geschriebener Monolog | Aufzeichnungen mit einer einzelnen Äußerung, die in der Regel in den Bereich von 5 bis 30 Sekunden fallen | Mono | App | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 1689 Männlich 1937 Unbekannt 214 | Kontakt | |
Punjabi_MA | Pandschabi | Punjabi (in Vorbereitung) | Pandschabi | Medienaudio | 40 | Punjabi (In Pipeline) Media-Audiodaten | Lizenzierbare Public-Domain-Audio-/Videodateien wie Interviews, Podcasts usw. – 1 bis 5 Personen. Ca. Audiodauer (Bereich) 15-60 Minuten | Web-Sourcing | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Kontakt | ||||
Punjabi_GC | Pandschabi | Punjabi (in Vorbereitung) | Pandschabi | Allgemeine Konversation | 100 | Punjabi (in Vorbereitung) Allgemeine Gesprächsdaten | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Kontakt | ||||
Punjabi_CC_8 | Pandschabi | Punjabi (in Vorbereitung) | Pandschabi | Call Center | 60 | Punjabi (in Vorbereitung) Call-Center-Daten | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Kontakt | ||||
Polnisch Poland_SM_48 | Polnisch (Polen) | Polnisch (Polen) | pl-PL | 48 kHz | Geskripteter Monolog | 1,482 | Polnisches Polen - Geskripteter Monolog | Aufzeichnungen mit einer einzelnen Äußerung, die in der Regel in den Bereich von 5 bis 30 Sekunden fallen | Mono | App | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 1324 Männlich 701 Unbekannt 24 | Kontakt | |
Polnisch_MA_16 | Polnisch | Polnisch | pl_PL | 16 kHz | Medienaudio | 269 | Polnische Medien Audio | Lizenzierbare Public-Domain-Audio-/Videodateien wie Interviews, Podcasts usw. – 1 bis 5 Personen. Ca. Audiodauer (Bereich) 15-60 Minuten | Mono | Web-Sourcing | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | weiblich 173 männlich 354 unbekannt 6 | Kontakt | |
Oriya_MA | Oriya | Oriya (in Vorbereitung) | oder_IN | Medienaudio | 40 | Oriya (In Pipeline) Media-Audiodaten | Lizenzierbare Public-Domain-Audio-/Videodateien wie Interviews, Podcasts usw. – 1 bis 5 Personen. Ca. Audiodauer (Bereich) 15-60 Minuten | Web-Sourcing | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Kontakt | ||||
Oriya_GC | Oriya | Oriya (in Vorbereitung) | oder_IN | Allgemeine Konversation | 100 | Oriya (in Vorbereitung) Allgemeine Gesprächsdaten | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Kontakt | ||||
Oriya_CC_8 | Oriya | Oriya (in Vorbereitung) | oder_IN | Call Center | 60 | Oriya (in Vorbereitung) Call-Center-Daten | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Kontakt | ||||
Neuseeland_MA_16 | Neuseeland Englisch | Neuseeland Englisch | de_NZ | 16 kHz | Medienaudio | 400 | Neuseeländisches englisches Medienaudio | Lizenzierbare Public-Domain-Audio-/Videodateien wie Interviews, Podcasts usw. – 1 bis 5 Personen. Ca. Audiodauer (Bereich) 15-60 Minuten | Mono | Web-Sourcing | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 367, Männlich 678, Unbekannt 26 | Kontakt | |
Neuseeland_GC_8 | Neuseeland Englisch | Neuseeland Englisch | de_NZ | 8 kHz | Allgemeine Konversation | 148 | Allgemeine Konversationsdaten für neuseeländisches Englisch | Unbeschriebenes Telefongespräch zwischen zwei Personen. Ca. Audiodauer (Bereich) - 15-60 Minuten, | Dual | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 167, Männlich 121, Unbekannt 4 | Kontakt | |
New York Englisch_MA_16 | New Yorker Englisch | New Yorker Englisch | en_US | 16 kHz | Medienaudio | 140 | Audiodaten von New York English Media | Lizenzierbare Public-Domain-Audio-/Videodateien wie Interviews, Podcasts usw. – 1 bis 5 Personen. Ca. Audiodauer (Bereich) 15-60 Minuten | Mono | Web-Sourcing | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 66, Männlich 230, Unbekannt 11 | Kontakt | |
Schottisch_GC_8 | Schottisch (englischer Akzent) | Schottisch (englischer Akzent) | de_AB | 8 kHz | Allgemeine Konversation | 292 | Schottische General Conversation-Daten | Unbeschriebenes Telefongespräch zwischen zwei Personen. Ca. Audiodauer (Bereich) - 15-60 Minuten, | Dual | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Frau 285, Mann 260, Unbekannt 3 | Kontakt | |
New York Englisch_CC_8 | New Yorker Englisch | New Yorker Englisch | en_US | 8 kHz | Call Center | 103 | New York English Call-Center-Daten | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Dual | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 610, Männlich 532, Unbekannt 0 | Kontakt | |
Niederlande_SM_48 | Niederländisch | Niederländisch | nl-NL | 48 kHz | Geskripteter Monolog | 1,205 | Niederländischer geschriebener Monolog | Aufzeichnungen mit einer einzelnen Äußerung, die in der Regel in den Bereich von 5 bis 30 Sekunden fallen | Mono | App | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 1285 Männlich 531 Unbekannt 3 | Kontakt | |
Mexikaner_SM_48 | Spanisch (Mexiko) | Spanisch (Mexiko) | es-MX | 48 kHz | Geskripteter Monolog | 1,492 | Mexikanisch-Spanisch geschriebener Monolog | Aufzeichnungen mit einer einzelnen Äußerung, die in der Regel in den Bereich von 5 bis 30 Sekunden fallen | Mono | App | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 1016 Männlich 1069 Unbekannt 95 | Kontakt | |
Marathi_MA | Marathi | Marathi (in Vorbereitung) | mr_IN | Medienaudio | 40 | Marathi (In Pipeline) Media-Audiodaten | Lizenzierbare Public-Domain-Audio-/Videodateien wie Interviews, Podcasts usw. – 1 bis 5 Personen. Ca. Audiodauer (Bereich) 15-60 Minuten | Web-Sourcing | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Kontakt | ||||
Marathi_GC | Marathi | Marathi (in Vorbereitung) | mr_IN | Allgemeine Konversation | 100 | Marathi (in Vorbereitung) Allgemeine Gesprächsdaten | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Kontakt | ||||
Marathi_CC_8 | Marathi | Marathi (in Vorbereitung) | mr_IN | Call Center | 60 | Marathi (in Vorbereitung) Call-Center-Daten | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Kontakt | ||||
Malayalam_MA | Malayalam | Malayalam (in Vorbereitung) | ml_IN | Medienaudio | 40 | Malayalam (In Pipeline) Media-Audiodaten | Lizenzierbare Public-Domain-Audio-/Videodateien wie Interviews, Podcasts usw. – 1 bis 5 Personen. Ca. Audiodauer (Bereich) 15-60 Minuten | Web-Sourcing | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Kontakt | ||||
Malayalam_GC | Malayalam | Malayalam (in Vorbereitung) | ml_IN | Allgemeine Konversation | 100 | Malayalam (in Vorbereitung) Allgemeine Gesprächsdaten | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Kontakt | ||||
Malayalam_CC_8 | Malayalam | Malayalam (in Vorbereitung) | ml_IN | Call Center | 60 | Malayalam (in Vorbereitung) Call-Center-Daten | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Kontakt | ||||
Malaiisch_MA_16 | Malay | Malay | ms_MY | 16 kHz | Medienaudio | 344 | Audiodaten von Malay Media | Lizenzierbare Public-Domain-Audio-/Videodateien wie Interviews, Podcasts usw. – 1 bis 5 Personen. Ca. Audiodauer (Bereich) 15-60 Minuten | Mono | Web-Sourcing | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 236, Männlich 626, Unbekannt 47 | Kontakt | |
Malaiisch_GC_8 | Malay | Malay | ms_MY | 8 kHz | Allgemeine Konversation | 266 | Malaiische allgemeine Konversationsdaten | Unbeschriebenes Telefongespräch zwischen zwei Personen. Ca. Audiodauer (Bereich) - 15-60 Minuten, Malaiisch in Malaysia | Dual | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 316, Männlich 176 , Unbekannt 0 | Kontakt | |
Telugu_GC_8 | Telugu | Telugu | te_IN | 8 kHz | Allgemeine Konversation | 553 | Telugu Allgemeine Konversationsdaten | Unbeschriebenes Telefongespräch zwischen zwei Personen. Ca. Audiodauer (Bereich) - 15-60 Minuten, | Dual | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 574, Männlich 564, Unbekannt 0 | Kontakt | |
Britisches Englisch_WW_16 | UK English | UK English | en_uk | 16 kHz | Wort wecken | 200 Lautsprecher | Wake Word UK Englisch | Stichwort Sammlung von Daten
| 1 Kanal | App | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Geschlecht: 50 % männlich, 50 % weiblich, +/- 10 %. | Kontakt | |
Walisisch_GC_8 | Walisisch (englischer Akzent) | Walisisch (englischer Akzent) | de_WL | 8 kHz | Allgemeine Konversation | 278 | Walisische allgemeine Konversationsdaten | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Dual | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 270, Männlich 324, Unbekannt 0 | Kontakt | |
Vietnamesisch_MA_16 | Vietnamesisch | Vietnamesisch | de_VN | 16 kHz | Medienaudio | 257 | Audiodaten von vietnamesischen Medien | Lizenzierbare Public-Domain-Audio-/Videodateien wie Interviews, Podcasts usw. – 1 bis 5 Personen. Ca. Audiodauer (Bereich) 15-60 Minuten | Mono | Web-Sourcing | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 249, Männlich 200, Unbekannt 45 | Kontakt | |
Vietnamesisch_GC_8 | Vietnamesisch | Vietnamesisch | de_VN | 8 kHz | Allgemeine Konversation | 295 | Daten zur vietnamesischen allgemeinen Konversation | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, Nord (z. B. Hanoi), Zentral und Süd (z. B. Ho-Chi-Minh-Stadt). | Dual | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 400, Männlich 380, Unbekannt 2 | Kontakt | |
Türkische Türkei_SM_48 | Türkische Türkei | Türkische Türkei | tr-TR | 48 kHz | Geskripteter Monolog | 2,027 | Türkische Türkei | Aufzeichnungen mit einer einzelnen Äußerung, die in der Regel in den Bereich von 5 bis 30 Sekunden fallen | Mono | App | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 1561 Männlich 1241 Unbekannt 31 | Kontakt | |
Thai_MA_8 | Thai | Thai | th_TH | 16 kHz | Medienaudio | 173 | Thai Media-Audio | Lizenzierbare Public-Domain-Audio-/Videodateien wie Interviews, Podcasts usw. – 1 bis 5 Personen. Ca. Audiodauer (Bereich) 15-60 Minuten | Mono | Web-Sourcing | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 143, Männlich 502, Unbekannt 26 | Kontakt | |
Thai_GC_8 | Thai | Thai | th_TH | 8 kHz | Allgemeine Konversation | 183 | Thai allgemeine Konversation | Unbeschriebenes Telefongespräch zwischen zwei Personen. Ca. Audiodauer (Bereich) - 15-60 Minuten, Ein informelles Register, das zwischen Freunden verwendet wird | Dual | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 338, Männlich 96, Unbekannt 8 | Kontakt | |
Telugu_MA | Telugu | Telugu (in Vorbereitung) | te_IN | Medienaudio | 20 | Telugu (In Pipeline) Media-Audiodaten | Lizenzierbare Public-Domain-Audio-/Videodateien wie Interviews, Podcasts usw. – 1 bis 5 Personen. Ca. Audiodauer (Bereich) 15-60 Minuten | Web-Sourcing | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Kontakt | ||||
Telugu_GC | Telugu | Telugu (in Vorbereitung) | te_IN | Allgemeine Konversation | 50 | Telugu (in Vorbereitung) Allgemeine Gesprächsdaten | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Kontakt | ||||
Telugu_CC_8 | Telugu | Telugu (in Vorbereitung) | te_IN | Call Center | 30 | Telugu (in Vorbereitung) Call-Center-Daten | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Kontakt | ||||
Telugu_MA_16 | Telugu | Telugu | te_IN | 16 kHz | Medienaudio | 648 | Audiodaten von Telugu Media | Lizenzierbare Public-Domain-Audio-/Videodateien wie Interviews, Podcasts usw. – 1 bis 5 Personen. Ca. Audiodauer (Bereich) 15-60 Minuten | Mono | Web-Sourcing | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 207, Männlich 963, Unbekannt 2 | Kontakt | |
Koreanisch_SM_48 | Koreanisch | Koreanisch | ko-KR | 48 kHz | Geskripteter Monolog | 1,955 | Koreanisch geschriebener Monolog | Aufzeichnungen mit einer einzelnen Äußerung, die in der Regel in den Bereich von 5 bis 30 Sekunden fallen | Mono | App | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 1195 Männlich 1134 Unbekannt 122 | Kontakt | |
Tamil_MA | Tamilisch | Tamilisch (in Vorbereitung) | ta_IN | Medienaudio | 40 | Tamilische (in Vorbereitung) Media-Audiodaten | Lizenzierbare Public-Domain-Audio-/Videodateien wie Interviews, Podcasts usw. – 1 bis 5 Personen. Ca. Audiodauer (Bereich) 15-60 Minuten | Web-Sourcing | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Kontakt | ||||
Tamil_GC | Tamilisch | Tamilisch (in Vorbereitung) | ta_IN | Allgemeine Konversation | 100 | Allgemeine Konversationsdaten für Tamil (in Vorbereitung). | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Kontakt | ||||
Tamilisch_CC_8 | Tamilisch | Tamilisch (in Vorbereitung) | ta_IN | Call Center | 60 | Tamilische (in Vorbereitung) Call-Center-Daten | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Kontakt | ||||
Schwedisch_MA_16 | Schwedisch | Schwedisch | sv_SE | 16 kHz | Medienaudio | 278 | Audiodaten der schwedischen Medien | Lizenzierbare Public-Domain-Audio-/Videodateien wie Interviews, Podcasts usw. – 1 bis 5 Personen. Ca. Audiodauer (Bereich) 15-60 Minuten | Mono | Web-Sourcing | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weibchen 195, Männchen 500, Unbekannt 21 | Kontakt | |
Schwedisch_CC_8 | Schwedisch | Schwedisch | sv_SE | 8 kHz | Call Center | 250 | Schwedische Call-Center-Daten | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Dual | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weibchen 1581, Männchen 727, Unbekannt 2 | Kontakt | |
Suaheli_MA_16 | Suaheli | Suaheli | sw_KE | 16 kHz | Medienaudio | 265 | Audiodaten von Swahili Media | Lizenzierbare Public-Domain-Audio-/Videodateien wie Interviews, Podcasts usw. – 1 bis 5 Personen. Ca. Audiodauer (Bereich) 15-60 Minuten | Mono | Web-Sourcing | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 118, Männlich 493, Unbekannt 25 | Kontakt | |
Suaheli_CC_8 | Suaheli | Suaheli | sw_KE | 8 kHz | Call Center | 230 | Suaheli Call-Center-Daten | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Dual | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 611, Männlich 833, Unbekannt 0 | Kontakt | |
Südafrikanisches Englisch_MA_16 | Südafrikanisches Englisch | Südafrikanisches Englisch | de_ZA | 16 kHz | Medienaudio | 251 | Audiodaten von südafrikanischen englischen Medien | Lizenzierbare Public-Domain-Audio-/Videodateien wie Interviews, Podcasts usw. – 1 bis 5 Personen. Ca. Audiodauer (Bereich) 15-60 Minuten | Mono | Web-Sourcing | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 235, Männlich 432, Unbekannt 36 | Kontakt | |
Südafrikanisches Englisch_CC_8 | Südafrikanisches Englisch | Südafrikanisches Englisch | de_ZA | 8 kHz | Call Center | 261 | South African English Call-Center-Daten | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Dual | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 1274 , Männlich 935 , Unbekannt 1 | Kontakt | |
Singapur_MA_16 | Singapur englisch | Singapur englisch | de_SG | 16 kHz | Medienaudio | 247 | Audiodaten von Singapore Media | Lizenzierbare Public-Domain-Audio-/Videodateien wie Interviews, Podcasts usw. – 1 bis 5 Personen. Ca. Audiodauer (Bereich) 15-60 Minuten | Mono | Web-Sourcing | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 160, Männlich 455, Unbekannt 37 | Kontakt | |
Singapur_CC_8 | Singapur englisch | Singapur englisch | de_SG | 8 kHz | Call Center | 218 | Call-Center-Daten aus Singapur | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Dual | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 2139, Männlich 884, Unbekannt 21 | Kontakt | |
Boston_CC_8 | Boston-Englisch | Boston-Englisch | en_US | 8 kHz | Call Center | 177 | Boston Call-Center-Daten | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Dual | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich: 605, Männlich: 711 und Unbekannt: 0 | Kontakt | |
Englisch Deep South_CC_8 | Englisch Tiefer Süden | Englisch Tiefer Süden | en_US | 8 kHz | Call Center | 151 | Englisch Deep South Call-Center-Daten | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Dual | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 221 , Männlich 1004 , Unbekannt 7 | Kontakt | |
Dänisch_SM_48 | Dänisch | Dänisch | da-DK | 48 kHz | Geskripteter Monolog | 2,579 | Dänischer geschriebener Monolog | Aufnahmen mit einer einzigen Äußerung, die in der Regel in den Bereich von 5 bis 30 Sekunden fallen, Dänisch aus Dänemark | Mono | App | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 1551 Männlich 1233 Unbekannt 42 | Kontakt | |
Dänisch_MA_16 | Dänisch | Dänisch | da_DK | 16 kHz | Medienaudio | 664 | Audiodaten von Danish Media | Lizenzierbare Public-Domain-Audio-/Videodateien wie Interviews, Podcasts usw. – 1 bis 5 Personen. Ca. Audiodauer (Bereich) 15-60 Minuten | Mono | Web-Sourcing | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich: 369, Männlich: 864, Unbekannt: 27 | Kontakt | |
Dänisch_GC_8 | Dänisch | Dänisch | da_DK | 8 kHz | Allgemeine Konversation | 372 | Dänische allgemeine Konversationsdaten | Unbeschriebenes Telefongespräch zwischen zwei Personen. Ca. Audiodauer (Bereich) - 15-60 Minuten, | Dual | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich: 311, Männlich: 417, Unbekannt: 0 | Kontakt | |
Traditionelles Chinesisch_SM_48 | Traditionelles Chinesisch | Traditionelles Chinesisch | zh-TW | 48 kHz | Geskripteter Monolog | 1,028 | Traditionelles Chinesisch | Aufzeichnungen mit einer einzelnen Äußerung, die in der Regel in den Bereich von 5 bis 30 Sekunden fallen | Mono | App | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 1069 Männlich 262 Unbekannt 3 | Kontakt | |
Chinesisch vereinfacht_SM_48 | Chinesisch vereinfacht | Chinesisch vereinfacht | zh-CN | 48 kHz | Geskripteter Monolog | 2,762 | Chinesisch vereinfacht | Aufzeichnungen mit einer einzelnen Äußerung, die in der Regel in den Bereich von 5 bis 30 Sekunden fallen | Mono | App | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 1920 Männlich 1535 Unbekannt 270 | Kontakt | |
Chinesisch_MA_16 | Chinesisch Englisch | Chinesisch Englisch | en_US | 16 kHz | Medienaudio | 249 | Audiodaten von chinesischen Medien | Lizenzierbare Public-Domain-Audio-/Videodateien wie Interviews, Podcasts usw. – 1 bis 5 Personen. Ca. Audiodauer (Bereich) 15-60 Minuten | Mono | Web-Sourcing | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich: 126, Männlich: 346 und Unbekannt: 6 | Kontakt | |
Chinesisch_CC_8 | Chinesisch Englisch | Chinesisch Englisch | en_US | 8 kHz | Call Center | 169 | Chinesische Call-Center-Daten | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Dual | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich: 1790, Männlich: 523 und Unbekannt: 13 | Kontakt | |
Kanadier_SM_48 | Kanadisches Französisch | Kanadisches Französisch | fr-CA | 48 kHz | Geskripteter Monolog | 1,222 | Kanadisches Französisch | Aufzeichnungen mit einer einzelnen Äußerung, die in der Regel in den Bereich von 5 bis 30 Sekunden fallen | Mono | App | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 974 Männlich 631 Unbekannt 1 | Kontakt | |
Boston_MA_16 | Boston-Englisch | Boston-Englisch | en_US | 16 kHz | Medienaudio | 93 | Audiodaten von Boston Media | Lizenzierbare Public-Domain-Audio-/Videodateien wie Interviews, Podcasts usw. – 1 bis 5 Personen. Ca. Audiodauer (Bereich) 15-60 Minuten | Mono | Web-Sourcing | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich: 43, Männlich: 181 und Unbekannt: 2 | Kontakt | |
Boston_GC_8 | Boston-Englisch | Boston-Englisch | en_US | 8 kHz | Allgemeine Konversation | 32 | Boston General Conversation-Daten | Unbeschriebenes Telefongespräch zwischen zwei Personen. Ca. Audiodauer (Bereich) - 15-60 Minuten, | Dual | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich: 53, Männlich: 83 und Unbekannt: 0 | Kontakt | |
Englisch Deep South_GC_8 | Englisch Tiefer Süden | Englisch Tiefer Süden | en_US | 8 kHz | Allgemeine Konversation | 56 | Englisch Deep South Allgemeine Konversationsdaten | Unbeschriebenes Telefongespräch zwischen zwei Personen. Ca. Audiodauer (Bereich) - 15-60 Minuten, | Dual | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 99, Männlich 31, Unbekannt 0 | Kontakt | |
Bengali_MA | Bengalisch | Bengalisch (in Vorbereitung) | bn_IN | Medienaudio | 40 | Bengali (In Pipeline) Media-Audiodaten | Lizenzierbare Public-Domain-Audio-/Videodateien wie Interviews, Podcasts usw. – 1 bis 5 Personen. Ca. Audiodauer (Bereich) 15-60 Minuten | Web-Sourcing | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Kontakt | ||||
Bengali_GC | Bengalisch | Bengalisch (in Vorbereitung) | bn_IN | Allgemeine Konversation | 100 | Allgemeine Konversationsdaten für Bengali (in Vorbereitung). | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Kontakt | ||||
Bengali_CC_8 | Bengalisch | Bengalisch (in Vorbereitung) | bn_IN | Call Center | 60 | Bengalische (in Vorbereitung) Call-Center-Daten | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Kontakt | ||||
Assamesisch_MA | Assamese | Assamesisch (in Vorbereitung) | wie in | Medienaudio | 40 | Assamesische (in Pipeline) Medienaudiodaten | Lizenzierbare Public-Domain-Audio-/Videodateien wie Interviews, Podcasts usw. – 1 bis 5 Personen. Ca. Audiodauer (Bereich) 15-60 Minuten | Web-Sourcing | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Kontakt | ||||
Assamesisch_GC | Assamese | Assamesisch (in Vorbereitung) | wie in | Allgemeine Konversation | 100 | Allgemeine Konversationsdaten für Assamesisch (in Vorbereitung). | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Kontakt | ||||
Assamesisch_CC_8 | Assamese | Assamesisch (in Vorbereitung) | wie in | Call Center | 60 | Assamesische (in Vorbereitung) Call-Center-Daten | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Kontakt | ||||
Arabisch_SM_48 | Arabisch | Arabisch | ar-SA | 48 kHz | Geskripteter Monolog | 1,947 | Monolog in arabischer Schrift | Aufzeichnungen mit einer einzelnen Äußerung, die in der Regel in den Bereich von 5 bis 30 Sekunden fallen | Mono | App | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 838 Männlich 1209 Unbekannt 78 | Kontakt | |
Arabisch_GC_8 | Arabisch | Arabisch | ar_AE | 8 kHz | Allgemeine Konversation | 292 | Arabische allgemeine Konversationsdaten | Unbeschriebenes Telefongespräch zwischen zwei Personen. Ca. Audiodauer (Bereich) - 15-60 Minuten, Arabisch aus den Golfstaaten | Dual | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich: 171, Männlich: 534 und Unbekannt: 1 | Kontakt | |
Afrikaans_MA_16 | Afrikanisch | Afrikanisch | af_ZA | 16 kHz | Medienaudio | 658 | Afrikaans-Mediendateien | Lizenzierbare Public-Domain-Audio-/Videodateien wie Interviews, Podcasts usw. – 1 bis 5 Personen. Ca. Audiodauer (Bereich) 15-60 Minuten | Mono | Web-Sourcing | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich: 750, Männlich: 1278 und Unbekannt: 52 | Kontakt | |
Afrikaans_GC_8 | Afrikanisch | Afrikanisch | af_ZA | 8 kHz | Allgemeine Konversation | 368 | Daten zu allgemeinen Konversationen in Afrikaans | Unbeschriebenes Telefongespräch zwischen zwei Personen. Ca. Audiodauer (Bereich) - 15-60 Minuten, Afrikaans wird in Afrika gesprochen | Dual | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich: 502, Männlich: 390 und Unbekannt: 2 | Kontakt | |
de_US_MA_16 | Afroamerikanische Umgangssprache | Afroamerikanische Umgangssprache | en_US | 16 kHz | Medienaudio | 154 | Afroamerikanische Vernacular Media-Daten | Lizenzierbare Public-Domain-Audio-/Videodateien wie Interviews, Podcasts usw. – 1 bis 5 Personen. Ca. Audiodauer (Bereich) 15-60 Minuten | Mono | Web-Sourcing | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich: 151, Männlich: 150 und Unbekannt: 10 | Kontakt | |
HINGLISH_MA_16 | Hinglish | Hinglish | hg_IN | 16 kHz | Medienaudio | 216 | HINGLISH Medienaudiodaten | Lizenzierbare Public-Domain-Audio-/Videodateien wie Interviews, Podcasts usw. – 1 bis 5 Personen. Ca. Audiodauer (Bereich) 15-60 Minuten | Mono | Web-Sourcing | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 75, Männlich 380, Unbekannt 0 | Kontakt | |
Koreanisch_MA_16 | Koreanisch | Koreanisch | ko_KR | 16 kHz | Medienaudio | 204 | Audiodaten für koreanische Medien | Lizenzierbare Public-Domain-Audio-/Videodateien wie Interviews, Podcasts usw. – 1 bis 5 Personen. Ca. Audiodauer (Bereich) 15-60 Minuten | Mono | Web-Sourcing | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 70 Männlich 303, Unbekannt 25 | Kontakt | |
Koreanisch_CC_8 | Koreanisch | Koreanisch | ko_KR | 8 kHz | Call Center | 107 | Koreanische Call-Center-Daten | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Dual | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 1086, Männlich 210, Unbekannt 4 | Kontakt | |
Kannada_MA | kannada | Kannada (in Vorbereitung) | kn_IN | Medienaudio | 40 | Kannada (In Pipeline) Media-Audiodaten | Lizenzierbare Public-Domain-Audio-/Videodateien wie Interviews, Podcasts usw. – 1 bis 5 Personen. Ca. Audiodauer (Bereich) 15-60 Minuten | Web-Sourcing | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Kontakt | ||||
Kannada_GC | kannada | Kannada (in Vorbereitung) | kn_IN | Allgemeine Konversation | 100 | Kannada (in Vorbereitung) Allgemeine Gesprächsdaten | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Kontakt | ||||
Kannada_CC_8 | kannada | Kannada (in Vorbereitung) | kn_IN | Call Center | 60 | Kannada (in Vorbereitung) Call-Center-Daten | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Kontakt | ||||
Japanisch_SM_48 | Japanisch | Japanisch | ja-JP | 48 kHz | Geskripteter Monolog | 2,335 | Japanischer geschriebener Monolog | Aufzeichnungen mit einer einzelnen Äußerung, die in der Regel in den Bereich von 5 bis 30 Sekunden fallen | Mono | App | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 1460 Männlich 1221 Unbekannt 194 | Kontakt | |
Irish_GC_8 | irisch | irisch | de_IE | 8 kHz | Allgemeine Konversation | 192 | Daten zu irischen allgemeinen Gesprächen | Unbeschriebenes Telefongespräch zwischen zwei Personen. Ca. Audiodauer (Bereich) - 15-60 Minuten, | Dual | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 213 , Männlich 153 , Unbekannt 0 | Kontakt | |
Indonesisch_MA_16 | Indonesian | Indonesian | id_ID | 16 kHz | Medienaudio | 643 | Audiodaten der indonesischen Medien | Lizenzierbare Public-Domain-Audio-/Videodateien wie Interviews, Podcasts usw. – 1 bis 5 Personen. Ca. Audiodauer (Bereich) 15-60 Minuten | Mono | Web-Sourcing | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 746, Männlich 1507, Unbekannt 129 | Kontakt | |
Indonesisch_GC_8 | Indonesian | Indonesian | id_ID | 8 kHz | Allgemeine Konversation | 496 | Indonesische allgemeine Konversationsdaten | Unbeschriebenes Telefongespräch zwischen zwei Personen. Ca. Audiodauer (Bereich) - 15-60 Minuten, Bahasa-Indonesisch | Dual | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 524, Männlich 454, Unbekannt 2 | Kontakt | |
Spanisch_MA_16 | Hispanisches Englisch | Hispanisches Englisch | en_US | 16 kHz | Medienaudio | 155 | Hispanic Call Media-Audio | Lizenzierbare Public-Domain-Audio-/Videodateien wie Interviews, Podcasts usw. – 1 bis 5 Personen. Ca. Audiodauer (Bereich) 15-60 Minuten | Mono | Web-Sourcing | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 140, Männlich 219, Unbekannt 5 | Kontakt | |
Spanisch_CC_8 | Hispanisches Englisch | Hispanisches Englisch | en_US | 8 kHz | Call Center | 212 | Hispanic Call-Center-Daten | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Dual | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 822, Männlich 1262, Unbekannt 0 | Kontakt | |
de_US_CC_8 | Afroamerikanische Umgangssprache | Afroamerikanische Umgangssprache | en_US | 8 kHz | Call Center | 211 | African American Vernacular Call-Center-Daten | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Dual | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich: 612, Männlich: 1242 und Unbekannt: 12 | Kontakt | |
HINGLISH_CC_8 | Hinglish | Hinglish | hg_IN | 8 kHz | Call Center | 208 | HINGLISH Call-Center-Daten | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Dual | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 822, Männlich 1262 , Unbekannt 0 | Kontakt | |
Hindi_SM_48 | Hindi | Hindi | Hallo-IN | 48 kHz | Geskripteter Monolog | 2,867 | Hindi geschriebener Monolog | Aufzeichnungen mit einer einzelnen Äußerung, die in der Regel in den Bereich von 5 bis 30 Sekunden fallen | Mono | App | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 1977 Männlich 1864 Unbekannt 147 | Kontakt | |
Hindi_MA_16 | Hindi | Hindi | hi_IN | 16 kHz | Medienaudio | 219 | Audiodaten von Hindi Media | Lizenzierbare Public-Domain-Audio-/Videodateien wie Interviews, Podcasts usw. – 1 bis 5 Personen. Ca. Audiodauer (Bereich) 15-60 Minuten | Mono | Web-Sourcing | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Frau 83, Mann 309, Unbekannt 0 | Kontakt | |
Hebräisch_MA_16 | Hebräisch | Hebräisch | er_IL | 16 kHz | Medienaudio | 427 | Audiodaten von hebräischen Medien | Lizenzierbare Public-Domain-Audio-/Videodateien wie Interviews, Podcasts usw. – 1 bis 5 Personen. Ca. Audiodauer (Bereich) 15-60 Minuten | Mono | Web-Sourcing | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Frau 361, Mann 513, Unbekannt 13 | Kontakt | |
Hebräisch_Allgemeines Gespräch_8 | Hebräisch | Hebräisch | er_IL | 8 kHz | Allgemeine Konversation | 399 | Hebräische allgemeine Konversationsdaten | Unbeschriebenes Telefongespräch zwischen zwei Personen. Ca. Audiodauer (Bereich) - 15-60 Minuten, Hebräisch in Israel | Dual | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 414 , Männlich 399 , Unbekannt 1 | Kontakt | |
Gujarati_MA | Gujarati | Gujarati (in Vorbereitung) | gu_IN | Medienaudio | 40 | Gujarati (In Pipeline) Media-Audiodaten | Lizenzierbare Public-Domain-Audio-/Videodateien wie Interviews, Podcasts usw. – 1 bis 5 Personen. Ca. Audiodauer (Bereich) 15-60 Minuten | Web-Sourcing | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Kontakt | ||||
Gujarati_GC | Gujarati | Gujarati (in Vorbereitung) | gu_IN | Allgemeine Konversation | 100 | Gujarati (in Vorbereitung) Allgemeine Gesprächsdaten | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Kontakt | ||||
Gujarati_CC_8 | Gujarati | Gujarati (in Vorbereitung) | gu_IN | Call Center | 60 | Gujarati (in Vorbereitung) Call-Center-Daten | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Desktop | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Kontakt | ||||
Deutsch_IVR_8 | Deutsch | Deutsch | de-De | 8 kHz | IVR | 200 | Deutsche IVR-Daten | Mensch zu Maschine. Ein IVR-Flow, bei dem eine TTS-Eingabeaufforderung (z. B. „Wie kann ich Ihnen helfen“) gefolgt von einer spontanen menschlichen Antwort erfolgt | Mono | Desktop | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 10115 Männlich 8750 Unbekannt 0 | Kontakt | ||
Deutsch_CC_8 | Deutsch | Deutsch | de-De | 8 kHz | Call Center | 64 | Deutsche Call-Center-Daten | Unbeschriebenes, synthetisches Telefongespräch zwischen „Agent“ und „Kunde“, Ca. Audiodauer (Bereich) 5-15 Minuten, | Mono | Desktop | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 478 Männlich 1440 Unbekannt 0 | Kontakt | ||
Englisch Deep South_MA_16 | Englisch Tiefer Süden | Englisch Tiefer Süden | en_US | 16 kHz | Medienaudio | 266 | Englisch Deep South Media Audiodaten | Lizenzierbare Public-Domain-Audio-/Videodateien wie Interviews, Podcasts usw. – 1 bis 5 Personen. Ca. Audiodauer (Bereich) 15-60 Minuten | Mono | Web-Sourcing | 5.0 | . Wav | .json | ASR, virtueller Assistent, Chatbot, Konversations-KI, Sprachanalyse, TTS, Sprachmodellierung | Weiblich 204, Männlich 356, Unbekannt 21 | Kontakt |
Dienstleistungen angeboten
Die fachmännische Audiodatenerfassung ist für umfassende KI-Setups nicht nur praktisch. Bei Shaip können Sie sogar die folgenden Dienste in Betracht ziehen, um Modelle weit verbreiteter als üblich zu machen:
Erfassung von Textdaten
Dienstleistungen
Der wahre Wert der kognitiven Datenerfassungsdienste von Shaip besteht darin, dass sie Unternehmen den Schlüssel zur Erschließung kritischer Informationen in unstrukturierten Daten liefern
Bilddatenerfassungsdienste
Stellen Sie sicher, dass Ihr Computer-Vision-Modell jedes Bild genau identifiziert, um die KI-Modelle der nächsten Generation der Zukunft nahtlos zu trainieren
Dienste zur Erfassung von Videodaten
Konzentrieren Sie sich jetzt auf Computer Vision zusammen mit NLP, um Ihre Modelle zu trainieren, um Objekte, Personen, Abschreckungsmittel und andere visuelle Elemente perfekt zu identifizieren
Empfohlene Ressourcen
Mit
Audiokommentar für intelligente KIs
Audioanmerkungsdienste waren von Anfang an eine Stärke von Shaip. Entwickeln, trainieren und verbessern Sie Konversations-KI, Chatbots und Spracherkennungs-Engines mit unseren hochmodernen Audioanmerkungsdiensten.
Käufer-Führer
Einkaufsführer: Vollständiger Leitfaden für Conversational AI
Der Chatbot, mit dem Sie sich unterhalten haben, läuft auf einem fortschrittlichen Konversations-KI-System, das mit unzähligen Spracherkennungsdatensätzen trainiert, getestet und erstellt wurde.
Datenkatalog
Standardmäßiger Sprachdatenkatalog und Lizenzierung
Es gibt eine Vielzahl gängiger Anwendungen für Sprachdaten in KI-Projekten. Wir bieten Ihnen riesige Mengen hochwertiger Daten für Ihre Spracherkennung.
Möchten Sie Ihren eigenen Audiodatensatz erstellen?
Wenden Sie sich an unseren internen Experten für Sprachdatenerfassung, um ein Audio-Repository einzurichten, das Ihren Anforderungen am besten entspricht
Häufig gestellte Fragen (FAQ)
Unter Sprachdatenerfassung für ein ML-Modell versteht man den Prozess der Erfassung von Audioaufzeichnungen gesprochener Sprache. Diese Sammlung hilft beim Trainieren und Verfeinern von Algorithmen für maschinelles Lernen, insbesondere von solchen, die sich auf das Verstehen und Verarbeiten menschlicher Stimmen konzentrieren.
Wenn Sie Audiodaten für die automatische Spracherkennung (ASR) sammeln möchten, sollten Sie zunächst die spezifischen Anforderungen Ihres Projekts definieren, einschließlich der gewünschten Sprache, des Akzents und der Art der Sprache. Stellen Sie nach dem Festlegen dieser Parameter sicher, dass Sie alle erforderlichen Berechtigungen erhalten, um die Privatsphäre der Benutzer zu respektieren. Verwenden Sie dann geeignete Aufnahmegeräte oder Software, um klare Audiobeispiele aufzunehmen. Jede Aufnahme sollte sorgfältig mit ihrer Transkription oder anderen relevanten Metadaten versehen und systematisch gespeichert werden, um einen mühelosen Zugriff zu ermöglichen.
Ein Sprachdatensatz beim maschinellen Lernen ist von entscheidender Bedeutung für das Training, Testen und Validieren von Modellen, die auf die Erkennung, Transkription oder Interpretation gesprochener Sprache zugeschnitten sind. Solche Datensätze ebnen den Weg für eine Vielzahl von Anwendungen, von Sprachassistenten und Transkriptionsdiensten bis hin zur Stimmbiometrie.
Um präzise Daten aus verschiedenen Sprachen und Akzenten zu sammeln, ist die Zusammenarbeit mit Muttersprachlern mit dem gewünschten sprachlichen Hintergrund von entscheidender Bedeutung. Streben Sie eine vielfältige und repräsentative Stichprobe an, um ein breites Spektrum demografischer Nuancen abzudecken. Setzen Sie standardisierte Aufnahmegeräte in einheitlichen Umgebungen ein, um die Audiokonsistenz sicherzustellen. Und was noch wichtiger ist: Kommentieren Sie jedes Datenelement mit detaillierten Transkriptionen und Metadaten und geben Sie dabei die spezifische Sprache und den Akzent an.