Fallstudie zu Musik-KI

Erfassung von Singstimmendaten

Stimmbasierte Gesangs-Audiosammlung für das Training von EQ- und Kompressionsalgorithmen: Erfassung sprachlicher und musikalischer Vielfalt

Stimmbasierte Gesangs-Audiosammlung

Projektübersicht

Shaip arbeitete mit einem führenden Technologieunternehmen zusammen, um verschiedene Gesangsaufnahmen in vier vorrangigen Sprachen zu sammeln: Chinesisch, Arabisch, Spanisch und Russisch. Ziel des Projekts war es, qualitativ hochwertige Daten für das Training KI-basierter EQ- und Komprimierungsalgorithmen bereitzustellen, die für die Verbesserung der automatisierten Audioverarbeitung von entscheidender Bedeutung sind.

Die Sammlung umfasste 40 Teilnehmer (10 pro Sprache) aus verschiedenen Genres, wobei der Schwerpunkt auf Aufnahmen in Studioqualität mit unterschiedlichen Mikrofonen und Umgebungen lag.

Gesangs-Audiosammlung

Schlüsselstats

4 Sprachen: Chinesisch, Arabisch, Spanisch, Russisch

10 Sänger für
Sprache (insgesamt 40)

20 Stunden of
Singen Audio

Audioformat: 48 kHz PCM, Mono, WAV

Audiotranskription in Muttersprachen

Projektdauer:
18 Wochen

Projektumfang

Datensammlung

Der Umfang umfasste die Sammlung von Gesangsaudio in vier Zielsprachen, aufgenommen von echten Künstlern aus verschiedenen Musikgenres. Eine Studioumgebung wurde verwendet, um qualitativ hochwertige Aufnahmen sicherzustellen, die für das Training von KI-Modellen geeignet sind.

Schlüsselanforderungen

  • Teilnehmer: 10 Sänger pro Sprache, mit einer ausgewogenen Geschlechterverteilung (50 % männlich, 50 % weiblich).
  • Genres: Eine Vielzahl von Genres, die vom Künstler selbst identifiziert und auf Konsistenz überprüft wurden.
  • Aufnahmeumgebung: Studioqualität mit mehreren Mikrofoneinstellungen (dynamisch, Kondensator).
  • Audio Format: 48 kHz PCM, Mono, WAV-Dateien ohne Verarbeitung (z. B. ohne Komprimierung, EQ, Nachhall).
  • Transkription: Die Lieder müssen in der Sprache transkribiert werden, in der sie gesungen werden. Für zweisprachige Lieder gelten besondere Regeln.
  • Sprachen: Chinesisch, Arabisch, Spanisch, Russisch
  • Transkription
    • Transkriptionen sollten in der Sprache der Aufnahme bereitgestellt werden (z. B. Hindi-Zeilen in Devanagari, gefolgt von Englisch).
    • Achten Sie aus Gründen der Klarheit und Genauigkeit darauf, dass jedes Segment nicht länger als 15 Sekunden ist.
  • Anforderungen für die Audioaufzeichnung
    • Mindestens 3 Mikrofoneinstellungen pro Aufnahmesitzung.
    • 3 Minuten pro Lied, mit 3 Takes pro Lied, um abwechslungsreiche Mikrofonaufnahmen für jeden Teilnehmer zu gewährleisten.
    • Akustische Umgebung in Studioqualität ohne Hintergrundgeräusche.

Probleme

Teilnehmervielfalt

Eine ausgewogene Verteilung der Sänger nach Geschlecht, Stimmlage/Tonhöhe und Musikgenre sicherzustellen, war eine komplexe Herausforderung.

Datenkonsistenz

Behalten Sie konsistente Mikrofoneinstellungen und -umgebungen bei, während Sie vielfältige Gesangsdarbietungen in mehreren Sprachen aufnehmen.

Audioqualitätskontrolle

Gewährleistung von Audio in Studioqualität ohne externe Geräusche und präziser Transkription in mehreren Sprachen.

Die Lösung

Shaip lieferte eine umfassende Lösung, die die Projektanforderungen erfüllte, indem:

  • Rekrutierung von 40 Sängern in vier Sprachen und Sicherstellung einer vielfältigen Vertretung hinsichtlich Geschlecht, Tonhöhe und Musikstil.
  • Durchführen von Aufnahmen in Studioqualität mit verschiedenen Mikrofontypen (dynamisch, Kondensator), um ein breites Spektrum an Audiodaten zu erfassen.
  • Präzises Transkribieren von Aufnahmen in den verwendeten Sprachen unter Beachtung spezifischer Regeln für zweisprachige Lieder.
  • Zustimmung: Vor der Aufzeichnung werden von allen Teilnehmern Einverständniserklärungen eingeholt.

Ergebnis

Die gesammelten vielfältigen Gesangsaudiodaten ermöglichten es dem Kunden, ein robustes Trainingsset für automatisierte EQ- und Komprimierungsalgorithmen zu entwickeln und so die Qualität der Audioverarbeitung zu verbessern. Die hochwertigen Aufnahmen und detaillierten Metadaten stellten sicher, dass die KI-Modelle mit verschiedenen Musikgenres und sprachlichen Komplexitäten umgehen konnten. Wichtige Ergebnisse:

  • Hochwertige, vielfältige Audiodaten zum Training von KI-Systemen.
  • Genaue Transkription und Metadaten für die Analyse.
  • Eine stärkere Grundlage für KI-basierte Audioverarbeitungstools.

Leistungen

  • 20 Stunden Audioaufnahmen in Studioqualität (48 kHz PCM, Mono-WAV-Dateien).
  • Transkriptionen in der Sprache der Aufnahme.
  • Metadaten: Mikrofonmarke/-modell, DAC/Audioschnittstelle, Sängerprofil, Genreinformationen.
  • JSON-Format zur Transkription mit Metadaten.

Shaips Fähigkeit, die Vielfalt musikalischer Talente und sprachlichen Reichtums einzufangen, war für die Entwicklung unserer EQ- und Kompressionsalgorithmen von unschätzbarem Wert. Ihr Team stellte sicher, dass jeder Aspekt, von der Künstlerrekrutierung bis zur Aufnahmequalität, mit Präzision behandelt wurde, was dies zu einem wesentlichen Schritt bei der Verfeinerung unserer automatisierten Audioverarbeitungssysteme machte.

Wir sind wirklich dankbar für das Vertrauen und die Zusammenarbeit, die Shaip während des gesamten Prozesses gezeigt hat. Trotz unserer strengen und anspruchsvollen technischen Anforderungen waren ihr Engagement, ihre harte Arbeit und ihre Liebe zum Detail hervorragend. Es war eine Freude, mit einem Team zusammenzuarbeiten, das so sehr darauf bedacht ist, Spitzenleistungen zu erbringen

Golden-5-Sterne