Projekt Vaani

Projekt Vaani: Shaips Rolle bei der Entwicklung mehrsprachiger KI für Indien

In einem kulturell vielfältigen und sprachlich reichen Land wie Indien beginnt der Aufbau inklusiver KI mit der Erhebung repräsentativer, hochwertiger Datensätze. Das ist die Vision hinter Projekt Vaani– eine groß angelegte Open-Source-Initiative unter der Leitung von ARTPARK, IISc Bengaluruund Google, mit dem Ziel, jeder indischen Sprache und jedem Dialekt eine Stimme zu geben.

Das ehrgeizige Ziel? Sammeln Über 150,000 Stunden Sprache und Über 15,000 Stunden Transkriptionen von 1 Millionen Menschen über 773 Bezirke ).

Als einer der Hauptlieferanten für diese nationale Mission Saip spielte eine entscheidende Rolle bei der Kuratierung spontaner Sprachdaten, der Transkription und der Metadatensammlung und legte damit den Grundstein für gerechte Sprachtechnologien, die das wahre Indien repräsentieren.

Die Vision hinter Projekt Vaani

Das Projekt Vaani soll die Inklusionslücke bei KI schließen, indem es größter multimodaler, mehrsprachiger Open-Source-Datensatz in Indien. Diese Daten bilden die Grundlage für die Entwicklung präziser Spracherkennungs-, Übersetzungs- und generativer KI-Systeme in indischen Muttersprachen – viele davon sind in globalen Technologie-Ökosystemen unterrepräsentiert.

Die langfristige Vision besteht darin, wirkungsvolle Anwendungen in folgenden Bereichen zu ermöglichen:

Wie Shaip dazu beitrug, Indiens größten Open-Source-Sprachdatensatz für das Projekt Vaani aufzubauen

Shaip wurde mit der Sammlung von 8,000 Stunden spontane Sprache und 800 Stunden manuell überprüfte Transkriptionen. Unsere Verantwortung umfasste das Onboarding der Sprecher, die Audioaufnahme, die Metadatenmarkierung, die Transkriptionskoordination und die Qualitätskontrolle.

8,000 Stunden von spontanen Audiodaten

800 Stunden von hochwertigen manuellen Transkriptionen

Aufnahmen von 400+ Muttersprachler pro Bezirk, Repräsentiert verschiedene Altersgruppen, Geschlechter und Dialekte

80 Bezirke, bedeckt

Bildbasierte Eingabeaufforderungen zur Gewährleistung natürliche, kontextbezogene Sprache

Das macht unseren Ansatz einzigartig:

Diversität auf Bezirksebene

Diversität auf Bezirksebene

Wir haben Aufnahmen aus 80 Distrikten in Bundesstaaten wie Bihar, Uttar Pradesh, Karnataka, Westbengalen und Maharashtra bezogen. Jeder Distrikt steuerte 100 Stunden Audiodaten bei, um eine regionale Ausgewogenheit zu gewährleisten. Wir haben Muttersprachler einbezogen, um sicherzustellen, dass regionale Akzente und Dialekte berücksichtigt werden, die in gängigen KI-Datensätzen oft übersehen werden.

Sprachliche und demografische Repräsentation

Sprachliche und demografische Repräsentation

Wir haben Aufnahmen aus 80 Distrikten in Bundesstaaten wie Bihar, Uttar Pradesh, Karnataka, Westbengalen und Maharashtra bezogen. Jeder Distrikt steuerte 100 Stunden Audiodaten bei, um eine regionale Ausgewogenheit zu gewährleisten. Wir haben Muttersprachler einbezogen, um sicherzustellen, dass regionale Akzente und Dialekte berücksichtigt werden, die in gängigen KI-Datensätzen oft übersehen werden.

Bildgestützte Rede

Um einen spontanen und natürlichen Wortschatz zu fördern, wurden den Teilnehmern pro Sitzung 45–90 Bilder gezeigt und sie gebeten, diese zu beschreiben. Die Teilnehmer wurden mithilfe verschiedener Bilder – von kulturellen Symbolen bis hin zu Alltagsgegenständen – dazu angeregt, natürliche, spontane Antworten in ihrer Muttersprache zu erhalten. Dadurch wurde sichergestellt, dass die Aufnahmen die reale, kontextbezogene Sprache widerspiegelten – unerlässlich für das Training fortgeschrittener NLP-Systeme.

Hochwertige Transkriptionsstandards

Hochwertige Transkriptionsstandards

Nur 10 % der Sprachdaten wurden transkribiert – insgesamt 800 Stunden. Die Transkriptionen wurden von lokalen Linguisten in einem Umkreis von 20–50 km um den Sprecher durchgeführt, um die Vertrautheit mit Dialekten und Nuancen sicherzustellen. Eine zweite Überprüfung stellte eine Wortfehlerrate (WER) von <5 % sicher.

Strenge Qualitätssicherung

Die Audiodaten mussten hohe Anforderungen erfüllen: keine Hintergrundgeräusche, Echos, Telefonvibrationen oder Verzerrungen. Die Audioaufnahmen erfolgten in ruhigen, echofreien Umgebungen. Die Dateien wurden einer strengen Prüfung unterzogen, um die Richtlinien hinsichtlich Sprachverständlichkeit, Geräuschpegel, Metadatengenauigkeit und Sprecherverifizierung einzuhalten. Die Metadatenkennzeichnung musste in allen Dateien korrekt sein, und alle Aufnahmen wurden auf Sprecher- und Standortübereinstimmung überprüft.

Von uns gelöste Herausforderungen

Unser Erfolg beruhte auf sorgfältiger Planung, technologiebasierter Validierung und Partnerschaften mit lokalen Teams, die die kulturellen Nuancen jeder Region verstanden.

Auswirkungen und Anwendungen

Shaips Beitrag hat nicht nur den Fortschritt des Vaani-Projekts beschleunigt, sondern auch den Grundstein für inklusive KI in Indien gelegt. Der kuratierte Sprachdatensatz wird bereits verwendet, um KI-Modelle für folgende Bereiche zu entwickeln und zu optimieren:

  • Sprachassistenten in der Landessprache
  • Regionale Übersetzungsmaschinen
  • Barrierefreie Kommunikationsmittel für Sehbehinderte
  • KI-gesteuerte Edtech-Plattformen für Schüler im ländlichen Raum
  • Ländliche Telemedizin
  • Sprachbasierte Bürgerdienste
  • Übersetzung und Transkription in Echtzeit

Fazit

Das Projekt Vaani ist ein mutiger Schritt in Richtung inklusiver, zugänglicher KI – und Shaip fühlt sich geehrt, eine grundlegende Rolle dabei zu spielen. Shaips Arbeit am Projekt Vaani bekräftigt unser Engagement für den Aufbau ethischer, integrativer KI-Systeme, die auf Vielfalt und Repräsentation basieren. Mit über 8,000 Stunden gesammelter und 800 Stunden transkribierter Sprache sind wir stolz, an einem der visionärsten Projekte zur digitalen Inklusion Indiens beteiligt gewesen zu sein.

Während das Projekt Vaani weiter auf sein größeres Ziel hinarbeitet, über 150,000 Stunden Daten zu sammeln, stehen wir bereit, die nächste Grenze der KI-Innovation zu unterstützen, die jeden Inder anspricht – und für ihn da ist.

Möchten Sie mit uns zusammenarbeiten, um eine KI zu entwickeln, die die reale Welt versteht? www.shaip.com

Social Share