Trainingsdaten für eine Software zur Spracherkennung

Fallstudie – Erstellung und Analyse von Sprachaufnahmen als Trainingsdaten für eine Software zur Spracherkennung

Tausende von Clickworker zeichnen ihre Spracheingaben zur Steuerung eines PKW-Infotainmentsystems auf, transkribieren und analysieren diese. Damit liefern sie dem Hersteller wichtige Daten zur Programmierung und Optimierung der Software zur Spracherkennung.

Die Herausforderung

Sprachgesteuerte Systeme sind oftmals nur so gut wie ihre Spracherkennung. Die Spracherkennung dieser Systeme auf die individuell sehr unterschiedlichen Spracheingaben der Nutzer hin zu optimieren und trainieren, ist hierbei eine große Herausforderung.
Eine Programmierung ohne die Faktoren “Menschlicher Verstand” und “Menschliches Verhalten” kann nicht zu einem optimalen Spracherkennungssystem führen. Die Spracheingaben der Nutzer werden häufig nicht erkannt oder falsch verstanden. Die Nutzer müssen ihre Befehle oft mehrmals eingeben, bis das System auf die Eingabe korrekt reagiert und die gewünschten Informationen anzeigt. Das kostet die Nutzer sowohl Zeit als auch Nerven und lenkt sie nicht selten zudem vom Verkehr ab.

Um das System auf eine ausreichende Spanne an individuellen Spracheingabemöglichkeiten potenzieller Nutzer hin zu optimieren, bedarf es der Sprachaufzeichnung Tausender verschiedener Personen mit ihren individuellen Eingaben und Aussprachen.

Die Lösung

Tausende unserer Clickworker aus diversen Ländern und Regionen zeichnen auf, wie sie ihren Befehl erteilen würden, um eine vorgegebene Reaktion X oder die Information Y über das Infotainmentsystem abzurufen. Jede Sprachaufzeichnung unterscheidet sich – auch bei gleicher Sprache – ganz individuell durch die Wortwahl, die Wortreihenfolge sowie die Aussprache jedes einzelnen Clickworkers.

Um die Algorithmen der Software zur Spracherkennung sinnvoll zu optimieren, müssen sie auch auf Bedingungen wie eindeutige Stichworte reagieren und trainiert werden. Hierzu werden alle Sprachaufzeichnungen von unseren Clickworkern in einem zweiten Schritt transkribiert und diese Sätze auf benutzte Stichwörter und deren Häufigkeit analysiert.

Mit Hilfe dieser Daten trainiert der Hersteller die Spracherkennung seines Systems und optimiert das Infotainmentsystem auf den individuell unterschiedlichen Umgang der Nutzer mit dem System.

Projektdaten

Clickworker-Qualifikationen: Muttersprachler aus den Zielregionen

Sprachen: 9 Sprachen

Anzahl der Sprachaufzeichnungen (im MP4-Format): 810.000 (Für jede Sprache 600 Aufnahmen zu 150 Szenarien)

Aufgaben:
1. Aufgabe: Erstellung der Audioaufnahmen
2. Aufgabe: Transkription der Aufnahmen
3. Aufgabe: Analyse und Auswertung

Qualitätssicherung: Überprüfung der Aufnahmen durch einen zweiten Clickworker, dem Transkriptor

Datenübermittlung: Datentransfer via xls-Datei

Der Arbeitsablauf

  1. Das Projekt wird mit dem Kunden besprochen und die daraus entstehenden Aufgaben definiert.
  2. clickworker setzt das Projekt in einer dreistufigen Aufgabeverteilung inkl. entsprechenden Briefings für die Clickworker und Qualitätssicherung auf.

     

    1. Aufgabe: Erstellung von Sprachaufnahmen
      • Audioaufnahmen in 9 Sprachen
      • Pro Sprache 600 Aufnahmen zu 150 Szenarien
      • Gewünscht sind 1.200 Clickworker pro Sprache
      • Audioformat: MP4-Dateien
    2. Aufgabe: Qualitätssicherung und Transkription
      • Überprüfung und Transkription der 810.000 Sprachaufnahmen von Muttersprachlern
    3. Aufgabe: Analyse & Auswertung
      • Zählung der Keywörter und deren Häufigkeiten pro Szenario und Sprache
      • Filterung der Phrasen samt Häufigkeiten je Szenario und Sprache
  3. Die fertigen Auftragsergebnisse werden dem Kunden via xls-Datei übermittelt.

Vorteile

  • Geschwindigkeit
  • Drei Services aus einer Hand
  • Einfacher Zugang zu Know-how und Sprachkenntnissen
  • Qualitätsgesicherte Ergebnisse
  • Skalierbarer Durchsatz
  • Flexible Workforce