Crowdsourced Sprachaufnahmen und deren Bedeutung für die Entwicklung von Spracherkennungssystemen

31.03.2021

Crowdsourced Sprachaufnahmen

Crowdsourced Sprachaufnahmen spielen bei der Entwicklung von sprachgesteuerten Apps eine entscheidende Rolle. Da sich die Spracherkennung schnell von einer Neuheit zu einer alltäglichen Notwendigkeit entwickelt, kann man davon ausgehen, dass die Nachfrage sowohl nach Sprachaufnahmen als auch nach sprachgesteuerten Systemen gleichzeitig steigen wird.

Laut Grand View Research wird erwartet, dass die Nachfrage nach sprachgesteuerten Systemen und Geräten bis zum Jahr 2025 einen Wert von etwa 32 Milliarden US-Dollar haben wird. Doch wofür genau werden Sprachaufnahmen verwendet? Warum sind Crowdsourced Sprachaufnahmen wichtig?

Die Rolle von Sprachaufzeichnungen in sprachgesteuerten Systemen

Die Zukunft der Mensch-Maschine-Interaktion hängt von der Sprachsteuerung ab. Ob Sprachassistenten, Telefonsysteme, die auf Befehle hören, oder das sprachaktivierte Internet der Dinge (IoT) – Sprachaufnahmen helfen, intelligente Algorithmen zu trainieren und Spracherkennung zu ermöglichen.

Virtuelle Agenten spielen bereits eine entscheidende Rolle im Bankwesen, in Call-Centern, bei der Telemedizin und bei Infotainment-Systemen im Auto. Diese sind alle nur durch Spracherkennungssysteme möglich. Allerdings liefern die meisten keine wirklich einwandfreie Performance für den Endbenutzer.

In einer Welt nach der Pandemie können wir erwarten, dass wir viel mehr berührungslose Mensch-Maschine-Interaktionen am Arbeitsplatz, zu Hause und im Einzelhandel sehen werden. Infolgedessen hat die Branche einen wachsenden Bedarf großer Mengen an Sprachdaten, um zuverlässige und umfassende Systeme zu entwickeln.

Top Spracherkennungssysteme müssen zum Beispiel Akzente und Dialekte erkennen, vor Betrug und Nachahmung schützen, den emotionalen Zustand des Benutzers erkennen und entsprechend reagieren (insbesondere im Gesundheitswesen). In diesem Szenario reichen Schablonenantworten, wie „Es tut mir leid, ich verstehe Sie nicht, könnten Sie das wiederholen“ einfach nicht aus.

Erlernen von Variation durch Crowdsourced Sprachaufnahmen

Frühe Inkarnationen von Spracherkennungstechnologien waren aufgrund von geschlechts- und rassenspezifischen Vorurteilen ziemlich unhandlich. Wenn Sie zum Beispiel einen Akzent hatten, verstand die Künstliche Intelligenz (KI), die das Produkt betrieb, nicht, was Sie von ihr verlangten.

Um erfolgreiche Mensch-Maschine-Interaktionen zu ermöglichen, müssen wir ein allumfassendes Spracherkennungssystem entwickeln. Der beste Ansatz ist hier, Crowdsourced Sprachaufnahmen zu verwenden, um Algorithmen des maschinellen Lernens (ML) beizubringen, verschiedene Akzente, Dialekte und Phonationstypen zu erkennen.

Phonationstypen beschreiben im Wesentlichen die verschiedenen Arten, wie wir durch die Vibration unserer Stimmbänder Klang erzeugen. Es gibt zwei große Kategorien von Phonationstypen, nämlich modale und nichtmodale.

Die modale Phonation beschreibt, wie die Stimmlippen während der geschlossenen Phase des phonatorischen Zyklus vollständigen Kontakt herstellen. Nonmodale Phonation bezeichnet das Gegenteil davon. Zum Beispiel sind hauchige und knarrende Stimmen eine Form der nichtmodalen Phonation.

Warum ist Crowdsourcing wichtig für Spracherkennungssysteme?

Crowdsourcing für verschiedenen Arten von Sprachaufnahmen ist der erste Schritt zum Aufbau einer allumfassenden Sprach-KI. Diese Methode setzt ML-Algorithmen verschiedenen Tönen, Geschlechtern, Akzenten und Dialekten aus. Mit der Zeit lernen intelligente Algorithmen aus diesen umfangreichen Datensätzen, um die Fragen der Benutzer (oder Kunden) besser zu verstehen und zu beantworten.

Die Wiederholung von Fragen bei der Interaktion mit einem automatisierten System ist frustrierend und kann möglicherweise zum Abbruch führen. Mit Crowdsourced Sprachaufnahmen, die ein breites Spektrum an Akzenten, modaler und nichtmodaler Phonation, Geschlechtern und mehr abdecken, können Sie diese Art von Situationen vermeiden. Dieser Ansatz trägt wesentlich dazu bei, das Kundenerlebnis zu verbessern, indem er fast menschenähnliche Gespräche ermöglicht.

Diese komplexen Interaktionen fördern das Engagement. ML-Algorithmen werden weiterhin auf der Grundlage der Daten trainiert, die in Workflows gesammelt und strukturiert werden, einschließlich des Sammelns, Kommentierens, Transkribierens und des Taggens von Sprachaufnahmen. Durch verschiedene Stufen der Validierung wird diese Technologie immer besser werden und Genauigkeit und Auffälligkeit gewährleisten.

Ein Sprachassistent, der von Crowdsourced-Sprachaufnahmen gelernt hat, wird verstehen, was Sie sagen (beim ersten Mal), auch, wenn Sie kein Muttersprachler sind. Die KI sammelt die Sprachdaten, transkribiert sie in Text, validiert sie und versieht sie dann mit Anmerkungen, um einen größeren Wert aus den Daten abzuleiten – zum Beispiel, um dem Sprachassistenten zu helfen, die Absicht des Benutzers zu verstehen.

Die KI wird die Frage oder Anweisung mit der passenden Antwort abgleichen und der Dialog wird auf diese Weise fortgesetzt. Mensch-Maschine-Interaktionen, bei denen der Sprecher mit dem Ergebnis zufrieden war, werden dem Sprachdatensatz hinzugefügt (und die intelligenten Algorithmen werden besser, indem sie daraus lernen).

Wie kann man also eine vielfältige Datenbank von Sprachaufnahmen per Crowdsourcing beschaffen?

In diesem Szenario können Sie eine Kampagne durchführen, um selbst eine umfangreiche Datenbank aufzubauen oder Sie können einen Drittanbieter beauftragen, der dies bereits getan hat. Ersteres ist sehr viel zeit- und ressourcenaufwendiger. Sie müssen verschiedene Arten von Stimmen aus der ganzen Welt rekrutieren und aufnehmen, um Ihre Sprachdatenbank von Grund auf aufzubauen.

Wenn Sie clickworker mit der Erstellung von Audiodatensätzen via Crowdsourcing beauftragen, erhalten Sie sofortigen Zugriff auf mehr als 2,2 Millionen Clickworker/Crowdworker auf der ganzen Welt, die Sprachaufnahmen in über 30 verschiedenen Sprachen und zahlreichen Dialekten aufnehmen, transkribieren und klassifizieren.

Sie haben zum Beispiel die Möglichkeit, eine Datenbank mit Sprachaufnahmen basierend auf Ihrer spezifischen Branche, Zielgruppe usw. aufzubauen. Die Sprachaufnahmen können frei oder auch nach schriftlich vorgegebenen Sätzen erfolgen (Text to Speech).

Diese Clickworker könnten auch unterschiedliche Ausdrucksweisen mit ein und demselben Ziel aufnehmen. So bekommen die Algorithmen verschiedene Variationen desselben Satzinhaltes zur Verfügung gestellt, um ein Gefühl für das Ziel des Satzes zu bekommen (das stets das gleiche bleibt).

Diese Trainingsdaten für die Spracherkennung sind entscheidend, da keine zwei Aufnahmen jemals gleich sein werden. Dieser Ansatz ermöglicht eine genauere Abbildung der lokalen und internationalen Zielgruppen bzw. Systemanwender.

Sie können Crowdsourced-Sprachdatensätze auch nutzen, um Ihre Spracherkennungsanwendung zu testen, einen Proof of Concept zu erstellen und alltägliche Aufgaben sowie sprachgesteuerte Interaktionen durchzuführen.

Wichtige Erkenntnisse/Vorteile des Einsatzes von Crowdsourced Sprachdatensätzen bei der Entwicklung von Spracherkennungssystemen:

  • ermöglicht eine Abdeckung breiter Zielgruppen und bessere Marktrepräsentation
  • verbessert Erfahrungen der Systemanwender/Kunden
  • Spracheingaben müssen nicht mehrfach wiederholt werden
  • hilft beim Aufbau von Markenwert und Loyalität
  • schafft die Voraussetzungen für eine nahtlose Mensch-Maschine-Beziehung

In Zukunft ist Crowdsourcing der Schlüssel zur Bereitstellung von immersiven und inklusiven Erlebnissen in allen Branchen. Wenn Sie mehr erfahren möchten, kontaktieren Sie uns für eine unverbindliche Beratung.

 

Dieser Artikel wurde am 31.March 2021 von Andrew Zola geschrieben.

avatar

Andrew Zola