Crowdsourced Sprachaufnahmen und deren Bedeutung für die Entwicklung von Spracherkennungssystemen
31.03.2021
Crowdsourced Sprachaufnahmen spielen bei der Entwicklung von sprachgesteuerten Apps eine entscheidende Rolle. Da sich die Spracherkennung schnell von einer Neuheit zu einer alltäglichen Notwendigkeit entwickelt, kann man davon ausgehen, dass die Nachfrage sowohl nach Sprachaufnahmen als auch nach sprachgesteuerten Systemen gleichzeitig steigen wird.
Laut Grand View Research wird erwartet, dass die Nachfrage nach sprachgesteuerten Systemen und Geräten bis zum Jahr 2025 einen Wert von etwa 32 Milliarden US-Dollar haben wird. Doch wofür genau werden Sprachaufnahmen verwendet? Warum sind Crowdsourced Sprachaufnahmen wichtig?
Die Rolle von Sprachaufzeichnungen in sprachgesteuerten Systemen
Die Zukunft der Mensch-Maschine-Interaktion hängt von der Sprachsteuerung ab. Ob Sprachassistenten, Telefonsysteme, die auf Befehle hören, oder das sprachaktivierte Internet der Dinge (IoT) – Sprachaufnahmen helfen, intelligente Algorithmen zu trainieren und Spracherkennung zu ermöglichen.
Virtuelle Agenten spielen bereits eine entscheidende Rolle im Bankwesen, in Call-Centern, bei der Telemedizin und bei Infotainment-Systemen im Auto. Diese sind alle nur durch Spracherkennungssysteme möglich. Allerdings liefern die meisten keine wirklich einwandfreie Performance für den Endbenutzer.
In einer Welt nach der Pandemie können wir erwarten, dass wir viel mehr berührungslose Mensch-Maschine-Interaktionen am Arbeitsplatz, zu Hause und im Einzelhandel sehen werden. Infolgedessen hat die Branche einen wachsenden Bedarf großer Mengen an Sprachdaten, um zuverlässige und umfassende Systeme zu entwickeln.
Top Spracherkennungssysteme müssen zum Beispiel Akzente und Dialekte erkennen, vor Betrug und Nachahmung schützen, den emotionalen Zustand des Benutzers erkennen und entsprechend reagieren (insbesondere im Gesundheitswesen). In diesem Szenario reichen Schablonenantworten, wie „Es tut mir leid, ich verstehe Sie nicht, könnten Sie das wiederholen“ einfach nicht aus.
Erlernen von Variation durch Crowdsourced Sprachaufnahmen
Frühe Inkarnationen von Spracherkennungstechnologien waren aufgrund von geschlechts- und rassenspezifischen Vorurteilen ziemlich unhandlich. Wenn Sie zum Beispiel einen Akzent hatten, verstand die Künstliche Intelligenz (KI), die das Produkt betrieb, nicht, was Sie von ihr verlangten.
Um erfolgreiche Mensch-Maschine-Interaktionen zu ermöglichen, müssen wir ein allumfassendes Spracherkennungssystem entwickeln. Der beste Ansatz ist hier, Crowdsourced Sprachaufnahmen zu verwenden, um Algorithmen des maschinellen Lernens (ML) beizubringen, verschiedene Akzente, Dialekte und Phonationstypen zu erkennen.
Phonationstypen beschreiben im Wesentlichen die verschiedenen Arten, wie wir durch die Vibration unserer Stimmbänder Klang erzeugen. Es gibt zwei große Kategorien von Phonationstypen, nämlich modale und nichtmodale.
Die modale Phonation beschreibt, wie die Stimmlippen während der geschlossenen Phase des phonatorischen Zyklus vollständigen Kontakt herstellen. Nonmodale Phonation bezeichnet das Gegenteil davon. Zum Beispiel sind hauchige und knarrende Stimmen eine Form der nichtmodalen Phonation.
Warum ist Crowdsourcing wichtig für Spracherkennungssysteme?
Crowdsourcing für verschiedenen Arten von Sprachaufnahmen ist der erste Schritt zum Aufbau einer allumfassenden Sprach-KI. Diese Methode setzt ML-Algorithmen verschiedenen Tönen, Geschlechtern, Akzenten und Dialekten aus. Mit der Zeit lernen intelligente Algorithmen aus diesen umfangreichen Datensätzen, um die Fragen der Benutzer (oder Kunden) besser zu verstehen und zu beantworten.
Die Wiederholung von Fragen bei der Interaktion mit einem automatisierten System ist frustrierend und kann möglicherweise zum Abbruch führen. Mit Crowdsourced Sprachaufnahmen, die ein breites Spektrum an Akzenten, modaler und nichtmodaler Phonation, Geschlechtern und mehr abdecken, können Sie diese Art von Situationen vermeiden. Dieser Ansatz trägt wesentlich dazu bei, das Kundenerlebnis zu verbessern, indem er fast menschenähnliche Gespräche ermöglicht.
Diese komplexen Interaktionen fördern das Engagement. ML-Algorithmen werden weiterhin auf der Grundlage der Daten trainiert, die in Workflows gesammelt und strukturiert werden, einschließlich des Sammelns, Kommentierens, Transkribierens und des Taggens von Sprachaufnahmen. Durch verschiedene Stufen der Validierung wird diese Technologie immer besser werden und Genauigkeit und Auffälligkeit gewährleisten.
Ein Sprachassistent, der von Crowdsourced-Sprachaufnahmen gelernt hat, wird verstehen, was Sie sagen (beim ersten Mal), auch, wenn Sie kein Muttersprachler sind. Die KI sammelt die Sprachdaten, transkribiert sie in Text, validiert sie und versieht sie dann mit Anmerkungen, um einen größeren Wert aus den Daten abzuleiten – zum Beispiel, um dem Sprachassistenten zu helfen, die Absicht des Benutzers zu verstehen.
Die KI wird die Frage oder Anweisung mit der passenden Antwort abgleichen und der Dialog wird auf diese Weise fortgesetzt. Mensch-Maschine-Interaktionen, bei denen der Sprecher mit dem Ergebnis zufrieden war, werden dem Sprachdatensatz hinzugefügt (und die intelligenten Algorithmen werden besser, indem sie daraus lernen).
Wie kann man also eine vielfältige Datenbank von Sprachaufnahmen per Crowdsourcing beschaffen?
In diesem Szenario können Sie eine Kampagne durchführen, um selbst eine umfangreiche Datenbank aufzubauen oder Sie können einen Drittanbieter beauftragen, der dies bereits getan hat. Ersteres ist sehr viel zeit- und ressourcenaufwendiger. Sie müssen verschiedene Arten von Stimmen aus der ganzen Welt rekrutieren und aufnehmen, um Ihre Sprachdatenbank von Grund auf aufzubauen.
Wenn Sie clickworker mit der Erstellung von Audiodatensätzen via Crowdsourcing beauftragen, erhalten Sie sofortigen Zugriff auf mehr als 2,2 Millionen Clickworker/Crowdworker auf der ganzen Welt, die Sprachaufnahmen in über 30 verschiedenen Sprachen und zahlreichen Dialekten aufnehmen, transkribieren und klassifizieren.
Sie haben zum Beispiel die Möglichkeit, eine Datenbank mit Sprachaufnahmen basierend auf Ihrer spezifischen Branche, Zielgruppe usw. aufzubauen. Die Sprachaufnahmen können frei oder auch nach schriftlich vorgegebenen Sätzen erfolgen (Text to Speech).
Diese Clickworker könnten auch unterschiedliche Ausdrucksweisen mit ein und demselben Ziel aufnehmen. So bekommen die Algorithmen verschiedene Variationen desselben Satzinhaltes zur Verfügung gestellt, um ein Gefühl für das Ziel des Satzes zu bekommen (das stets das gleiche bleibt).
Diese Trainingsdaten für die Spracherkennung sind entscheidend, da keine zwei Aufnahmen jemals gleich sein werden. Dieser Ansatz ermöglicht eine genauere Abbildung der lokalen und internationalen Zielgruppen bzw. Systemanwender.
Sie können Crowdsourced-Sprachdatensätze auch nutzen, um Ihre Spracherkennungsanwendung zu testen, einen Proof of Concept zu erstellen und alltägliche Aufgaben sowie sprachgesteuerte Interaktionen durchzuführen.
Wichtige Erkenntnisse/Vorteile des Einsatzes von Crowdsourced Sprachdatensätzen bei der Entwicklung von Spracherkennungssystemen:
ermöglicht eine Abdeckung breiter Zielgruppen und bessere Marktrepräsentation
verbessert Erfahrungen der Systemanwender/Kunden
Spracheingaben müssen nicht mehrfach wiederholt werden
hilft beim Aufbau von Markenwert und Loyalität
schafft die Voraussetzungen für eine nahtlose Mensch-Maschine-Beziehung
Dieser Artikel wurde am 31.März 2021 von Andrew Zola
geschrieben.
Andrew Zola
Cookie-Erklärung
Wir verwenden Cookies, um Ihnen ein optimales Website-Erlebnis zu bieten.
Cookies sind kleine Textdateien, die beim Besuch einer Website zwischengespeichert werden, um die Benutzererfahrung effizienter zu gestalten.
Laut Gesetz können wir Cookies auf Ihrem Gerät speichern, wenn diese für den Betrieb der Seite unbedingt notwendig sind. Für alle anderen Cookies benötigen wir Ihre Einwilligung.
Sie können Ihre Cookie-Einstellungen jederzeit auf unserer Website ändern. Den Link zu Ihren Einstellungen finden Sie im Footer.
Erfahren Sie in unseren Datenschutzbestimmungen mehr über den Einsatz von Cookies bei uns und darüber wie wir personenbezogene Daten verarbeiten.
Notwendige Cookies
Notwendige Cookies helfen dabei, eine Webseite nutzbar zu machen, indem sie Grundfunktionen wie Seitennavigation und Zugriff auf sichere Bereiche der Webseite ermöglichen. Die Webseite kann ohne diese Cookies nicht richtig funktionieren.
Wenn Sie diese Cookie deaktivieren, können wir Ihre Einstellungen nicht speichern. Dies bedeutet, dass Sie bei jedem Besuch dieser Website Cookies erneut aktivieren oder deaktivieren müssen.
Zusätzliche Cookies
Alle Cookies, die für das Funktionieren der Website nicht unbedingt erforderlich sind und die speziell zum Sammeln personenbezogener Benutzerdaten über Analysen, Anzeigen und andere eingebettete Inhalte verwendet werden, werden als zusätzliche Cookies bezeichnet.
Bitte aktivieren Sie zuerst die unbedingt notwendigen Cookies, damit wir Ihre Einstellungen speichern können!