Spracherkennung in unserem Alltag – Fast jeder nutzt sie

Spracherkennung im Alltag

Im Laufe des letzten Jahrzehnts hat die Welt einen radikalen Wandel durchgemacht. Technologien, die einst in der Science-Fiction angesiedelt waren, sind nun zu einer Facette unseres täglichen Lebens geworden. Eine Technologie, die mittlerweile so alltäglich geworden ist, dass die meisten nicht einmal einen zweiten Gedanken daran verschwenden, ist die Spracherkennung.

Heutzutage sind KI-gesteuerte Sprachassistenten wie Alexa, Siri und Google überall in unseren Häusern und Smartphones weit verbreitet – aber das war nicht immer so.

Während Computer schon seit geraumer Zeit in der Lage sind, Stimmen zu erkennen, waren sie in ihrem Bemühen, diese zu verstehen, nicht allzu erfolgreich. Interaktive Voice-Response-Systeme (IVR) auf der ganzen Welt waren einfach nicht in der Lage, das gesprochene Wort richtig zu verarbeiten.

In jüngster Zeit hat sich das jedoch zu ändern begonnen. Dank des Wachstums der Künstlichen Intelligenz (KI) und der Technologien zur Verarbeitung natürlicher Sprache (NLP) sinken die Fehlerquoten bei der Spracherkennung. Mit einer Genauigkeit von fast 95 % beginnt die Technologie sich in Bezug auf Einsetzbarkeit und Nutzwert endlich auszuzahlen.

Spracherkennungstechnologien werde mittlerweile in allen Unternehmen eingesetzt. Hier profitiert nicht nur der Bereich Kundenservice stark, denn Spracherkennungssysteme werden auch in vielen anderen Unternehmensbereichen eingesetzt. Unternehmen nutzen die Spracherkennung als Mittel zur Vereinfachung von Prozessen und zur Beschleunigung der allgemeinen Abläufe und zur Steigerung der Effizienz.

Facettenreiche Audio-Datensätze zum Training von Spracherkennungstechnologien können schnell und günstig über clickworker bestellt werden.

Die Entwicklung bis heute – die Geschichte der Spracherkennungstechnologie

Es war ein holpriger Weg bis zum heutigen Stand der Entwicklung und wir sind definitiv nicht über Nacht von Null zum Helden geworden, wenn es um Spracherkennungstechnologien geht. Doch der Komfort, den wir heute mit Sprachassistenten wie Alexa, Siri, Cortana und Google haben, wäre ohne die Pioniere, die ihnen vorausgegangen sind, nicht möglich.

Sprache ist eigentlich schon seit den frühen Tagen der Computertechnik von Interesse. In den 1950er und 60er Jahren arbeiteten die Bell Labs an einem System namens Audrey, das einstellige Zahlen erkennen konnte. Zehn Jahre später wurde IBMs Shoebox System entwickelt, das in der Lage war, 16 Wörter zu verstehen.

In den folgenden Jahrzehnten wurde weiter an der Spracherkennung gearbeitet und entwickelt. In den 1970er Jahren arbeiteten zum Beispiel das US-Verteidigungsministerium und die DARPA an Programmen, die schließlich zum Harpy-System führten. Harpy, entwickelt von Carnegie Mellon, war in der Lage, 1.000 Wörter zu verstehen und darauf zu reagieren, was eine massive Verbesserung gegenüber früheren Systemen darstellte. Doch trotz dieser Verbesserung entsprachen seine Fähigkeiten immer noch nur denen eines dreijährigen Kindes.

In den 1980er und 90er Jahren gab es weitere schrittweise Verbesserungen und Anfang der 2000er Jahre hatte die Spracherkennung eine Genauigkeit von fast 80 % erreicht. An diesem Punkt schienen die Dinge jedoch für eine Weile ins Stocken zu geraten, bis zur zweiten Hälfte der 2000er und der 2010er Jahren.

In dieser Zeit wurden Google Voice, Apples Siri und andere ähnliche Sprachassistenzsysteme entwickelt und eingesetzt. Es war dieser letzte Vorstoß, der dazu beitrug, die Sprachfähigkeiten zu transformieren und sich einer 95%igen Genauigkeit anzunähern. Google und andere haben das, was sie „hören“, kontinuierlich verbessert, indem sie ihre massiven Datenerfassungsprojekte und cloudbasierten Prozesse für die Entwicklung ihrer KI-Technologien genutzt haben.

Wie funktioniert die Spracherkennung?

Spracherkennung mag für einen Laien einfach erscheinen, in Wirklichkeit ist sie aber sehr komplex. Stellen Sie sich die Spracherkennung ähnlich vor wie die Art und Weise, wie ein Kind eine Sprache erlernt: Kinder hören täglich Sprache um sich herum. Ob Geschwister, Eltern oder Fremde – ein Kind nimmt ständig verschiedene verbale und nonverbale Signale auf. Dadurch wird das Gehirn trainiert und es werden Verbindungen zwischen Wörtern und ihrer Bedeutung hergestellt.

Auch wenn es scheinen mag, als ob wir für Sprache fest verdrahtet sind, braucht es tatsächlich Zeit und Training, bis diese beherrscht werden kann. Die Spracherkennungstechnologie ist im Grunde sehr ähnlich. Bei Computern lernen wir immer noch, wie man sie am besten trainiert, aber es ist ein sehr ähnlicher Prozess, der viel Mühe und Wiederholung erfordert. Die Perfektionierung von Spracherkennungssystemen dürfte bei der Vielzahl von Sprachen, Akzenten und Dialekten in der heutigen Welt eine fast unlösbare Aufgabe sein. Aber wir kommen der Lösung immer näher.

Was sind die Vorteile der Spracherkennung?

Fortschritte in der Technologie wurden in erster Linie gemacht, um unser Leben zu vereinfachen und uns zu befähigen, mehr zu schaffen. Die Spracherkennung steht an der Spitze dieser Fortschritte und hat für viele einen großen Einfluss auf ihr tägliches Leben. Es gibt viele verschiedene Vorteile der Spracherkennungstechnologie. Einige der wichtigsten Vorteile sind:

Steuerung via Sprachassistenten

Sprachassistenten wie Google und Alexa sind mittlerweile in vielen Haushalten auf der ganzen Welt auf smarten Lautsprechern extrem verbreitet. Zusätzlich zu diesen Lautsprechern haben Assistenten wie Cortana auf unserem Computer oder Siri und Google auf unseren Smartphones Sprachassistenten schnell zu etwas gemacht, ohne das viele von uns nicht mehr leben können.

Spracherkennung im Gesundheitswesen

Spracherkennungstechnologien haben im medizinischen Bereich viele verschiedene Rollen zu spielen. U.a. werden Sprachtechnologien eingesetzt, um die Kommunikation von Patienten mit Sprachbehinderungen zu verbessern.

Sprachtechnologien werden auch von medizinischen Fachkräften eingesetzt. Ärzte verwenden Apps, die ihre Notizen während einer Konsultation transkribieren können. Dies ermöglicht Ärzten eine bessere Fokussierung auf das Wesentliche und verbessert zudem die Aufzeichnung von Patienteninformationen und Behandlungsverläufen.

Spracherkennung für Hörgeschädigte

Voice-to-Text– und Transkriptionstools können schwerhörigen und gehörlosen Schülern helfen, auf eine Weise zu lernen, die ihnen bisher verwehrt war. Darüber hinaus können für Menschen mit Sehbehinderungen Text-to-Speech-Diktiertechnologien und Bildschirmlesegeräte ein wichtiges Hilfsmittel sein.

Spracherkennung und Kundenbetreuung

Mit der größeren Genauigkeit der jetzt verfügbaren Spracherkennung sind Kunden besser in der Lage, IVR-Systeme zu nutzen, um ihre Anrufe korrekt weitergeleitet zu bekommen. Spracherkennung kann auch dazu beitragen, einen Teil der Arbeitslast von Kontakt- und Support-Centern zu nehmen, indem Chatbots allgemeine Fragen beantworten und kein menschliches Eingreifen mehr erforderlich ist. Bei Fragen, die menschliche Hilfe erfordern, können identifizierende Informationen im Voraus eingeholt werden, um die Antwortzeiten zu beschleunigen.

Spracherkennung und Fahrzeuge

Ein Bereich, in dem die Spracherkennung einen bedeutenden und lebensrettenden Einfluss hat, sind Fahrzeuge. Assistenzfunktionen, die durch Android Auto und Apple Carplay unterstützt werden, helfen dabei, Ablenkungen im Auto zu vermeiden, damit der Fahrer sich auf die Straße konzentrieren kann.

Heute können Fahrer während der Fahrt über PKW-Infotainmentsysteme sicher Texte senden und empfangen, Radiosender wechseln, ohne einen Knopf zu berühren, und sogar zu gewünschten Restaurants und Sehenswürdigkeiten navigieren, indem sie einfach ihre Stimme benutzen.

Spracherkennung am Arbeitsplatz

Obwohl wir alle gerne einen persönlichen Assistenten hätten, haben leider nur wenige sehr hochrangige Führungskräfte Zugang zu ihnen. Glücklicherweise werden digitale Sprachassistenten jetzt viel mehr zum Mainstream. Diese Assistenten können dabei helfen, Dateien zu finden und sogar Besprechungsnotizen zu machen, indem sie Gespräche im laufenden Betrieb transkribieren. Auch die Sicherheit kann durch den Einsatz von Spracherkennung anstelle von Magnetkarten erhöht werden.

KI und ML in der Spracherkennungsbranche

Der Begriff Künstliche Intelligenz wurde erstmals 1956 geprägt. Seitdem wird KI als ein Mittel definiert, das es Computern ermöglicht, Aufgaben und Dienste auszuführen, zu denen früher nur Menschen fähig waren. Maschinelles Lernen (ML) ist ein Teil der KI und bezieht sich auf die Methoden, mit denen sich digitale Systeme selbst weiterbilden.

Mit ML arbeiten Forscher und Wissenschaftler daran, Computer dazu zu bringen, Muster direkt zu finden und zu erkennen, ohne hierfür verschiedene Regeln programmieren zu müssen. Dieses Training erfordert riesige Mengen an KI-Trainingsdaten und ist etwas, das erst in den letzten Jahren möglich geworden ist. Wenn die Daten in den Algorithmus eingespeist werden, sucht das System nach eindeutigen Mustern, die auf verschiedenen Kriterien basieren. Forscher bewerten die Genauigkeit dieser Muster und verfeinern sie im Laufe der Zeit, sodass die Systeme immer intelligenter werden.

Herausforderungen bei der Spracherkennung

Es gibt viele verschiedene Herausforderungen bei der Spracherkennungstechnologie. Einige davon sind der Umgang der Systeme mit Hintergrundgeräuschen, die Qualität der Aufnahmegeräte und sogar die Dialekte und Akzente, die von Menschen auf der ganzen Welt verwendet werden.

Es gibt noch keinen bestimmten perfekten Weg, Maschinen gesprochene Sprache beizubringen. Forscher wissen, dass bei Menschen das, was eine Person sagt, nur ein Teil dessen ist, was tatsächlich gemeint ist. Menschen achten ständig auf Variationen in Tonhöhe und Tonfall sowie auf Mimik und Körpersprache, um die Bedeutung zu verstehen. Darüber hinaus können unterschiedliche Sprechweisen wie Slang und Abkürzungen sowie Sarkasmus das Gesagte radikal verändern.

Die Zukunft der Spracherkennungssysteme

Wir haben im letzten halben Jahrhundert viele Fortschritte in der Spracherkennung gemacht, und im nächsten Jahrzehnt wird die Technologie noch ausgereifter werden.

Während zum jetzigen Zeitpunkt die Spracherkennung überwiegend zur Unterstützung bei der Online-Suche eingesetzt wird, wird dies in Zukunft nicht so bleiben. Unternehmen auf der ganzen Welt sind ständig am Innovieren und Experimentieren mit der Technologie, um neue Anwendungsmöglichkeiten zu finden. Da Sprachassistenten immer allgegenwärtiger werden, sind die Möglichkeiten endlos, und da künstliche Stimmen immer natürlicher werden, werden sie dazu beitragen, die Menschen von ihren Bildschirmen zu befreien.