Trainingsdaten für KI – Lösungen: Nicht nur die Masse macht’s

19.03.2019

Trainingsdaten für KI

Künstliche Intelligenz findet immer mehr Einsatzgebiete. Damit Maschinen ähnlich wie Menschen agieren, benötigen sie jede Menge Daten. Die Masse macht’s. Das leuchtet ein – insbesondere bei schwierigen Problemen und komplexen Sachverhalten. Aber auch die Qualität der Daten spielt eine Rolle. Das gilt besonders für Trainingsdaten, die beim Maschinellen Lernen zum Einsatz kommen. Denn diese Informationen dienen dazu, dass sich die Algorithmen selbst weiterentwickeln. Maschinen lernen das Lernen.

Maschinelles Lernen oder Künstliche Intelligenz?

Maschinelles Lernen (ML) wird oft mit Künstlicher Intelligenz (KI) gleichgesetzt. Das ist nicht ganz richtig. Maschinelles Lernen gehört zwar zur Künstlichen Intelligenz, aber nicht alles, was KI ist, ist auch ML. Was ist der kleine, aber feine Unterschied?

  • Künstliche Intelligenz steht für Software, die kognitive Fähigkeiten von Menschen nachahmt und Probleme mit gelernten Methoden löst.
  • Maschinelles Lernen heißt: Die Software lernt selbstständig, Methoden zu entwickeln, um Probleme zu lösen – auf der Basis von Daten.

In der Praxis – vor allem im Business-Bereich – wird dieser Unterschied nicht immer beachtet. Häufig wird Machine Learning als Synonym für Artificial Intelligence verwendet. Nimmt man es aber genauer, stellt sich schnell heraus, dass Künstliche Intelligenz letztlich Maschinelles Lernen voraussetzt, um sich stetig weiterzuentwickeln und immer besser zu werden. Gemeinsam haben Künstliche Intelligenz und Maschinelles Lernen, dass sie Daten benötigen – je mehr, desto besser.

Bei clickworker liefert Ihnen eine starke Workforce mit über 4,5 Millionen Clickworkern Trainingsdaten für maschinelles Lernen. In jeder Menge und guter Qualität.

Trainingsdaten für KI – Große Datenmengen für komplexe Probleme

Maschinelles Lernen bietet sich insbesondere für komplexe Probleme an. Je mehr Variablen zu berechnen sind, umso komplexer wird die Aufgabe. Und die Komplexität der Probleme erfordert, dass die Menge an Daten entsprechend groß sein muss, damit das zu trainierende System immer besser reagiert. Ein Beispiel hierfür ist das autonome Fahren. In kurzer Zeit müssen verschiedene Elemente analysiert, eingeordnet und berechnet werden, um innerhalb von Millisekunden die richtige Reaktion hervorzurufen.

Es ist deshalb klar, dass die Quantität von Trainingsdaten eine entscheidende Rolle spielt. Die Anzahl möglicher Situationen im Straßenverkehr ist prinzipiell unendlich. Um gleichartige Strukturen im Verkehrsgeschehen zu erkennen, sind viele Trainingsdaten erforderlich, die ein immer genaueres Bild ergeben. Ein Vergleich mit Umfragen macht dies deutlich:

  • Je mehr Menschen befragt werden, umso näher reicht das Ergebnis an die Wirklichkeit heran.
  • Je weniger Menschen befragt werden, umso eher liegt das Ergebnis im Zufallsbereich.

Quantität macht also einen Unterschied. Wie groß die Menge der Trainingsdaten für KI sein muss, hängt immer von der jeweiligen Aufgabe ab. Insbesondere für die Spracherkennung sind große Mengen von Trainingsdaten erforderlich. Einige Experten fordern zum Beispiel mindestens zehntausend Stunden Audio-Daten als Grundlage für ein System, das zumindest mit mäßiger Geschwindigkeit arbeiten kann.

Und die Qualität von Trainingsdaten für KI?

Aber auch die Qualität von Trainingsdaten für KI muss stimmen. Das verwundert nicht. Im besten Fall ignoriert ein System schlechte Daten. Aber das setzt voraus, dass das System die Qualität von Daten einstufen kann. Im schlechtesten Fall führen qualitativ minderwertige Daten zu falschen Ergebnissen – mit kostspieligen Folgen. Die mangelnde Datenqualität ist deshalb ein Hauptgrund für viele Unternehmen, Künstliche Intelligenz (noch) nicht zu verwenden.

Doch wie kommt man an gute Trainingsdaten? Entscheidend hierfür ist ein intelligentes System der Qualitätskontrolle. Für die Validierung der Daten kommen mehrere Prüfungsmethoden in Betracht. Beispiele:

  • Lektorat oder Peer-Review
  • Das Vier-Augen-Prinzip (gegenseitige Kontrolle)
  • Mehrheitsentscheide bei unterschiedlichen Ergebnissen

Solche Verfahren lassen sich für die verschiedensten Aufgaben einsetzen. Im Normalfall kann ein Computer die Qualität von Daten nicht bewerten. Deshalb besteht immer die Gefahr, dass Maschinelles Lernen zu formal logischen, aber praktisch falschen Ergebnissen führt. Ein Beispiel: In Testreihen für autonomes Fahren stufen die Probanden (weil sie nicht aufmerksam sind) immer wieder das bestimmte Bild eines Menschen als Bild einer Tonne ein. Das System reagiert folgerichtig und wertet in einer kritischen Verkehrssituation das Überfahren einer (vermeintlichen) Tonne als verhältnismäßige Alternative, die möglichst wenig Schaden anrichtet.

Fazit

Es überrascht nicht, dass bei Trainingsdaten für KI und Maschinelles Lernen Qualität und Quantität gleichermaßen zählen. Die Skepsis vieler Entscheider in großen Unternehmen gegenüber Künstlicher Intelligenz basiert oft darauf, dass sie die Qualität von Trainingsdaten anzweifeln. Qualität und Quantität sind jedoch kein Widerspruch. clickworker bietet beides: Eine Workforce von Millionen Menschen, die nach strengen, individuell auf die jeweilige Aufgabe bezogene Kriterien ausgewählt werden. Bei Trainingsdaten ist also beides möglich: Qualität und Quantität.

Schnell, kostengünstig, flexibel: clickworker ist die Lösung für Ihr spezielles KI-Projekt. Nutzen Sie unseren Managed Service zur Generierung von Trainingsdaten.

 

Dieser Artikel wurde am 19.März 2019 von Jan Knupper geschrieben.

avatar

Jan Knupper