Realistische Trainingsdaten für Maschinelles Lernen

Trainingsdaten für maschinelles Lernen

Daten sind die Grundlage für das Training von Algorithmen. Je realistischer die Daten, umso besser die Ergebnisse. Denn Künstliche Intelligenz beruht auf genauen und zuverlässigen Informationen im Training seiner Algorithmen. Das ist eigentlich selbstverständlich, wird aber oft übersehen. Realistisch sind die Trainingsdaten dann, wenn sie die Daten widerspiegeln, die das KI-System im echten Einsatz aufnimmt. Unrealistische Datensätze behindern das Maschinelle Lernen und führen zu teuren Fehlinterpretationen.

Ungeeignete Trainingsdaten sind kostspielig

Künstliche neuronale Netze brauchen einen guten Input zum Lernen – genau wie das menschliche Gehirn. Die Daten, mit denen die Systeme trainiert werden, bestimmen, was das KI-System am Ende weiß und kann. Bei der Nutzung von künstlich erzeugten und Open Data als Trainingsdaten ist die Gefahr der Verfälschung von Ergebnissen groß, denn oft sind die Daten nicht realistisch. Künstliche Intelligenz besteht aus Algorithmen die mit Daten gespeist werden aus denen sie lernen sollen – sog. Machine Learning. Werden hierzu Daten benutzt, die bezogen auf den Einsatz des Systems nicht realistisch sind, führt das zu unzureichenden oder fehlerhaften Ergebnissen des Systems wie dieses Beispiel aufzeigt:

Bei der Entwicklung einer Software für Drohnenkameras greift das Entwicklungsteam auf Fotos im Netz zurück. Diese sind massenweise auf Facebook oder Instagram zu finden. Die Bilder weisen jedoch vor allem zwei typische Eigenschaften auf:

Sind in der Regel aus Kopfhöhe geschossen
und haben fast immer das anvisierte Objekt im Zentrum.

Ein selbstlernender Algorithmus zieht aus diesen Eigenschaften falsche Schlüsse. Diese vermeintlich allgemeinen Strukturen sind für die Bewertung von Kamerabildern aus einer Drohne nicht nützlich, im schlimmsten Fall sogar schädlich. Im Beispielsfall könnte der Algorithmus lernen, dass wichtige Objekte immer im Zentrum des Bildes stehen – ein Trugschluss. Von Drohnen aufgenommene Bilder entstehen aus verschiedenen Perspektiven und Entfernungen.

Ein anderes Beispiel: Für das Training einer Automobil-Software für den deutschen Markt verwendet das Entwicklungsteam Fotos von Verkehrssituationen die weltweit aufgenommen worden sind. Hier besteht beispielsweise die Gefahr, dass künstliche neuronale Netze in der Praxis ein Werbeplakat, das einem ausländischen Verkehrszeichen ähnelt, als ein Verkehrszeichen interpretieren.

Vorhandene Datensätze prüfen

Woran erkennt man schlechte Trainingsdatensätze? Einige Indizien deuten darauf hin:

Sie sind zum großen Teil fehlerhaft,
sie entsprechen nicht den Werten, mit denen das System letztlich arbeiten soll,
oder die Datensätze haben viele Ausreißer und redundante Informationen.

Die Lösung liegt darin, die Daten selbst zu erheben oder über einen Anbieter neu und auf den Bedarf abgestimmt erstellen zu lassen und/oder vorhandene Datensätze daraufhin zu prüfen, ob sie für das jeweilige System tauglich sind. Sie sind es dann, wenn die Datensätze dem entsprechen, was das System im Einsatz an Input erhält, erkennen und richtig auswerten muss.

Tipp:
Bei clickworker können Sie Ihre KI-Trainingsdaten ganz individuell, auf Ihr System abgestimmt, neu erstellen lassen.

Die Qualität von Trainingsdaten lassen sich anhand folgender Fragen prüfen:

Mit welchen Mitteln und welcher Technik wurden die Daten generiert?
Ist die Datenquelle glaubwürdig? Oder war die Erhebung der Daten mit einer bestimmten Absicht verbunden?
Woher kommen die Daten? Viele Trainingsdatensätze haben nämlich einen eindeutigen geografischen Schwerpunkt. Taugt dieser für die spezielle Anwendung?
Aus welchem Zeitraum stammen die Daten?
In welcher Umgebung/ unter welchen Bedingungen wurden die Daten erstellt?
In welchem Zusammenhang stehen die Daten, aus welchem Grund wurden sie erhoben?
Mit welchen Mitteln und welcher Technik wurden die Daten generiert?

Die Crowd übernimmt die Erstellung der Daten und die Qualitätsprüfung

Die Crowd bewährt sich vor allem bei der Generierung als auch Prüfung von Trainingsdaten für Systeme mit künstlicher Intelligenz. Hier gibt es grundsätzlich drei Ansatzpunkte, die aber auch kombiniert genutzt werden können:

Clickworker

erstellen die Trainingsdaten neu (beispielsweise Fotos, Videos, Audio-/Sprachaufzeichnungen),
beurteilen und klassifizieren vorhandene Datensätze nach ihrer Qualität und/oder Inhalten,
kontrollieren und bewerten Ergebnisse, die KI-Systeme liefern.

Auch unzureichende Daten lassen sich im Nachhinein für den Einsatz als Trainingsdaten für KI optimieren. Innerhalb kurzer Zeit bearbeiten Clickworker Rohdaten – fügen Schlagworte/Tags hinzu, annotieren Elemente auf Bildern mit Hilfe von Bounding-Boxes, Polygonen und Keypoints oder führen semantische Bildsegmentierungen durch.

Die Datensätze und Ergebnisse werden abschließend wahlweise durch verschiedene Verfahren kontrolliert wie dem Peer-Review oder 4-Augen-Prinzip und Mehrheitsentscheid.

Mehr Informationen zum „KI-Trainingsdaten“ Service von clickworker

Fazit: Realistische Datensätze zahlen sich aus

Die Gefahr unrealistischer Datensätze besteht vor allem darin, dass diese einen ganzen Algorithmus verfälschen können. Das ist ähnlich wie beim menschlichen Gehirn: Stellt sich irgendwann heraus, dass die grundlegenden Annahmen und Informationen falsch waren, dann sind auch die darauf bestehenden Hypothesen oder ganze Weltbilder falsch. Für die Maschine wie für das Gehirn bedeutet dies, ganz neu anfangen zu müssen. Im Fall der Maschine wird dies sehr teuer. Kein Unternehmen kann es sich leisten, eine unsichere Technologie einzusetzen. Um solche Kosten von vornherein zu vermeiden, sollte auf die Qualität der Trainingsdatensätze geachtet werden.

Jan Knupper