Die 5 häufigsten Fehler bei Trainingsdaten und wie man sie vermeidet

Fehler bei Trainingsdaten vermeiden

Bei der herkömmlichen Softwareentwicklung ist der Code der wichtigste Teil des Computerprogramms. Im Gegensatz dazu sind bei der Entwicklung von künstlicher Intelligenz (KI) und maschinellem Lernen (ML) die KI-Trainingsdaten entscheidend. Das liegt daran, dass KI-Trainingsdatenmodelle komplexe und mehrstufige Prozessschritte umfassen, die intelligente Algorithmen erlernen müssen, um Aufgaben erfolgreich durchzuführen.

In diesem Szenario kann ein kleiner Fehler, den Sie heute beim Training machen, dazu führen, dass Ihr Datenmodell nicht mehr funktioniert. Das kann katastrophale Folgen haben, wenn man sich die Anwendungsbereiche genauer betrachtet – zum Beispiel schlechte Entscheidungen im Gesundheitswesen, im Finanzwesen und natürlich bei selbstfahrenden Autos.

Auf welche Fehler bei den Trainingsdaten sollte man also achten, und welche Schritte können Sie unternehmen, um sie zu vermeiden? Schauen wir uns die fünf gravierendsten Datenfehler an und wie wir sie vermeiden können.

1. Mögliche Fehler bei der Kennzeichnung

Der am häufigsten auftretende Fehler betrifft die Beschriftung von Daten. Laut einer durchgeführten Studie des MIT wiesen Datenbanken, die zum Trainieren zahlreicher Computer-Visions-Algorithmen verwendet wurden, über alle Datensätze hinweg durchschnittlich 3,4 % Fehler auf. Das hört sich vielleicht nicht viel an, aber die Mengen variierten von knapp über 2.900 Fehlern bis zu über fünf Millionen Fehlern.

Hochwertige Datensätze sind daher für die Entwicklung leistungsfähiger Datentrainingsmodelle unerlässlich. Dies ist jedoch nicht immer einfach, da Daten von schlechter Qualität nicht unbedingt offensichtlich sind. Dateneinheiten enthalten in der Regel Dateien mit Audioschnipseln, Bildern, Texten oder Videos.

Wenn Sie z. B. Datenkommentatoren mit dem Zeichnen von Kästen über Bildern von Motorrädern beauftragen, werden sie Bounding Boxes um alle Fotos von Motorrädern zeichnen. Das beabsichtigte Ergebnis sind enge Begrenzungsrahmen um Motorräder. Außerdem erhält die Datei ein Label oder Dateiattribute, welche der Datein eine Bedeutung gibt. Zu den Attributen gehören der Zeitpunkt, zu dem die Datei beschriftet wurde, wer sie beschriftet hat und unter welchen Bedingungen.

Manchmal kann es vorkommen, dass Sie einige Beschriftungen übersehen, weil der Kommentator nicht alle Motorräder in einem Bild mit einem Begrenzungsrahmen versehen hat. Oder es könnte sich um eine falsche Darstellung der Anweisungen handeln, wenn der Kommentator mehr tut, als erforderlich ist. Oder es könnte etwas so Einfaches wie eine falsche Anpassung sein.

Wie kann ich solche Fehler vermeiden?

Wir können das Risiko solcher Fehler mindern, indem wir den Kommentatoren klare Anweisungen geben, um solche Fälle zu vermeiden.

2. Testen von Modellen mit bereits verwendeten Daten

Es ist nicht ratsam, Daten wiederzuverwenden, um ein neues Trainingsmodell zu testen. Stellen Sie sich das so vor: Wenn jemand bereits etwas aus den Daten gelernt und es auf einen Bereich seiner Arbeit angewendet hat, könnte die Verwendung derselben Daten in einem anderen Bereich zu Verzerrungen führen. Außerdem erhöhen Sie das Risiko, sich wiederholenden Schlussfolgerungen auszusetzen.

Wie im Leben folgt auch ML der gleichen Logik. Intelligente Algorithmen können Antworten genau vorhersagen, nachdem sie aus einer Vielzahl von Trainingsdatensätzen gelernt haben. Wenn Sie die gleichen Trainingsdaten für ein anderes Modell oder eine KI-basierte Anwendung verwenden, erhalten Sie möglicherweise Ergebnisse, die sich auf die vorherige Lernumgebung beziehen.

Wie kann ich solche Fehler vermeiden?

Um eine mögliche Verzerrung zu vermeiden, müssen Sie alle Trainingsdaten daraufhin überprüfen, ob in anderen Projekten dieselben Daten verwendet wurden. Es ist von entscheidender Bedeutung, Datenmodelle immer mit neuen Datensätzen zu testen, bevor man mit dem Training von ML-Daten beginnt.

3. Verwendung unausgewogener Trainingsdatensätze

Sie müssen die Zusammensetzung Ihrer Trainingsdatensätze sorgfältig prüfen, da ein Ungleichgewicht der Daten zu einer Verzerrung der Modellleistung führen kann.

Tipp:
Beauftragen Sie ausgewogene KI-Trainingsdatensätze bei clickworker. In dem Pool von über 2,8 Mio. Crowdworkern können alle gewünschten Zielgruppen erreicht werden, die Ihnen repräsentative Datensätze erstellen.
KI-Trainingsdaten

Bei unausgewogenen Datensätzen müssen Sie auf zwei Arten von Fehlern achten:

Ein Klassenungleichgewicht tritt häufig auf, wenn Sie keinen repräsentativen Datensatz haben. Wenn Sie beispielsweise Ihren Algorithmus darauf trainieren, Männer zu erkennen, Ihr Trainingsdatenmodell aber nur eine Ethnie repräsentiert, wird Ihr Modell nur Männer der angezeigten Ethnie, die im Trainingsmodell vertreten ist, gut erkennen. In diesem Fall können ML-Algorithmen alle anderen ethnischen Gruppen übersehen.
Die Aktualität der Daten ist wichtig, da sich alle Modelle im Laufe der Zeit verschlechtern, wenn sich die Welt weiterentwickelt und voranschreitet. So wurde beispielsweise nach Ausbruch der Pandemie die Erkennung menschlicher Gesichter mit dem Aufkommen von Gesichtsmasken und PSA-Ausrüstung immer schwieriger.

Wie kann ich solche Fehler vermeiden?

Achten Sie stets darauf, dass Ihre Trainingsdatensätze äußerst repräsentativ und aktuell sind.

4. Verwendung unstrukturierter, ineffizienter oder unzuverlässiger Trainingsdatensätze

Die Erstellung zuverlässiger ML-Modelle hängt ganz von Ihren Datensätzen ab. In diesem Szenario sollten Sie stets aktuelle und repräsentative Trainingsdaten verwenden. Auf diese Weise werden Sie auf potenzielle Schwachstellen im Entscheidungsprozess des Systems aufmerksam gemacht.

Unternehmen unterschätzen jedoch häufig die Bedeutung der Einhaltung bewährter Verfahren und verschwenden am Ende Zeit und Ressourcen mit ungenauen oder einseitig unbrauchbaren Daten. In diesem Fall könnte es zu einem Scheitern des Projekts und langfristigen Verlusten führen.

Wie kann ich solche Fehler vermeiden?

Selbst wenn Ihr Unternehmen über tonnenweise Petabytes einzigartiger Daten verfügt, ist es entscheidend, nur relevante, bereinigte und verarbeitete Daten für Ihr Datentrainingsprojekt zu verwenden. Unternehmen können sicherstellen, dass sie nur relevante Daten für KI-Trainingszwecke verwenden, indem sie einen Data-First-Ansatz verfolgen.

Dieser Ansatz hilft Ihnen auch, die Ergebnisse besser zu verstehen und mögliche Ungenauigkeiten und verzerrte Ergebnisse zu erkennen.

5. Mögliche Voreingenommenheit bei der Kennzeichnung des Prozesses

Wenn Sie bis hierher gelesen haben, wissen Sie, dass das Thema Voreingenommenheit immer wieder auftaucht. Das Risiko ist immer vorhanden, egal ob es sich um eine Verzerrung im Beschriftungsprozess oder um eine Verzerrung durch die Kommentatoren handelt. Ebenso kann es zu Verzerrungen kommen, wenn die Daten ein bestimmtes Wissen oder einen bestimmten Kontext erfordern.

Wenn Sie beispielsweise Daten aus der ganzen Welt verwenden, kann es sein, dass die Trainingsdaten aufgrund von Unterschieden der Annotatoren fehlerhaft sind: Wenn Sie mit britischen Annotatoren arbeiten, werden diese einen „sidewalk“ (DE: Bürgersteig) als „pavement“ (DE: Gehweg) klassifizieren. Oder wenn Sie versuchen, verschiedene Arten von Lebensmitteln zu identifizieren, werden amerikanische Annotatoren Schwierigkeiten haben, Gerichte wie „Haggis“ zu erkennen, einen herzhaften Pudding aus Schafsherz, -leber und -magen, der auch das schottische Nationalgericht ist.

Wie kann ich solche Fehler vermeiden?

In dem oben beschriebenen Szenario werden Sie feststellen, dass es eine Tendenz zu einer länderspezifischen Denkweise gibt. Daher ist es wichtig, Kommentatoren aus der ganzen Welt einzubeziehen, um sicherzustellen, dass Sie genaue Informationen erfassen.

Erfolgreiche KI-Projekte hängen in hohem Maße von frischen, genauen und unvoreingenommenen repräsentativen Daten ab, um die Risiken zu mindern. Daher ist es für Unternehmen unerlässlich, während des gesamten Prozesses der Datenbeschriftung und der Tests Qualitätskontrollen durchzuführen. Dieser Ansatz hilft Ihnen, potenzielle Fehler zu erkennen und zu beheben, bevor sie zu Problemen führen.

Die gute Nachricht ist, dass Sie dies ganz einfach tun können, indem Sie KI-gestützte Double-Check-Annotatoren für intelligente Beschriftungen einsetzen. Allerdings müssen Sie auch Menschen in der Schleife haben, um die Modellleistung zu überwachen und Verzerrungen zu vermeiden.

Wenn es darauf ankommt, Voreingenommenheit zu reduzieren, müssen Sie eine vielfältige Gruppe von Kommentatoren aus der ganzen Welt rekrutieren, die über das, für Ihr Projekt, erforderliche Fachwissen verfügen. Durch die Nutzung von Crowdworker-Communities können Sie dies schnell und ohne die damit verbundenen Personal- und Verwaltungskosten erreichen.

Andrew Zola