Weak Supervision – eine kurze Erläuterung

Haben Sie sich jemals gefragt, wie Algorithmen des maschinellen Lernens in der Praxis funktionieren? Wenn ja, dann könnte es an Weak Supervision (schwache Überwachung) liegen. Aber keine Angst! In diesem Artikel werde ich versuchen, Weak Supervision klar zu definieren und zu erklären, was darunter zu verstehen ist.

Was ist damit gemeint? Weak Supervision liegt vor, wenn der Mensch nicht weiß, welche Kriterien für die Vorhersage nützlich und wichtig genug sind. Dies geschieht häufig, wenn der Datensatz zu groß oder der Merkmalsraum so groß ist, dass es für Menschen unmöglich ist, alle möglichen Merkmale zu identifizieren. Dies kann dazu führen, dass Maschinen Fehler machen. Die wichtigste Erkenntnis aus diesem Artikel: Algorithmen für das maschinelle Lernen arbeiten auf der Grundlage menschlicher Eingaben, die angeben, welche Kriterien für Vorhersagezwecke wichtig genug sind. Mit anderen Worten: Wenn Sie möchten, dass Ihr überwachter Algorithmus genauere Vorhersagen trifft, ohne fehlerhaft zu sein, sollten Sie klare Vorgaben erteilen und  angeben, wie viele einzelne Merkmale wichtig sind.

Zeitersparnis bei Weak Supervision

Haben Sie schon einmal darüber nachgedacht, warum ein Modell, das Ergebnisse vorhersagt, nicht funktioniert? Wenn Sie maschinelles Lernen anwenden, wissen Sie, wie frustrierend es ist, keine „guten“ Daten zu haben, um Ihre Modelle auszuführen und Ergebnisse vorherzusagen. In diesem Fall können Sie maschinelles Lernen mit Weak Supervision als Lösung einsetzen!

Kurz gesagt, das maschinelle Lernen mit Weak Supervision, bietet Techniken zur Kategorisierung von nicht gelabelten, unstrukturierten und minderwertigen Daten. Diese Datensätze fließen in ein Modell und liefern Vorhersageergebnisse, die auf die spezifischen Bedürfnisse des Kunden zugeschnitten sind. Hierbei handelt es sich um eine Kategorisierung von nicht gelabelten Daten, die in Ihrem Modell verwendet werden sollen. Diese Techniken sind unglaublich nützlich, denn es gibt viele verfügbare Daten, die verstreut und unstrukturiert sind (mit anderen Worten, es handelt sich um Ihr Rohmaterial in einem primitiven Stadium der Produktherstellung!). Hierbei ist zu berücksichtigen, dass maschinelles Lernen gelabelte Daten benötigt, um Algorithmen zu erstellen, damit diese für eine Reihe von Aufgaben wie Lernen, Trainieren oder zur Vorhersage des Kundenverhaltens verwendet werden können. Sie möchten keine unschlüssigen Ergebnisse durch die Verwendung ungenauer Daten erhalten! Maschinelles Lernen mit Weak Supervision, kann auch zusammen mit anderen Kennzeichnungsdatentechniken verwendet werden (z. B. aktives Lernen, Transferlernen oder halbüberwachtes Lernen), was sehr praktisch ist!

Das maschinelle Lernen mit Weak Supervision,  ist eine der verfügbaren Lösungen, die Ihnen dabei helfen kann, viel Zeit bei der Kategorisierung von ungelabelten Daten zu sparen. Es ist auch ein großartiges, ergänzendes Werkzeug zu Ihren schon bestehenden Datenstrukturierungstechniken und hilft Ihnen dabei, zuverlässige Ergebnisse zu erzielen!

Weak Supervision Learning Explained
Weak Supervision Learning erklärt von Prolego

Welche Vorteile hat Weak Supervision?

Die Entwicklung des maschinellen Lernens in dem Modelle eingesetzt werden, um Finanzprobleme zu lösen, Spam zu erkennen, medizinische Diagnosen zu stellen und andere Aufgaben zu erfüllen hat zugenommen. Um ein perfektes Modell zu erstellen, sind viele von Hand gelabelte Daten erforderlich, die nicht immer ohne weiteres verfügbar sind. Um diese Herausforderung zu bewältigen, ist es für Unternehmen einfacher, Weak Supervision Methoden einzusetzen. Dabei handelt es sich um eine Technik, die ungenaue, begrenzte und qualitativ minderwertige Datenquellen kombiniert, um ein robustes Indikationsmodell zu erstellen. Dies spart Kosten und Zeit für die Beschaffung von hand-gelabelten Datensätzen und erhöht somit die Anzahl, der für das Training verfügbaren beschrifteten Daten.

Weak Supervision kann eine sehr effektive Methode für das maschinelle Lernen sein. Ein Konzept, das den Kern dieser Verfahrensweise erfasst, ist 40 % des Aufwands zu betreiben, aber 90 % der Ergebnisse zu erhalten, verglichen mit einer fehlerfreien Methode. Mit anderen Worten: Diese Methode kann manchmal falsch sein, aber sie ist viel häufiger richtig und kann daher sehr effizient eingesetzt werden, weil sie manchmal Fehler machen darf.  Diese Art der Handhabung kann äußerst erfolgreich sein, wenn es darum geht, Dinge einfach zu erledigen. Weak Supervision schafft Abläufe, die nicht möglich wären, wenn Fehler nicht toleriert werden würden, weil das Regelwerk sonst zu komplex und ineffizient wäre. Ein gutes Beispiel für die Verwendung, ist das Kategorisieren großer Datenmengen, bei dem einige Fehler bei der Beschriftung toleriert werden. Weak Supervision würde es ermöglichen, den Datensatz schnell zu kennzeichnen und in etwas Nützliches umzuwandeln.

Oder, um die Vorteile kurz zusammenzufassen: Weak Supervision ist einfach zu implementieren, schnell auszuführen und kann für eine Vielzahl von Aufgaben des maschinellen Lernens verwendet werden. Der größte Vorteil von Weak Supervision: mit dieser Methode ist es insbesondere möglich, sehr schnell, sehr viele oder große Trainingsdatensätze zu erstellen. Weak Supervision funktioniert gut, wenn viele ungelabelte aber wenige gelabelte Stichproben existieren. Es funktioniert auch gut, wenn die Beschriftungen unsicher oder unvollständig sind, da sich manchmal Systeme mit vielen nicht so gut beschrifteten Daten, besser trainieren lassen als mit nur wenigen sehr gut beschrifteten Daten.

Weak Supervision beim maschinellen Lernen, wird manchmal auch als Technik verwendet, bei der die Trainingsdaten nicht gelabelt sind. Stattdessen erfolgt die Kennzeichnung durch einen separaten Algorithmus. Dies macht Weak Supervision zu einer idealen Technik für halbüberwachte (semi-supervised) oder unüberwachte (unsupervised) Lernprobleme.

Ein weiterer Vorteil von Weak Supervision ist, dass es für eine Vielzahl unterschiedlicher maschineller Lernaufgaben wie Bilderkennung, Textklassifizierung und Verarbeitung natürlicher Sprache (NLP) verwendet werden kann.

Tipp:

Benötigen Sie mehr handbeschriftete Daten, um Ihr KI-System richtig zu trainieren? Dann nutzen Sie den Annotation Service von clickworker und lassen Sie Ihre Trainingsdaten von Menschen, entsprechend den Trainingsanforderungen beschriften.

Bildannotations-Services

Wie kann Weak Supervision für maschinelles Lernen genutzt werden?

Weak Supervision Learning ist eine Technik zum Trainieren von Modellen für maschinelles Lernen, das eine schwächere Form der Überwachung verwendet als stark überwachtes Lernen. Diese Art der Supervision ermöglicht es dem Lernenden, seine eigenen Entscheidungen darüber zu treffen, wie er seine Leistung verbessern kann, anstatt die Entscheidung dafür vom Ausbilder treffen zu lassen. Weak Supervision Learning kann auf zwei Arten verwendet werden: als Erweiterung des traditionellen Verstärkungslernens (Reinforcement Learning) oder als Alternative zum verstärkendem Lernen, wenn keine Daten verfügbar sind.

Beim traditionellen Verstärkungslernen erhält der Lernende Belohnungen (in der Regel in Form von Token), wenn seine Vorhersagen mit den tatsächlichen Werten im Datensatz übereinstimmen. Beim Weak Supervision Learning gibt es jedoch keine expliziten Belohnungen; stattdessen erhält der Lernende nur eine Rückmeldung über seine Erfolgsquote (d. h. wie oft seine Vorhersagen mit den tatsächlichen Werten übereinstimmen). Solange diese Erfolgsquote im Laufe der Zeit hoch bleibt (d. h. solange sich der Lernende nicht zu weit von dem entfernt, was wir als gute Leistung ansehen würden), bezeichnen wir diesen Ansatz als „weak“ da falsche Vorhersagen kaum oder gar nicht bestraft werden.

Dieser Ansatz hat mehrere Vorteile gegenüber dem traditionellen Verstärkungslernen: Erstens ist er flexibler, weil es keine fest verdrahteten Regeln gibt, wie man Belohnungen erhält; zweitens kann der Lernende intelligenter agieren, weil er selbst herausfinden kann, was in einem bestimmten Szenario am besten funktioniert.

Weak Supervision Learning kann im maschinellen Lernen auf verschiedene Arten eingesetzt werden, einschließlich: Generalisierung (z.B. Verbesserung der Leistung von tiefen neuronalen Netzen), Bootstrapping (d.h. Training eines Modells ohne Daten) und Anomalieerkennung (Erkennung von Veränderungen in Daten, die auf ein Problem hinweisen könnten).

Weak Supervision beim maschinellen Lernen wird zum Trainieren von KI-Systemen verwendet; bei der Verarbeitung natürlicher Sprache die Computern hilft, menschliche Kommunikation zu verstehen und bei der Bilderkennung, die Objekte in Fotos oder Videos identifiziert.

Typischer Verwendungszwecke

  • Klassifizierung von Texten und Dokumenten
  • Klassifizierung von strukturierten Daten
  • Klassifizierung von Videos
  • Modalübergreifende Klassifizierung von Anzeigenbildern
  • Verknüpfung von Entitäten
  • Umfangreiche Dokumentenverarbeitung
  • Klassifizierung von Äußerungen und dialogorientierte KI
  • Informationsextraktion aus unstrukturiertem Text, PDF, HTML und mehr
  • Zeitreihenanalyse

Weak Supervision – eine neue Dimension des maschinellen Lernens

Weak Supervision ist ein neues Paradigma im maschinellen Lernen oder in der künstlichen Intelligenz. Durch die Verwendung von hochgradig verrauschten Beschriftungsquellen, können Daten effizient in Modellen trainiert werden, um die Leistung in der Praxis zu verbessern. Weak Supervision kann bei Benchmarks, die zur Messung von Frameworks für maschinelles Lernen  und ihrer Fähigkeiten entwickelt wurden, Spitzenwerte erzielen. Die Frage ist, wie man effizienter an mehr gelabelte Trainingsdaten kommt. Weak Supervision unterscheidet sich vom aktive Learning dadurch, dass es semi-supervised ist, so dass nicht gelabelte Daten, die kostengünstig und in größeren Datensätzen verfügbar sind, verwendet werden können. Generative Modelle fungieren als ausdrucksstarke Vehikel, die in der Lage sind, Ergebnisse aus großen, nicht kategorisierten Datensätzen zuverlässiger vorherzusagen.

Neuere Frameworks für künstliche Intelligenz stellen Werkzeuge für die Programmierung mit Weak Supervision zur Verfügung, um den Fortschritt beim maschinellen Lernen zu beschleunigen. Der nächste Schritt ist ein massives Multitasking dieser Protokolle, zur automatischen Generierung von Beschriftungsfunktionen aus Überwachungsaufgaben, die natürliche Sprache und Bilder umfassen. Sie werden die Möglichkeit bieten, die Granularität fein abzustimmen, um akzeptable Aufgaben dynamischer zu gestalten. Das Feld verändert sich schnell und damit auch die Weak Supervision Protokolle. Das maschinelle Lernen kann mit Hilfe dieser neuen Techniken große Fortschritte machen.

Weak Supervision vs. regelbasierte Klassifikatoren

Bei Weak Supervision handelt es sich um einen Ansatz für maschinelles Lernen, bei dem wir uns auf einige wenige gekennzeichnete Beispiele (die überwachten Trainingsdaten) stützen, um unsere unüberwachten Modelle genauer zu trainieren. Dies verbessert die Genauigkeit und Verallgemeinerung unserer Modelle, ohne dass wir jedes Beispiel explizit kennzeichnen müssen.

Regelbasierte Klassifizierer sind eine weitere Art von maschinellen Lernmodellen, die sich auf eine Reihe von Regeln anstelle von Merkmalen oder Bezeichnungen stützen. Diese Regeln werden vom Computer verwendet, um automatisch Entscheidungen zu treffen, die auf dem basieren, was er zuvor gesehen hat.
Weak Supervision und regelbasierte Klassifikatoren sind beides eingabebasierte Methoden. Bei Weak Supervision wird jedoch menschliches Fachwissen genutzt, um einen Satz von Trainingsetiketten für mehrere nicht gekennzeichnete Datenpunkte zu erstellen. Diese Methode ist robuster als ein entsprechender regelbasierter Klassifikator.

Was sind gängige Weak Supervision Methoden?

Gängige Weak Supervision Methoden sind: Verstärkungslernen, genetische Algorithmen und künstliche neuronale Netze. Jede Methode hat ihre eigenen Stärken und Schwächen. Wählen Sie eine Methode mit Weak Supervision, die am besten zu Ihren Daten und Zielen passt. Methoden mit Weak Supervision werden verwendet, um aus Daten zu lernen, ohne dass man ihnen explizit sagt, was sie tun sollen. Diese Methoden verwenden Feedback-Mechanismen wie Belohnungen oder Bestrafungen, um der Maschine beim Lernen zu helfen.

Die geläufigste Weak Supervision Methode ist das Verstärkungslernen. Beim Verstärkungslernen lernen Maschinen, indem sie beobachten, wie gut sie im Vergleich zu anderen Instanzen bei gleicher Aufgabenstellung abschneiden. Dabei werden sie von menschlichen Experten überwacht.

Verstärkungslernen kann für Aufgaben wie Navigation, Bilderkennung und Textklassifizierung eingesetzt werden. Genetische Algorithmen ähneln dem Verstärkungslernen, aber sie verwenden Mutationen anstelle von Belohnungen oder Bestrafungen. Dadurch können sie verschiedene Lösungen schneller erforschen als herkömmliche Techniken des Verstärkungslernens.

Künstliche neuronale Netze (ANN) sind eine Form der maschinellen Intelligenz, bei der miteinander verbundene Schichten von Neuronen in Form einer Zwiebelschale verwendet werden. Sie werden häufig für Aufgaben wie die Verarbeitung natürlicher Sprache und die Objekterkennung eingesetzt.

Formen von Weak Supervision

Einige der üblichen weak supervision Methoden sind: incomplete, inexact und inaccurate supervision. Incomplete supervision umfasst eine Mischung aus einem kleinen, von Fachleuten beschrifteten Datensatz und nicht gelabelten Daten zum Trainieren eines Modells. Active learning und semi-supervised learning sind zwei Möglichkeiten, wie man mit Datensatzproblemen unter weak supervision umgehen kann. Bei der inexact supervision Methode liegen bei den verfügbaren Daten, fehlerhafte Labels vor. Dies kann daran liegen, dass der gekennzeichnete Datensatz möglicherweise nicht von Fachleuten stammt, sondern aus öffentlichen oder Crowdsourcing-Datensätzen gesammelt wurde, weshalb einige Labels Fehler enthalten oder falsch sein können. Schließlich gibt es noch die inaccurate supervision, eine Form der weak supervision, bei der einige der gelabelten Daten nicht genau wie gewünscht dargestellt werden. Die Entwickler müssen daher verschiedene Techniken anwenden, um die schwachen Kennzeichnungen zu korrigieren.

Überblick über Weak Supervision Formen

Insgesamt gibt es vier verschiedene Formen von Weak Supervision:

  • incomplete,
  • inaccurate,
  • inexact and
  • semi-supervision.

Kurze Erläuterungen zu den Formen der Weak Supervision:

Incomplete supervision liegt vor, wenn die Trainingsdaten nicht alle Informationen enthalten, die zum Erlernen der Aufgabe erforderlich sind.

Inaccurate supervision liegt vor, wenn die Trainingsdaten falsch sind oder Fehler enthalten.

Inexact supervision liegt vor, wenn die Labels in den Trainingsdaten nicht präzise sind. Es wird das Multi-Instanz-Lernen verwendet, das genauere Vorhersagen ermöglicht, indem es mehrere Instanzen eines Objekts anstelle nur eines einzelnen Beispiels berücksichtigt.

Semi-supervision liegt vor, wenn ein unvollständiger Satz von Labels und eine gewünschte Ausgabe vorliegen.

Weak Labels Typen

Es gibt verschiedene Weak Labels Typen, die jeweils für einen bestimmten Zweck verwendet werden können.

Die vier wichtigsten Typen sind:

  • deskriptiv,
  • interpretierend,
  • präskriptiv, und
  • evaluierend

Jede Art von weak Labels hat ihre eigenen Vor- und Nachteile.

deskriptiv: Deskriptive Labels helfen Ihnen, die Daten zu verstehen, indem sie sie im Detail beschreiben. Sie sind nützlich, um Muster zu finden und zu verstehen, wie die Daten mit anderen Informationen zusammenhängen.

interpretierend: Interpretationslabels helfen Ihnen bei der Entscheidungsfindung, indem sie Feedback zu Ihren Interpretationen der Daten geben. Sie sind nützlich, um Vorhersagen zu treffen oder zu entscheiden, welche Maßnahmen auf der Grundlage Ihrer Beobachtungen zu ergreifen sind.

präskriptiv: Die präskriptiven Labels sagen Ihnen, was mit den Daten geschehen soll und was nicht. Sie sind hilfreich bei der Festlegung von Standards oder Richtlinien für die Verwendung der Daten.

evaluierend: Evaluative Labels geben Rückmeldung darüber, wie gut jemand eine bestimmte Technik oder einen bestimmten Ansatz angewandt hat. Sie können auch eine Gesamtbewertung der Arbeitsleistung einer Person liefern.

Welche bewährten Praktiken gibt es für den Einsatz von Weak Supervision?

Weak Supervision ist ein überwachter Lernalgorithmus, der teilweise beobachtete Daten verwendet.

Zu den bewährten Praktiken für Weak Supervision gehören:

  • Verwendung einer spärlichen Darstellung der Zielvariablen.
  • Regularisierung der Fehlerbegriffe zur Verbesserung der Generalisierung.
  • Regularisierung der Gewichtungen zur Reduzierung von Verzerrungen.
  • Minimierung der Kreuzvalidierungsvarianz durch Auswahl geeigneter Teilmengen von Daten für Training und Test.

Wie implementieren Sie eine Weak Supervision in Ihre Pipeline für maschinelles Lernen?

Weak Supervision kann in Pipelines für maschinelles Lernen verwendet werden, um die Genauigkeit zu verbessern, ohne dass man sich auf die vollständige Kenntnis der Fehler des Schülers verlassen muss. So können Sie mehr Daten verwenden und Ihre Modelle genauer trainieren, was zu besseren Vorhersagen führen kann.

Bei Weak Supervision verfügt der Lehrer (der „Betreuer“) nur über Teilinformationen darüber, wie gut die einzelnen Schüler abschneiden. Die Aufsichtsperson nutzt diese unvollständigen Informationen, um zu entscheiden, wie viel Gewicht sie den einzelnen Fehlervorhersagen eines Schülermodells beimisst.

Selbst wenn ein bestimmtes Schülermodell viele Fehler enthält, wird es bei der Entscheidung, ob dieses Modell weiter trainiert werden soll oder nicht, berücksichtigt. Enthält ein bestimmtes Schülermodell jedoch nur sehr wenige Fehler, haben seine Fehlervorhersagen wenig Einfluss auf die Entscheidungsfindung, und es wird mit geringerer Wahrscheinlichkeit für künftige Trainingssitzungen verwendet werden.

Was sind die häufigsten Probleme bei Weak Supervision?

Bei Weak Supervision gibt es eine Reihe von Problemen wie Überanpassung, Verzerrung und mangelnde Generalisierung.

Eine Überanpassung tritt auf, wenn der Algorithmus versucht, aus Daten zu lernen, die er eigentlich nicht verwendet oder versteht. Dies kann dazu führen, dass der Algorithmus zu sehr spezialisiert wird und nicht in der Lage ist, von einem Datensatz auf einen anderen zu verallgemeinern. Verzerrung bezieht sich darauf, dass das Modell bestimmte Arten von Eingaben bevorzugt und andere ignoriert, was zu falschen Vorhersagen führen kann. Mangelnde Generalisierung bedeutet, dass das Modell keine genauen Vorhersagen für neue Instanzen oder Situationen machen kann, für die es zuvor nicht trainiert wurde. Diese Probleme können schwer zu überwinden sein, da sie oft zu ungenauen Modellen und einer schlechten Gesamtleistung führen.

Es gibt verschiedene Möglichkeiten, diese Herausforderungen zu bewältigen, und zu den häufigsten gehören:

  1. Festlegung klarer Ziele für Ihr maschinelles Lernprojekt.
  2. Sicherstellen, dass Sie einen gut definierten Datensatz zum Trainieren haben.
  3. Auswahl eines geeigneten Algorithmus oder Modells für Ihr Problem.
  4. Die Wahl einer wirksamen Schulungsmethode.
  5. Überwachung und Korrektur Ihrer maschinellen Lernmodelle während des Lernprozesses.

Schlussfolgerung

Weak Supervision kann ein leistungsfähiges Werkzeug für das maschinelle Lernen sein, aber es ist wichtig, sich der potenziellen Probleme bewusst zu sein, die auftreten können. Insbesondere kann Weak Supervision zu einer Überanpassung führen, wenn sie nicht richtig eingesetzt wird. Bei richtiger Anwendung kann Weak Supervision jedoch Labels für Daten liefern, die andernfalls schwer oder gar nicht zu Labeln wären.