Die Entwicklung der Gesichtserkennungstechnologie und die Rolle adequater Trainingsdaten

Gesichtserkennungstechnologie + Trainingsdaten

Die Gesichtserkennung ist eine Technologie, die zur Identifizierung von Personen anhand ihrer Gesichter verwendet wird und stellt eine Art der biometrischen Software dar. Sie wird häufig in Sicherheitsumgebungen eingesetzt, hat aber auch andere Verwendungszwecke, z. B. in sozialen Medien und beim Foto-Tagging.

Damit eine Künstliche Intelligenz (KI) in der Lage ist, eine Person anhand ihres Gesichts zu erkennen, müssen ihr genügend Trainingsdaten vorgelegt werden, d. h. Daten, die der KI beibringt, Menschen anhand ihrer Gesichter zu erkennen. Die Trainingsdaten müssen genau sein, und sie müssen umfassend genug sein, um eine große Vielfalt an Beispielen zu liefern.

Entwicklung der Gesichtserkennungstechnologie

In den 1960er Jahren stellte David Marr ein dreischichtiges Modell vor, um zu beschreiben, wie das menschliche Gehirn visuelle Informationen verarbeitet. Er ging davon aus, dass das visuelle System zunächst ein Rohbild empfängt, das auf der untersten Schicht des Modells dargestellt wird, und dann eine Reihe von Operationen durchführt, um diese Informationen in eine Darstellung der Welt zu verarbeiten, die verstanden werden kann. Diese Repräsentation wird dann an höhere Ebenen des Systems zur Verarbeitung auf höherer Ebene gesendet.

In den 1980er Jahren entwickelten die Forscher Fukushima und Miyake ein Modell, das dem von Marr ähnelte, aber eine vierte Schicht hinzufügte. Diese zeigte, wie das Gehirn die verarbeiteten Informationen aus den ersten drei Schichten kombiniert, um eine Wahrnehmung der Welt zu schaffen.

Das Drei-Schichten-Modell von Marr und das Vier-Schichten-Modell von Fukushima und Miyake ähneln sich insofern, als dass beide beschreiben, wie visuelle Informationen verarbeitet werden. Sie unterscheiden sich jedoch insofern, als dass das Modell von Marr den Prozess als eine Reihe von Operationen beschreibt, während das Modell von Fukushima und Miyake den Prozess als eine Kombination der verarbeiteten Informationen aus den vorherigen Schichten darstellt.

Wie die Gesichtserkennungstechnologie auf den Arbeiten von Marr, Fukushima und Miyake aufbaut

Die Technologie der Gesichtserkennung basiert auf dem dreischichtigen Modell der visuellen Verarbeitung von Marr und stützt sich auch auf das vierschichtige Modell der visuellen Verarbeitung von Fukushima und Miyake.

Die erste Schicht, die Bilderfassungsschicht, wird durch die Kameras repräsentiert, mit denen das Bild aufgenommen wird.
Die zweite Schicht, die Bildvorverarbeitungsschicht, wird durch die Algorithmen repräsentiert, die zur Verarbeitung des Bildes verwendet werden, wie z. B. Kantenerkennung und Gesichtserkennung.
Die dritte Schicht, die Merkmalsextraktionsschicht, wird durch die Merkmale repräsentiert, die aus dem Bild extrahiert werden, wie z. B. die Position der Augen, der Nase, des Mundes und anderer Gesichtsmerkmale.
Die vierte Schicht, die Gesichtserkennungsschicht, wird durch die Gesichtserkennungsalgorithmen repräsentiert, die die extrahierten Merkmale mit zuvor trainierten Daten vergleichen.

Warum hochwertige Trainingsdaten wichtig sind

Trainingsdaten sind entscheidend für die Entwicklung der Gesichtserkennungstechnologie. Neben der Quantität der Daten ist hier auch die hohe Qualität ausschlaggebend für das optimale Training der Algorithmen. Wenn die Trainingsdaten von geringer Qualität sind oder viele Fehler enthalten, wirkt sich dies negativ auf die Genauigkeit der Gesichtserkennungssoftware aus.

Tipp:
Hochwertige Trainingsdaten zum Anlernen der Algorithmen von Gesichtserkennungstools erhalten Sie in allen benötigten Mengen bei clickworker.
Foto-Datensätze – Jetzt mehr zum Service erfahren

Anforderungen an die Trainingsdaten

Die Qualität der Trainingsdaten hängt von der Art der verwendeten Gesichtserkennungstechnologie ab. Es gibt drei Arten von Gesichtserkennungstechnologien:

Algorithmen des überwachten Lernens lernen aus bekannten Daten und verwenden diese Informationen, um eine Ausgabe vorherzusagen. Sie werden in der Regel auf einem Satz von Bildern von Gesichtern trainiert, die bereits klassifiziert wurden.
Unüberwachte Lernalgorithmen werden mit unbekannten Daten trainiert und werden oft verwendet, um Muster oder Cluster innerhalb eines Datensatzes zu entdecken.
Semi-überwachte Lernalgorithmen werden mit einer Kombination aus bekannten und unbekannten Daten trainiert.

Die Trainingsdaten für jede dieser drei Arten der Gesichtserkennungstechnologie müssen unterschiedliche Anforderungen erfüllen:

Trainingsdaten für überwachte Lernalgorithmen sollten von hoher Qualität sein und keine Fehler enthalten. Je genauer die Trainingsdaten sind, desto genauer wird die Gesichtserkennungssoftware sein.
Trainingsdaten für Algorithmen für unüberwachtes Lernen sollten von hoher Qualität sein, aber die Genauigkeit der Trainingsdaten ist nicht ganz so wichtig wie die Menge. Die Algorithmen für unüberwachtes Lernen werden zum Entdecken von Mustern oder Clustern innerhalb eines Datensatzes verwendet, und daher ist es umso besser, je mehr Daten zum Trainieren verwendet werden.
Trainingsdaten für semi-überwachte Lernalgorithmen erfordern eine Kombination aus hoher Qualität und Quantität. Die Genauigkeit der Trainingsdaten muss hoch genug sein, um genaue Ergebnisse zu liefern, aber die Menge der Trainingsdaten muss auch groß genug sein, um eine ausreichende Vielfalt an Beispielen zu liefern.

Die Trainingsdaten für jede dieser drei Arten der Gesichtserkennungstechnologie müssen auch für die zu entwickelnde Gesichtserkennungssoftware relevant sein. Zum Beispiel sollten die Trainingsdaten für eine Gesichtserkennungssoftware, die in einer Sicherheitsumgebung verwendet wird, von hoher Qualität sein und Personen vieler verschiedener Ethnien, Altersgruppen und Geschlechter umfassen. Trainingsdaten für eine Gesichtserkennungssoftware, die für Social Media-Zwecke verwendet wird, sollte insbesondere Menschen vieler verschiedener Altersgruppen und Geschlechter enthalten.