Bildannotation und künstliche Intelligenz

12.06.2018

Bildannotation

Von künstlicher Intelligenz hat wohl jeder schon einmal gehört. Der Begriff Bildannotation dagegen kommt seltener vor. Unter einer Bildannotation versteht man die Zuordnung von Informationen zu einem Bild. Den Inhalt von Bildern zu erkennen ist ein wichtiger Faktor vieler automatisierter Vorgänge. Damit Maschinen die Bedeutung von Bildern und einzelnen Bildbestandteilen erfassen, ist künstliche Intelligenz erforderlich, bei der eine menschenähnliche Analyse von Bildern simuliert wird. Um das zu erreichen, bedarf es unzähliger Trainingsdaten bzw. Input von Menschen.

Die Bedeutung von Bildern erkennen

Im Verlauf der Evolution hat der Mensch gelernt, Sinneseindrücke mit seiner Intelligenz zu erfassen. Deshalb ist es für einen Menschen recht einfach, Bilder inhaltlich zu erfassen:

  • Was bedeutet ein Detail in einem Bild?
  • Wo finden sich zum Beispiel in einer Straßenszene ganz bestimmte Personen?
  • In welcher Hinsicht ähneln sich verschiedene Aufnahmen?

Diese und andere sind typische Fragen, mit denen sich die Bildannotation beschäftigt. Schon lange werden hierfür digitale Systeme benutzt. Maschinen können Bilder auslesen – aber um den Inhalt von unbewegten und bewegten Bildern zu erkennen, ist oft sehr mühselige Programmierarbeit erforderlich. Und je komplexer die Aufgaben sind, umso mehr wird hier auf künstliche Intelligenz zurückgegriffen – also auf Programme, die lernfähig sind. Um für künstliche Intelligenz im Rahmen der Bildannotation Grundlagen zu schaffen, bieten sich die Leistungen von Crowdworkern an.

Auch Maschinen brauchen Training

Wie trainiert man ein Programm, das automatische Bildannotationen ermöglicht und nach den Prinzipien der künstlichen Intelligenz funktioniert? Voraussetzung für das Training ist eine Vielzahl von Bildern, die zunächst von Menschen bearbeitet werden. Diese kommentierten Bilder nutzt die künstliche Intelligenz als Vorlage.

Ein Beispiel: Die Aufgabe der Benutzer ist es, typische Straßenszenen zu markieren. Dafür markieren sie auf einem Bildschirm verschiedene Bildobjekte mit unterschiedlichen Farben. So werden jede Ampel, jedes Verkehrsschild, jedes Fahrzeug und jeder Fußgänger farblich markiert. Anschließend wird das so bearbeitete Bild dem Programm zugespielt. Nach und nach erkennt die Software durch den Vergleich von Übereinstimmungen und Unterschieden, welche typischen visuellen Eigenschaften die jeweiligen Bilddetails aufweisen. Das Programm erkennt somit auch, welche Objekte relevant sind und welche nicht – je nachdem, zu welchem Zweck das Programm erstellt wird.

Bildannotations-Service von clickworker
Benötigen Sie Unterstützung bei der Annotation von Bildern? clickworker bietet Ihnen hierzu die passende Lösung.

Werkzeuge für die Bildannotation

Die verschiedenen Methoden für die Annotation von Bildern hängen von der Komplexität der visuellen Vorlagen ab. Klar abgrenzbare und sofort ins Auge fallende Road Lines können ganz einfach eindimensional markiert werden. Andere, nicht lineare Objekte werden mit sogenannten Bounding Boxes kenntlich gemacht. So werden mit farbigem Rahmen Personen oder Verkehrsschilder markiert. Noch einen Schritt weiter gehen die Cubes. Diese sind dreidimensionale Rahmen für Gegenstände, die räumlich erfasst werden sollen. Noch genauer funktioniert das Training mit der pixelgenauen Full Segmentation.

Dabei versteht es sich von selbst, dass der Rechenaufwand (die Komplexität der Algorithmen) umso höher ist, je genauer die Methode der Bildannotation ist. Die dreidimensionalen Markierungen mittels Cubes oder Full Segmentation werden zum Beispiel für Programme verwendet, die bei selbst fahrenden Autos oder Drohnen zum Einsatz kommen.

Maschinen lernen die Bildinterpretation

Um die Umwelt möglichst genau wahrnehmen zu können, benötigen Maschinen zunächst Bildannotationen aus menschlicher Hand. Denn letztlich ist eine künstliche Intelligenz zur Bilderkennung meist umso besser, je näher sie den menschlichen Interpretationen von Bildern kommt. Ein Mehr an Trainingsdaten als Input für die Programme führt daher letzten Endes in der Regel auch zu einer höheren Qualität der Ergebnisse bzw. geringeren Fehlerrate. Crowdsourcing ist eine ideale Methode, um eine entsprechend hohe Menge an Bildanalyse-Daten als Trainingsdaten einzuholen. In welcher Art und in welchem Umfang die Daten angeliefert und/oder bearbeitet werden sollen, ist dabei prinzipiell unbegrenzt und abhängig vom Bedarf der Entwickler und den angewendeten Trainingsmethoden.

Crowdsourcing sichert den menschlichen Input

Viele Bildannotationen können durch die Nutzung von Crowdsourcing innerhalb kürzester Zeit durchgeführt werden. Dies liegt unter anderem daran, dass solche Aufgaben bei der Crowd beliebt sind. Um leistungsfähige Teams für die Lösung einzelner Aufgaben zu gewinnen, legen die Teilnehmer Qualifizierungen ab, welche die Qualität der Arbeitsergebnisse absichern. Führende Anbieter von Crowdsourcing-Lösungen wie clickworker bieten für die elektronische Bildmarkierung selbst entwickelte Tools an, die dem Auftraggeber zusätzlichen Aufwand ersparen. So wird die Automatisierung von visuellen Systemen entscheidend beschleunigt. Crowdworker leisten einen entscheidenden Beitrag zur Qualität von künstlicher Intelligenz für die Bildannotation.