Datenexploration – Kurze Begriffserklärung

Datenexploration ist der iterative Vorgang der Datenanalyse in einem automatisierten Verfahren. Ziel ist die Bestimmung neuer Informationen, die in mehrdimensionalen Daten enthalten sind. Hierfür werden Methoden der Künstlichen Intelligenz eingesetzt. Dazu gehören zum Beispiel Maschinelles Lernen, Big Data und Data Mining.

Datenexploration: Neue Informationen aus Daten gewinnen

Exploration ist ein Begriff, der ursprünglich aus der Archäologie stammt: das Erforschen von Bodengeländen zum Auffinden wertvoller historischer Gegenstände. Der iterative Aspekt dieser Forschungstätigkeit (also der sukzessive Vorgang des Ausgrabens von Bodenschicht zu Bodenschicht) spiegelt sich auch in der Datenexploration wider: Aus einer großen Menge von Daten werden nach und nach immer mehr und hochwertigere Informationen gewonnen.

Vorrangiges Ziel der Datenexploration ist bei den meisten Anwendungen weniger die Beantwortung bestimmter Fragen als die Stützung von Hypothesen. Die Exploration großer Datenmengen kann dazu dienen, Muster zu erklären. Techniken, die dabei zur Anwendung kommen, sind beispielsweise

  • Datenverdichtung,
  • das Bilden von Clustern,
  • das Erkennen von Mustern,
  • die Klassifizierung von Daten.

Datenexploration für Daten aller Art

Datenexploration spielt speziell bei der Analyse von Geodaten eine Rolle (Spacial Data Mining). Hier eignen sich Verfahren, die auf Künstlicher Intelligenz beruhen, um räumliche Beziehungen aufzudecken. Insbesondere deckt Datenexploration hier Verteilungsmuster auf, die in den Daten selbst nicht enthalten sind, sondern sich erst durch die Sichtung der Datenmengen herausstellen.

Aber auch in anderen Bereichen sind die Prinzipien der Datenexploration anwendbar, um neue Erkenntnisse zu gewinnen. So lassen sich beispielsweise Muster, Häufungen und Anomalien in Datensätzen über Kunden herausfinden. Daraus ergeben sich weiterführende Informationen, die bestimmte Annahmen validieren können – zum Beispiel über den Erfolg bestimmter Marketingstrategien. Dazu gehört auch eine erste Analyse, welche Daten sich überhaupt für die Validierung eignen.