Text-Mining – Kurzerklärung

Text-Mining, auch Text Data Mining genannt, ist ein Verfahren zur Analyse von Texten mithilfe von Algorithmen. Entsprechend programmierte Software erkennt mit mathematischen Methoden die Kerninformationen in einem Dokument. Die Methode wird häufig eingesetzt, um große Mengen von Dokumenten und Publikationen zu analysieren, die in einem bestimmten Kontext stehen. Als besondere Art von Information Retrieval kann Text-Mining unstrukturierte Texte beispielsweise für Datenbanken verfügbar machen.

Text-Mining: maschinelle Inhaltsanalysen

Text-Mining erspart in der Wissenschaft, in der Wirtschaft und im Web 2.0 das Lesen zahlreicher unstrukturierter Dokumente. Hochwertige Software hilft unter anderem dabei, Dokumente zu selektieren, Muster und Trends zu erkennen sowie Hypothesen zu überprüfen. Auch können Textdateien automatisch bereinigt, gefiltert und korrigiert werden.

Als Objekte von Text-Mining-Analysen eignen sich zum Beispiel:

  • E-Mails,
  • Webseiten,
  • Word- oder PDF-Dokumente.

Semantische Techniken ermöglichen die Ermittlung von Schlüsselwörtern (Keywords) für den jeweiligen Kontext. So können relevante Informationen auch aus großen Datenmengen mit wenig Zeitaufwand gewonnen werden. Gerade im Zeitalter von Big Data sind leistungsstarke Methoden und Anwendungen gefragt, die eine genaue Analyse großer Datenmengen ermöglichen. Text-Mining, insbesondere in der Form des Web-Content-Minings, macht diese Untersuchungen für unstrukturierte Texte in großer Zahl möglich. Die in den Dokumenten enthaltenen Informationen können in Strukturen wie XML umgewandelt oder direkt in Datenbanken eingespielt werden.

Text-Mining hat auch für die Wirtschaft und das Management eine große Bedeutung. Als unterstützende Maßnahme für das Erreichen von Unternehmenszielen bietet sich das Verfahren für folgende Aufgaben an:

  • Reputations-Management: Wie wird ein Unternehmen in der Presse erwähnt?
  • Konkurrenz-Analyse: Welche Geschäftsberichte aus dem Branchen-Umfeld sind relevant? Welche allgemeinen Tendenzen zeichnen sich ab?
  • Web-Recherche: Wie findet man interessante Informationen für ein Unternehmen im Internet?

Data-Mining für unstrukturierte Texte

Text-Mining ist eine Unterkategorie von Data-Mining. Während Data-Mining Informationen erfasst, die bereits in einer für Computer aufbereiteten Form vorliegen, wird beim Text-Mining mit unstrukturierten Daten gearbeitet. Sie liegen in reiner Textform vor. Die inhaltliche, logische Struktur und der Sinn ergeben sich lediglich aus sprachlichen und grammatischen Regeln. Um diese in eine für Maschinen lesbare und auswertbare Form zu bringen, sind semantische und linguistische Methoden zu verwenden. Die Schwierigkeit liegt darin, diese Methoden in Algorithmen zu übersetzen. Hierdurch werden Programme in die Lage versetzt, die intellektuelle Tätigkeit von Menschen beim Lesen von Texten weitgehend abzubilden. Die Vorgehensweise bei der Analyse besteht regelmäßig aus fünf Schritten:

  • Definition der Aufgabe: Was ist das Ziel der Untersuchung?
  • Auswahl der relevanten Dokumente und der Sprache
  • Eventuell eine Aufbereitung der Dokumente (zum Beispiel die Umwandlung des Dateiformats)
  • Auswahl der passenden Analyse-Methode
  • Interpretation der Ergebnisse

Eine immer wichtigere Rolle spielen dabei Daten und Texte aus dem Web oder aus der Cloud. Gerade im Internet lässt sich Text-Mining vielseitig nutzen, beispielsweise

  • für die Aufbereitung und das Umstrukturieren von Textarchiven,
  • für Social Media Monitoring,
  • als automatisiertes Verfahren für Marktrecherche,
  • zur Optimierung von Suchergebnissen.

Text-Mining für suchmaschinenoptimierte Texte

Suchmaschinen wie Google oder Bing nutzen moderne Methoden der Textanalyse, um die Inhalte von Webseiten besser zu verstehen und dadurch die Ergebnisse von Suchanfragen zu optimieren. Eine wichtige Kennzahl ist dabei die Termfrequenz. Hier werden Dokumente daraufhin analysiert, welche Terme in einem bestimmten Keyword-Umfeld häufiger oder seltener vorkommen und in welchem Verhältnis die Wörter zueinander stehen. Suchmaschinen benutzen die WDF/IDF-Methode (WDF = Within Document Frequency, IDF = Inverse Document Frequency), um Indizien für die Relevanz eines Textes in Bezug auf bestimmte Suchanfragen zu bekommen. Hier ist vor allem auf eine große Datenmenge zu achten, um möglichst aussagefähige Ergebnisse zu erhalten.

Für suchmaschinenoptimierte Texte lassen sich WDF/IDF-Analysen verwenden, um schon beim Prozess der Texterstellung auf die Frequenz bestimmter Wörter zu achten. Ein nach WDF/IDF-Gesichtspunkten optimierter Artikel gibt Google das Signal, dass es sich um einen thematisch relevanten Text handelt. Auch für die automatische Erstellung interner Linkstrukturen oder Tag Clouds wird Text-Mining für SEO genutzt.

Ein Verfahren mit Zukunft

Vor allem die wachsende Bedeutung von Big Data macht die Anwendung von Text-Mining in vielen Fällen unerlässlich. Denn je größer die Datenmenge ist, umso weniger sind menschliche Auswertungen möglich. Auch ein immer größer werdender Anteil von User Generated Content im Netz macht die maschinelle Erfassung des Sinngehalts von Beiträgen erforderlich.