Textklassifikation – Anwendungsbereiche im Internet

Textklassifikation

Im Internet gibt es Milliarden von Webseiten mit unzähligen Texten. Da ist es schwer, den Überblick zu behalten. Textklassifikation ist eine Methode, die Durchblick schafft und das Angebot strukturiert. Welche Anwendungsbereiche gibt es für Textklassifikationen im weltweiten Netz?

Aufräumen im Internet

Die Datenmenge im Internet ist so groß, dass die Filterung allein durch menschliche Experten nicht denkbar ist. Je mehr Informationen im Internet kursieren, die hauptsächlich in Textform zugänglich sind, umso größer wird die Notwendigkeit der maschinellen Analyse, Einordnung und Klassifizierung. Beispiele:

Nachrichtenportale wählen ihre News nach Themenbereichen und anderen Eigenschaften aus. Die letzte Entscheidung, ob und wo eine Quelle in einem Portal platziert wird, trifft vorzugsweise ein Mensch – aber diese Aufgabe kann durch künstliche Intelligenz weitgehend maschinell erledigt werden.
Vertikale Suchmaschinen erfassen nur Links zu einem bestimmten Thema – im Gegensatz zu universellen Suchmaschinen wie Google oder Bing. Vertikale Suchmaschinen werben mit dem Vorteil, dass interessierte User relevante Informationen schneller finden. Denn hier ist der Index von vornherein auf themenspezifische Inhalte begrenzt.
E-Mail-Anbieter benötigen effiziente Verfahren, um mithilfe verschiedener Kriterien erwünschte Nachrichten von Spam-Mails zu unterscheiden. Zu diesen Kriterien gehören nicht nur der Absender, sondern auch der Text selbst. Spam-Mails zeichnen sich durch typische sprachliche Merkmale aus.
Für die Marktforschung werden Sentiment-Analysen eingesetzt. Diese Algorithmen werden verwendet, um automatisch positive oder negative Einstellungen zu erkennen – zum Beispiel zu bestimmten Produkten oder laufenden Kampagnen.

Für die Textklassifikation bietet sich maschinelle Unterstützung als effektive Hilfe an. Künstliche Intelligenz spielt hierbei eine immer wichtigere Rolle.

Textklassifikation und Maschinelles Lernen

Künstliche Intelligenz zeigt auch bei der Klassifikation von Texten ihre Vorteile. Der Wissenserwerb der Algorithmen basiert hier auf Trainingsdaten, die bereits vorklassifiziert sind. Neue Textdokumente werden mit diesen Trainingsdaten nach und nach verglichen. Das Prinzip von Trial and Error liefert dabei zusehends treffsichere Ergebnisse.

Die Problematik der Analyse von Wörtern liegt dabei zumeist darin, die irrelevanten Merkmale herauszufiltern. Ein Ansatz hierfür ist das sogenannte Stemming – jedes Wort wird systematisch auf den Wortstamm zurückgeführt. Durch den Ausschluss überflüssiger Merkmale wird die Laufzeit der Programme erheblich reduziert.

Bei der Textklassifikation kommt es letztlich nicht auf die Bedeutung einzelner Wörter an, sondern auf den Kontext, in dem diese angewendet werden.

Ein Beispiel: Auch wenn in einem Text kein einziges Mal das Wort Blume erscheint, handelt er über das Thema, wenn signifikant häufig Wörter aus dem Umfeld genannt werden, zum Beispiel Rosen, Tulpen, Garten oder Dünger.

Lassen Sie über die Crowd von clickworker eine Textklassifikation durchführen, um hochwertige Trainingsdaten für Ihr KI-System zu gewinnen.

Es ist klar, dass jede maschinelle Textklassifikation eine gewisse Fehlerwahrscheinlichkeit aufweist. Je höher die Wahrscheinlichkeit einer passenden Klassifizierung ist, umso besser ist der Algorithmus, der dem Verfahren zugrunde liegt.

Komplexität

Die Komplexität eines Textdokuments ist ein wichtiger Faktor für die Einordnung von Dokumenten. Wie komplex ist ein Text? Hierfür gibt es einige Anhaltspunkte. Das sind zum Beispiel

die durchschnittliche Wortlänge,
die durchschnittliche Anzahl von Wörtern in einem Satz
und die Typ-Token-Relation (Verhältnis der Wörter insgesamt und der Zahl der unterschiedlichen Wörter).

Die Textklassifikation in Bezug auf die Komplexität bietet insbesondere Internetportalen einen Mehrwert, die ihren Besuchern ein zielgruppengenaues Angebot an Links bereitstellen. Dabei hilft die Textklassifikation auch, unterschiedlichen Ansprüchen gerecht zu werden, beispielsweise in Bezug auf

den intellektuellen Anspruch eines Textes,
den Grad der Fokussierung auf ein bestimmtes Unterthema (im Gegensatz zu umfassenden Darstellungen),
oder die Einordnung von Texten in Hinsicht auf die Lesezeit.

Insofern eignet sich die Textklassifikation als effizientes Mittel, den kohärenten Stil eines Portals auch bei der Integration fremder Quellen zu bewahren.

Tendenzen vorzeitig wittern: Sentimentanalyse

Ein wichtiger Anwendungsfall der Textklassifikation ist die Sentimentanalyse. Die Sentimentanalyse ist ein Untergebiet des Text-Minings.

Text-Mining setzt Algorithmen ein, um die Kerninformationen aus unstrukturierten Texten herauszufiltern. Im (utopischen) Idealfall bildet ein solcher Algorithmus den intellektuellen Prozess des menschlichen Lesens ab.

Mit einer Sentimentanalyse stellt sich heraus, ob ein Text (zum Beispiel ein Bewertungskommentar oder ein Post in sozialen Netzwerken) insgesamt eine positive oder negative Grundtendenz hat – allein anhand des Geschriebenen ohne Rücksicht auf eventuelle Punkte- oder Sternvergabe. Dieses Stimmungsbild eines Textes herauszustellen ist schwierig, weil ein Dokument als Ganzes sowohl positive wie negative Äußerungen enthalten kann. Die Gesamttendenz eines Textes lässt sich aber relativ treffsicher mithilfe von statistischen und linguistischen Mitteln feststellen.

Sentimentanalysen im Marketing

Gerade für Marketingzwecke eignen sich Sentimentanalysen, um Meinungen über laufende Kampagnen herauszufinden – um zielsicher darauf reagieren zu können.

Welche Werbemaßnahmen kommen beim Kunden an und welche nicht?
Wie wirken sich aktuelle Unternehmensentwicklungen auf die Reputation aus?
Gibt es auffällige Änderungen in der Wahrnehmung von relevanten Stimmungen?

Textklassifikation ist ein sicheres Mittel, um die Sprache der Zielgruppe zu verstehen – und diese für Marketingzwecke einzusetzen. Kein Unternehmen kann es sich leisten, nicht dieselbe Sprache wie seine Kunden zu sprechen.

Fazit

Die Vorteile der automatischen Textklassifikation liegen auf der Hand – und sie werden umso größer, je umfangreicher die Menge an Informationen im Internet wird. Ein zusätzlicher Push-Faktor für die Textklassifikation als Dienstleistung ist die Notwendigkeit für Unternehmen, ständig einen Überblick über alle Entwicklungen zu haben, die marktrelevant sind und sich frühzeitig im Web abzeichnen.

Author

Jan Knupper