| Das Geheimnis des Web Mining: Die Suche nach verborgenen Schätzen | | Drucken | |
| 26. Februar 2008 | |
|
Die Analyse der Besucher auf den Internet-Portalen - den virtuellen Filialen - wird für die Unternehmen immer wichtiger. Für dsa Controlling der Besucher-daten und deren Verhalten etablieren sich verschiedene Produkte auf dem Markt. Viel interessanter ist es, die Besucher der Internetseite zu analysieren, während diese auf der Seite surfen, deren Bedürfnisse zu erkennen und passende Internet-Seiten anzubieten.
Im folgenden Artikel wird ein Closed-Loop-Ansatz auf Basis von „Web Mining“ vorgestellt, um das Internet als Vertriebskanal zu nutzen. Oberste Ziele von Web Mining-Projekten sind die Generierung von Kundeninformationen und die Personalisierung der Webseite. Der Artikel soll sich dementsprechend auf das Web Usage Mining fokussieren, wobei die anderen beiden Bereiche nur grob umrissen werden. Eine besondere Bedeutung kommt der Suche und Gruppierung von Dokumen-ten nach inhaltlichen Kriterien sowie der Verlinkung zu Nachbarseiten zu. Anders als beim herkömmlichen Data Mining, das Daten in Tabellenform braucht, kommen hier vorzugsweise Algorithmen des Text Minings zum Einsatz, da ein Großteil der Webinhalte nur in schwach- oder unstrukturierter Form vorliegt. Konkrete Beispiele solcher auffindbaren Daten imWeb sind Archivemit Zeitungsartikeln, wissenschaftlichen Publikationen, Preislisten, Kundendaten, Qualitätsberichte, Logos, E-Mails oder Meldungen von Nachrich-tenagenturen. Weitere Beispiele für den praktischen Einsatz von Web Content Mining sind: ° Automatische Inhaltserschließung: Die wichtigsten Sätze eines Dokumentes können zum Zweck von Zusammenfassungen extrahiertwerden. Aus Text-passagen werden Titel generiert. ° Analyse von Onlineinformationsdiensten wie Zeitungen und Newsdiensten zur Identifikation von „Wörtern des Tages“. Einsatz bei: http://www.wortschatz.uni-leipzig.de/wortdestages/ ° und die Visualisierung der Beziehungen zwischen Objekten (Begriffe, Doku-mente) in Form von Graphen. Text Mining ermöglicht den Aufbau von Wissenskarten (Knowledge-Maps), die dem Nutzer ein begriffliches Leitsystem zur Verfügung stellen oder auch eine interaktives und grafisches Navigieren durch die Webseiten zulassen. ° ein themenspezifischer Internetsuchdienst oder ein Web-Info-Center, bei dem Informationen zu einem bestimmten Themengebiet wie Finanzwesen, juristische Urteile, Sport, etc. automatisch aus dem Internet extrahiert werden ° Spam-E-Mails von erwünschten Zusendungen unterscheiden ° Klassifizieren von Sprach-, Sound und Videosegmenten nach inhaltlichen Kriterien für den Einsatz in personalisierten Portalanwendungen ° Analyse von Kundenrezensionen zu Produkten: Produkteigenschaften über die sich Kunden in Kommentaren geäußert haben extrahieren. Aus diesen Meinungsäußerungen Vor- und Nachteile eines Produktes identifizieren oder Produkte gleicher Kategorien anhand ihrer herausgefilterten Bewertungs-kriterien in einer Vergleichsübersicht den Kunden zur Verfügung stellen.
Aufgrund der wachsenden Zahl elektronisch verfügbarer Texte und dem Wunsch nach automatischen Verfahren zur Bewältigung der Informationsflut gehört Text Mining bereits zu einem durchaus aktiven und interessanten Forschungsgebiet. Ein rasant wachsendes Anwendungsgebiet ist außerdem die Auswertung von Blogs, sog. Online-Tagebüchern, in denen sich die User über aktuelle Trends oder Erfahrungen mit Produkten und Dienstleistungen austau-schen. Mit Web Structure Mining lassen sich Informationen aus der Struktur der Webseite, die sich auf die Anordnung der dort auffindbaren Inhalte bezieht, aufdecken. Zum einen kann sich solch eine Analyse auf die Struktur innerhalb einer Webseite beziehen zum anderen auf die Struktur zwischen den Seiten eines Webauftritts, das heißt, auf die Verlinkung der einzelnen Seiten zuei-nander. Es geht darum, durch die Extraktion signifikanter Klickprofile Hinweise auf eine verbesserte Gestaltung und Navigation der Webseite zu erhalten, auch
Personalisierungsmaßnahmen
Die Personalisierung der Kommunikation kann zumeinen auf die Kundenan-sprache und zum anderen auf die Kommunikationsart angewendet werden. Dem Kunden sollte die Möglichkeit gegeben werden, den von ihm bevorzugten Kommunikationskanal (E-Mail, Webseite, Telefon, Chat) zu wählen, vor allem dann wenn der Kunde online auf der Seite beraten werden soll.
Assoziationsanalysen
Assoziationsanalysen ermöglichen weiterhin die Beantwortung der Fragestel-lung: „Welche Informationsangebote/Seiten werden typischerweise zusammen aufgerufen?“. Als Sonderform der Assoziationsanalyse können anhand von Sequenzanalysen zusätzlich Aussagen über die Reihenfolge der aufgerufenen Seiten beziehungsweise der Online-Aktivitäten getroffen werden. Eine typische Fragestellung diesbezüglich ist, welche Informationen/Seiten die Besucher nach der Startseite aufrufen. Somit ist feststellbar welche Informationen und Produkte den größten Interessantheitsgrad für die Nutzer darstellen und welche Seiten am engsten mit dem Verkauf eines Produktes verbunden sind.
Klassifikationsverfahren
Als weiteres Anwendungsfeld ermöglicht das Web Usage Mining mit Hilfe von Klassifikationsverfahren ein Objekt einer von mehreren vordefinierten Klassen oder Kategorien, wie etwa „Käufer“ oder „Nicht-Käufer“ zuzuordnen. Dabei wer-den diejenigen Variablenkombinationen gesucht, die eine möglichst gute Zuord-nung zu den Klassen Käufer oder Nicht-Käufer gewähren. Hierfür ist besonders der Einsatz von Entscheidungsbäumen geeignet. Als Ergebnis entstehen Regeln der Form „WENN-DANN“, die zumeist in einer Baumstruktur abgebildet werden. Bild 6 stellt einen solchen Entscheidungsbaum für eine Webseite mit Online-Shop dar. Wenn ein Besucher die Seite „Sales.html“ besucht, auf dieser länger als zehn Minuten verweilt und wenn der Besuch zwischen Mittwoch und Freitag erfolgt, dann liegt die Kaufwahrscheinlichkeit für ein Produkt bei 16,52 %. Dieser Erkenntnis zum Anlass könnte sich ein Unternehmen für die Versendung eines Newsletters jeweils an einem Mittwoch entscheiden, der auf die Seite „Sales.html“ verlinkt.
Der Prozess
Der Prozess des Web Mining durchläuft die imBild 8 aufgezeigten Schritte der Datenselektion, Datenbereinigung, Datenvorbereitung, Datenanalyse (Data Mining) und Evaluation. Am Anfang eines Web-Mining-Projektes steht eine exakte Beschreibung der betriebswirtschaftlichen Problemstellung. Erst danach kann mit der Auswahl des Datenbestandes begonnen werden. Jeder Besucher hinterlässt mit jedem Mausklick auf der Webseite eine elektronische Spur in Formvon Logfiles auf dem Web-Server. Als Standard gilt das Common Logfile Format. Andere Formate wie beispielsweise das Expanded Common Logfile Format leiten sich von diesem ab und enthalten zusätzliche Felder, wie bei-spielsweise Referrer und User-Agent. Ein Beispiel für ein Expanded Common Logfile Format ist aus Bild 7 ersichtlich. Es wird eine Abfrage eines Nutzers, der mit der IP-Adresse 123.456.78.1 am 06.12.2007 auf die Seite info.html zugriff, demonstriert. Wenn es sich um eine geschützte Seite handelt werden an der zweiten Position der Benutzername und an dritter Position das zugehörige Passwort aufgeführt.
Schrittweises Vorgehen Bevor die Data Mining Techniken sinnvoll auf den Datenbestand angewandt werden können, ist es erforderlich diese, aufgrund von technischen Bege-benheiten und unsauberen Daten entsprechend aufzubereiten. Dabei können folgende Teilschritte angewendet werden: ° Entfernen von Ausreißern: Bereinigung atypischer Beobachtungen. ° Behandlung fehlender Werte: Löschen der Datensätze anderenfalls Ersetzen mittels statistischer Schätzungen oder empirisch erhobener Werte. ° Reduktion der Variablenanzahl/Datenvolumen: unwichtige Merkmale entfer-nen, Aggregation der Informationsobjekte (etwa Zusammenfassung nach zeitlichen Kriterien Tag →Woche → Monat → Quartal → Jahr), Summierung, Mittelwertbildung. ° Umkodierung von Variablen: Skalentransformation, Zusammenfassung in Klassen/Gruppen. ° Entfernen von Suchroboter-Einträgen (Spider): Es werden Einträge im Logfile generiert, die keine Hinweise auf das Verhalten der Besucher bringen. Diese Einträge sind vor der Analyse zu entfernen. ° Ziehung von Stichproben, umdie Anzahl der zu analysierenden Daten per hinreichend großer Stichprobe zu reduzieren und die rechentechnische Effizienz dementsprechend zu erhöhen. ° Weitere grundlegende Prozessschritte der Datenaufbereitung sind die Identifikation von Besuchern und Sessions sowie von Seitenaufrufen. Die Herausforderung besteht in der Identifikation der Besucher, da es hier zu Unschärfen kommt, die selbst durch ein Analyse-Werkzeug kaum exakt ausgeglichen werden können.
Der Datenauswahl und Datenaufbereitung ist eine besonders hohe Aufmerk-samkeit zu schenken, da diese mit bis zu 80 Prozent die zeitaufwendigste Phase im Data-Mining Prozess darstellen und zudem die Datenqualität einen entscheidenden Faktor für valide Ergebnisse darstellt.
Kompetenz und Kontinuität
Business Intelligence-Projekte im Allgemeinen und Data Mining-Projekte im speziellen sollten nicht nur als Aufgabe der IT-Abteilung angesehen werden. Wichtig ist es sämtliche Kompetenzträger und Fachabteilungen (etwaMarketing, HR, Technik) in solche Projekte einzubeziehen, da diese individuelle Parameter setzen müssen. Ein Werkzeug, das beispielsweise komplexe Data-Mining- und Web-Mining-Projekte über alle Phasen (von der Datenintegration und Datenaufbereitung bis zur Visualisierung der Ergebnisse) unterstützt ist der Microsoft SQL Server 2005. Im Besonderen mit den Analysis Services des MS SQL Server 2005 wird dem Anwender eine umfangreiche Palette an Data Mining Algorithmen zur Verfügung gestellt: ° MicrosoftDecision Trees-Algorithmus ° Microsoft Clustering-Algorithmus ° Microsoft Naive Bayes-Algorithmus ° Microsoft Association-Algorithmus ° Microsoft Sequence Clustering-Algorithmus ° Microsoft Time Series-Algorithmus ° Microsoft Neural Network-Algorithmus (SSAS) ° Microsoft Logistic Regression-Algorithmus ° Microsoft Linear Regression-Algorithmus
Fazit Web Mining als Anwendungsfeld von Data Mining-Techniken wie Clustering, Sequenz & Assoziationsanalysen und Neuronale Netze wird zukünftig noch weit aus intensivere Aktivitäten im Unternehmensumfeld versprechen. Die jenigen Unternehmen die es erkannt haben, die Informationen und die Masse an Benut-zerdaten am effektivsten zu nutzen werden von einem strategischen Wettbe-werbsvorteil profitieren. Folgende Fragestellungen und Aufgaben können mittels Web Mining, also mit der Verwendung verschiedener Data Mining-Algorithmen bewältigt werden.
° Wie kann ich mein Service-Angebot verbessern?
Im Rahmen desWebUsageMining werden personenbezogene Daten verarbeitet. Es sind die entsprechenden Gesetze des Datenschutzes (BDSG, TDDSG) zu berücksichtigen. Im nächsten Artikel stellen wir einen Ansatz vor, wie Sie die Besucher Ihrer Internetseite während ihres Besuches beraten und kontaktie-ren können. Mit hohen Budgets für Internetmarketing versuchen die Unterneh-men zwar viele Besucher auf ihre Website zu bringen, eine Kontaktaufnahme zum Zeitpunkt des Besuches unterbleibt jedoch mangels geeigneter Möglich-keiten und fehlender Informationen über den Interessenten. Michael Deinhard/ Janine Oswald Diesen Artikel finden Sie auch in der Ausgabe 3/2008 des it mangement. |










