Was ist eigentlich … Data-Mining?

Unter Data-Mining versteht man die Analyse und Auswertung horrender Datenmengen mit dem Ziel, darin Muster zu entdecken. Dabei geht es jedoch nicht darum, so lange auf ein Balkendiagram zu starren, bis einem ein Licht aufgeht. Data-Mining befasst sich mit weit komplexeren Daten, die sich in ihrer Masse in der Regel nur mit technischer Unterstützung auswerten lassen. Ein Standard-Vorgehen oder gar ein Erfolgsrezept gibt es dabei nicht. Denn je nach Thema, Branche oder Erfassungs-Verfahren unterscheiden sich die zu analysierenden Daten stark. Ebenso wie die Muster, die es zu erkennen gilt. Zudem ist am Anfang meistens auch nicht bekannt, was am Ende herauskommen soll, was das Ganze zu einem recht umfangreichen Unterfangen macht.

Data Mining

Wegen seiner Komplexität sind für das Data-Mining oft mehrere Fachbereiche der Informatik und Mathematik gefragt, so zum Beispiel Datenbanken-Programmierung, Statistik, künstliche Intelligenz oder Daten-Visualisierung.

Genau genommen, ist Data-Mining eigentlich nur ein Teil des Ganzen Daten-Such- und -Auswertungsprozesses und steht für die Analyse der Daten. Der gesamte Prozess wird als Knowledge Discovery in Databases (KDD, zu dt. “Wissensentdeckung in Datenbanken”) bezeichnet. Mittlerweile werden beide Begriffe jedoch oft synonym verwendet.
Fälschlicherweise wird Data-Mining auch oft für die bloße Erfassung, Speicherung und Verarbeitung großer Datenmengen verwendet. Richtig ist jedoch, dass es sich erst um Data-Mining handelt, wenn daraus neues Wissen entsteht.

KDD-Prozess

KDD-Prozess

Ein typischer Anwendungs-Fall für Data-Mining ist die Auswertung von Konsumenten-Daten. Also: Wer kauft was wann und wo ein? Das Ergebnis eines solchen Data Mining oder KDD-Prozesses sieht man dann bei einigen Online-Shops in der Kategorie “Das könnte Sie auch interessieren” oder ganz einfach in der zum Kauf anregenden Produkt-Platzierung im Supermarkt. Data-Mining eignet sich aber auch für die Erkennung von Plagiaten in wissenschaftlichen Arbeiten oder für die Rechnungsprüfung im Finanzwesen. Diese Beispiele zeigen, wie unterschiedlich die Daten und entsprechend deren Auswertungs sein können.