Übersicht Data Mining Algorithmen

Die Datamining Algorithmen lassen sich grob in vier Kategorien untergliedern (vgl. Runkler S. 3):

Klassifikation
Clusteranalyse
Korellationsanalyse
Regressionsanalyse

Klassifikation

Klassifkation setzt man grundsätzlich ein, wenn man einen gelabelten Datensatz zur Verfügung hat. Gelabelt heißt in diesem Kontext, dass jedem Tupel eine Klasse zugeordnet wurde und das Modell anhand dieser Information trainieren kann. In der englischsprachigen Literatur ist dies unter supervised learning bekannt. Die Klassifikation bietet den großen Vorteil, dass eine Überprüfung des Algorithmus anhand der gelabelten Testdaten stattfinden kann. Hierfür wird der Quelldatensatz aufgeteilt; zum einen in einen Lerndatensatz für das Training des Modells und zum anderen in einen Testdatensatz für die spätere Evalueriung des Algorithmus.

Einige bekannte Algorithmen: (teilweise entnommen aus Tan)

Naive Bayes
Decision Tree
Decision Forest
Rule-Based
Support vector machine
Neural network

Die Algorithmen Naive Bayes, Decisiontree und Support Vector Machine sind in den folgenden Kapiteln detailliert beschrieben. In unserem Softwareprojekt der Twitter-Text-Analyse ist ein gelabelter Datensatz vorhanden, sodass das Projektteam die Klassifikation mit den drei genannten Algorithmen vornehmen kann.

Clusteranalyse

Die Clusteranalyse ist ein unsupervised learner. Beim unsupervised learning besitzen die Quelldaten kein Label. In den Quelldaten werden Ähnlichkeiten und Muster zwischen den Tupeln gesucht und die Tupel in Cluster aufgeteilt. Die Tupel sollen in ihrem Cluster möglichst ähnlich sein und verschieden zu den Tupeln in den anderen Clustern. Somit ist auch eine Evaluierung möglich: denn ein gutes Clustering hat eine hohe Separation zwischen den einzelnen Clustern. (vgl. Cichosz S. 15)

Eine Beispielvisualisierung mit den Attributen debt und income.

Entnommen aus https://www.analyticsvidhya.com/wp-content/uploads/2013/11/Clust1.gif.

Einige bekannte Algorithmen:

k-means
k-medoids
fuzzy c-Mean

Korrelationsanalyse

Die Korrelationsanalyse untersucht die Korrelation (Abhängigkeit) zwischen den Attributen über alle Daten. Die Stärke wird durch den Korrelationskoeffizienten ausgedrückt. Das Ergebnis der Korrelationsanalyse ist meistens eine Korrelationsmatrix, welche alle Korrelationskoeffizienten der Attribute zueinander enthält.

Diese Korrelationsmatrix wurde mithilfe von Rapidminer erstellt und zeigt die Koeffizienten des "Titanic-Datensatzes". Der Datensatz ist zu finden unter https://www.kaggle.com/c/titanic/data. Auffällig ist die Korrelation zwischen "Sex" und "Survived".

Regressionsanalyse

Die Regressionsanalyse lässt sich am ehesten mit der Klassifizierung vergleichen. Doch hier wird keine diskrete Klasse vorhergesagt, sondern ein nummerischer Wert. Dieser Wert wird durch die Regression bestimmt. (vgl. Cichosz S. 14)

Quellen

Thomas A. Runkler: Data Mining - Modelle und Algorithmen intelligenter Datenanalyse; 2. Auflage; Springer; 2015
Tan, Steinbach, Kumar: Data Mining - Classification: Basic Concepts, Decision Trees, and Model Evaluation; 2004; https://www-users.cs.umn.edu/~kumar/dmbook/dmslides/chap4_basic_classification.pdf Aufgerufen am 01.07.2017.
Pawet Cichosz: Data Mining Algorithms - Explained Using R; Wiley; 2015; http://pdf.th7.cn/down/files/1502/Data%20Mining%20Algorithms.pdf Aufgerufen am 01.07.2017.

Author: Sven Schirmer

Übersicht Data Mining Algorithmen