Die 6 Phasen im Data Mining

Der CRISP-DM (Cross Industry Standard Process for Data Mining) ist eine von der EU geförderte Entwicklung und begann 1996 unter Mitarbeit zahlreicher Unternehmen. 1999 wurde das erste CRISP-DM Modell im Rahmen des CRISP-DM SIG Workshop in Brüssel veröffentlicht. CRISP-DM ist anwendungsneutral und in unterschiedlichen Bereichen einsetzbar.

2015 veröffentlichte IBM eine Überarbeitung und Erweiterung von CRISP-DM. Der neue Standard trägt den Namen ASUM-DM (Analytics Solutions Unified Method for Data Mining/Predictive Analytics).

Ein standardisiertes Prozessmodell in 6 Phasen

Die Schritt-für-Schritt Anleitung für das Data Mining beschreibt sechs verschiedene Phasen, die ein- oder mehrfach zu durchlaufen sind, je nachdem welches Ziel das Projekt verfolgt. Das Prozessmodell beschreibt den Data-Mining-Lebenszyklus.

1. Business Understanding: in dieser Phase erfolgt die Definition der Ziele und Anforderungen des Projektes mit dem Ergebnis einer klar formulierten Aufgabenstellung und der geplanten Vorgehensweise, z.B. wie kann ich Betrug oder andere Anomalien entdecken, welche Faktoren beeinflussen die Preisgestaltung, welcher Kunde hat eine höhere Kündigerwahrscheinlichkeit?

2. Data Understanding: hier beginnt die Suche nach verfügbaren Daten und die Analyse der Datenqualität, damit verbunden die Bewertung der Daten in Bezug auf die Eignung für das Projekt. Kann ich weitere Daten nutzen, wo sind sie verfügbar?

3. Data Preparation: häufig nimmt diese Phase rund 80 % der gesamten Projektzeit ein. Es erfolgt eine Auswahl der benötigten Variablen und identifizierte Probleme in Bezug auf die Datenqualität werden durch neue Kodierung oder Transformation behoben.

4. Modeling: in dieser Phase werden verschiedenen Modelle des Data Mining getestet und ggfs. werden Parameter angepasst. Machine Learning ist das aber oft nicht, sondern Methoden der deskriptive Statistik, Regressionsanalysen oder Entscheidungsbäume.

5. Evaluation: die getesteten Modelle werden gegenübergestellt und das am besten geeignete Modell wird ausgewählt, ggfs. müssen die vorhergegangenen Prozessphasen 1-4 auch wiederholt werden.

6. Deployment: bei einer ad-hoc Analyse werden die Ergebnisse aufbereitet und für die Zielgruppe verständlich dargestellt (Exploration und Visualisierung der Daten), häufig in Form eine Power Point Präsentation. Alternativ werden die Modelle in die Produktion überführt und es erfolgt eine Automatisierung der Analyse.

Fazit – Warum ist es ein Standard?

Data Mining wird häufig dazu eingesetzt um sehr große Datenbestände nach Mustern, Trends und Zusammenhängen zu durchsuchen. Ohne ein vernünftiges Research Design geht das nicht. Dieses Modell hilft sich zu fokussieren und gibt dem Projekt einen festen Rahmen. Und weil über 200 Mitglieder in der CRISP-DM Special Interest Group aktiv sind, bleibt es ein Standard.