Kontaktieren Sie uns

Data science, Diverse, Software

Machine Learning als Webap­pli­kation

11 Mrz 19

Buzzwords wie künstliche Intel­ligenz (KI) und maschi­nelles Lernen (ML) sind in aller Munde. Unser Data Scientist erklärt mit einfachen Worten, was dahinter steckt. Trainieren Sie Ihre eigenen Modelle mit der praktischen Webap­pli­kation Predictoor und dem Algorithmus „Random Forest“.

Abbildung 1: Venn-Diagramm der künstlichen Intelligenz

Was ist Machine Learning?

Können Sie den Verkaufspreis eines Einfa­mi­li­en­hauses vorhersagen? Welche Ihrer Kunden werden ihren Vertrag nächstens künden? Wie unter­scheiden Sie zwischen verdächtigen Trans­ak­tionen und normalen Banküber­wei­sungen? Solche Fragen führen direkt in die Welt der künst­lichen Intel­ligenz und des maschi­nellen Lernens (engl. Machine Learning), wo aus Daten Infor­ma­tionen werden.

Der Unter­bereich des überwachten Lernens (engl. Supervised Learning) beschäftigt sich mit Algorithmen, die in unzähligen Daten­bei­spielen Zusam­menhänge zwischen einer Zielgrösse und erklä­renden Variablen finden. Nach dieser Lernphase (auch Trainingsphase genannt) kann der Algorithmus die gelernten Zusam­menhänge auf neue Fälle übertragen und so die Zielgrösse vorhersagen.

Variablen

Variablen erklären einen Datensatz und helfen dem Algorithmus, Zusam­menhänge zu finden.

Abbildung 2: Lineares Modell von Grösse und Gewicht.

Zielva­riable

Was soll vorher­gesagt werden? Zum Beispiel, bei welchen Mitar­beitern ein Kündi­gungs­risiko besteht.

Abbildung 3: Vom Input «Grösse» zum Output «Gewicht».

Fälle

Jede Zeile ist eine Beobachtung. Anhand dieser lernt der Algorithmus, neue Fälle vorher­zusagen.

Abbildung 4: Bildklassierung mit spezialisierten neuronalen Netzwerken.

Nicht mehr nur Experten vorbe­halten

Lange Zeit konnten nur Spezia­listen komplexe Vorher­sa­ge­modelle entwickeln und einsetzen: Sie prüften, vervoll­stän­digten und trans­for­mierten die Einga­bedaten, wählten eine passende Modell­klasse, optimierten die Modell­pa­rameter und validierten die Vorher­sa­ge­ge­nau­igkeit. Mit modernen Algorithmen und sinnvollen Vorver­ar­bei­tungs­schritten lässt sich dieser Prozess unter­dessen weitgehend automa­ti­sieren. Die resul­tie­renden Modelle liefern robuste und akkurate Vorhersagen, falls die Daten dies zulassen.

Gerade die Vorver­ar­bei­tungs­schritte sind jedoch unerlässlich und können überaus komplex sein. Damit der Lernal­go­rithmus exakte Vorhersagen machen kann, ist eine struk­tu­rierte Datenbasis notwendig. Dabei sollte die Zielva­riable möglichst genau definiert sein (sog. Feature Engineering).

Coming up with features is difficult, time-consuming, requires expert knowledge. ‘Applied machine learning’ is basically feature engineering.

Andrew Ng

Probieren geht über Studieren

Vielleicht verfügen auch Sie über einen Datensatz, der Ihre Produkte, Ihre Kundendaten oder beispielsweise die Angebote der Konkurrenz beschreibt. Sie möchten eine wichtige Variable dieses Daten­satzes mit Hilfe der anderen Infor­ma­tionen vorhersagen. So könnten Sie z.B. die zukünftigen Verkaufs­zahlen Ihrer Produkte abschätzen, Kunden mit einem hohen Kündi­gungs­risiko identi­fi­zieren und kontak­tieren oder das Preis­modell Ihrer Konkurrenz durch­leuchten.

Probieren Sie es aus! Predictoor ist Ihre künstliche Intel­ligenz, er lernt auf Ihrem Datensatz die gewünschte Zielgrösse mit den von Ihnen gewählten Infor­ma­tionen vorher­zusagen.

Predictoor

Predictoor prüft zuerst den Umfang und die Vollstän­digkeit Ihres Daten­satzes und entscheidet, welche Variablen für die Model­lierung geeignet sind. Predictoor entscheidet sich aufgrund der gewählten Zielgrösse automatisch für ein passendes Regressions- oder Klassi­fi­ka­ti­ons­modell (Vorhersagen von Zahlen­werten wie z.B. Preisen oder Vorhersagen von Kategorien wie z.B. «kündigt» / «kündigt nicht»). Während der Lernphase optimiert er die Modell­pa­rameter und prüft die Modellgüte, indem er seine Vorhersagen für zuvor ausge­schlossene Daten­punkte mit den tatsäch­lichen Werten vergleicht (dieser wichtige Check wird Kreuz­va­li­dierung genannt). Die Vorher­sa­ge­ge­nau­igkeit und die Wichtigkeit der einzelnen erklä­renden Variablen zeigt er Ihnen verständlich auf. Schliesslich können Sie mit dem trainierten Modell Vorhersagen für neue Fälle generieren.

Ein Random Forest steckt dahinter

Predictoor lernt aktuell mit einem bekannten und potenten Algorithmus, dem Random Forest (entwickelt von Leo Breiman im Jahr 1999). Dabei bildet er unzählige Varianten von leicht durch Zufall beiein­flussten Entschei­dungs­bäumen. Für eine Vorhersage werden die Resultate aller einzelnen Bäume gemittelt und weil viele Bäume einen Wald bilden, entstand der Name Random Forest.

Sie können Predictoor auch ohne eigene Daten kennen­lernen. Verschiedene Beispiel­da­tensätze stehen bereit, damit Sie Ihre ersten Modelle trainieren können. Lassen Sie Predictoor die Überle­bens­wahr­schein­lichkeit von Titanic-Passa­gieren, Hauspreise oder die Qualität von Weinen vorhersagen!

Zusätzliche Infor­ma­tionen

Erkunden Sie die Möglich­keiten moderner Algorithmen auf Ihren Daten­sätzen! Gerne unter­stützen wir Sie dabei mit zusätz­lichen Daten, Aufbe­rei­tungs­schritten oder spezifisch optimierten Modellen, damit auch aus Ihren Daten Infor­ma­tionen werden.