Weiter zum Ihnhalt

Daten durch Visualisierung verstehen

18. Oktober 2022

Datenvisualisierung mit dem «Grammar of Graphics» Konzept

Das menschliche Hirn verarbeitet Bilder und Grafiken 60‘000 Mal schneller als Text. Kein Wunder, sind rund 90 Prozent aller Informationen, die zu unserem Gehirn transportiert werden, visuell. Die folgende Infografik zeigt die häufigsten Geburtstdaten von Personen, die seit 1969 in der Schweiz geboren wurden. Eine Tabelle mit den Geburten an 366 Tagen im Jahr ist schwierig zu interpretieren – aber die Heatmap gibt auf den ersten Blick interessante Insights preis:

  • Der nur in Schaltjahren existierende 29. Februar zählt (wenig überraschend) mit Abstand die wenigsten Geburten
  • Ebenfalls selten sind Feiertage wie der 1. Januar, Weihnachten und der Nationalfeiertag am 1. August – wohl bedingt durch geplante Kaiserschnitte, die Spitäler lieber auf Werktage vor oder nach den Feiertagen legen
  • Die meisten Geburtstage werden in der zweiten Septemberhälfte gefeiert (rund neun Monate nach den Weihnachtsfeiertagen und Silvester 😉)
Datenvisualisierung der häufigsten Geburtstage in der Schweiz
Heatmap: Geburtstage in der Schweiz (Datenquelle: Bundesamt für Statistik)

Gleiches gilt für das Business-Umfeld: Nur wer seine Daten verständlich visualisieren kann, erlaubt den Usern und Userinnen, diese sinnvoll zu interpretieren und aus den Erkenntnissen einen Mehrwert zu generieren. Präsentiert werden diese Grafiken auf interaktiven Dashboards, erstellt beispielsweise mit dem Business Intelligence Tool «Superset» oder dem R-Package «Shiny».

Passende Visualisierung für komplexe Daten wählen

Oft enthalten komplexe Datensätze mehr Dimensionen, als unsere zweidimensionalen Smartphone- und Computerbildschirme einfach darstellen können. Wie ein Datensatz entsprechend in eine Abbildung überführt wird, zeigt das Konzept der «Grammar of Graphics» von Leland Wilkinson. Die «Grammatik der Grafiken» zerlegt eine Datenvisualisierung in funktionale Schichten: von den Rohdaten, über grafische Elemente und Skalen bis zum Koordinatensystem. Der renommierte Data Scientist Hadley Wickham hat auf dieser Grundlage das bekannte R-Package ggplot2 gebaut. Es erlaubt, Grafiken direkt über diese Schichten zu definieren.

Die «Grammar of Graphics» anhand eines Beispiels

Um dieses Konzept zu verstehen, schauen wir uns ein Beispiel an. Eine fiktive Firma, die sechs Restaurants und vier Bars in der Schweiz betreibt, analysiert die Umsätze im September 2022. Dabei berücksichtigen wir auch die Betriebsjahre. Die Hauptdimensionen „Betriebsjahre“ und „Umsatz“ überführen wir auf die beiden Achsen und als Grafikelemente wählen wir Punkte mit Ortsbeschriftungen. Die erste Grafik zeigt sofort: Die älteren, etablierten Standorte generieren mehr Umsatz als die neu eröffneten Filialen.

Visualisierung der Umsatz Daten nach Verkaufsstelle und Betriebsjahre
Scatterplot zum Umsatzvergleich, umgesetzt mit ggplot2

Das Package ggplot2 erlaubt uns, die Grafik mit nur einem zusätzlichen Argument um eine weitere Dimension zu erweitern. Die Farbe zeigt, ob es sich um ein Restaurant oder eine Bar handelt. Es scheint, als würden neu eröffnete Restaurants vergleichsweise wenig Umsatz generieren, während die neuen Bars besser starten.

Anhand der Datenvisualisierung scheint es, als generieren neu eröffnete Restaurants weniger Umsatz als eine Bar.
Umsatzvergleich farblich markiert nach Angebot

Diese Vermutung lässt sich mit ggplot2s Funktion zur Darstellung von Schichten mit statistischen Transformationen – wie hier Regressionslinien – bestätigen. Restaurants starten mit tieferem Umsatz, überholen die Bars aber nach einigen Jahren Betriebsdauer. Für die Gastronomen ist das ein Hinweis, dass sich die zusätzlichen Investitionen in Restaurants auszahlen könnten. Durch das Hinzufügen und Verändern von einzelnen Schichten in ggplot2 lassen sich mit wenig Aufwand ähnliche Auswertungen zu anderen Themen wie Personalkosten oder Ladenflächen kreieren.

Diese Vermutung zum Unsatz lässt sich mit ggplot2s Funktion - einer Datenvisualisierung gut darstellen.
Umsatzvergleich mit Trendlinie in ggplot2

Das R-Package kennt alle relevanten Diagrammtypen, wie beispielsweise die oben gezeigte Heatmap. Die Daten können beliebig skaliert und transformiert werden, interaktive Grafiken können spezifische Details darstellen.

Datenvisualisierung: ggplot2 kann noch mehr

Technisch sind mit einem so umfassenden Package wie ggplot2 kaum Grenzen gesetzt. Allerdings gilt es zu hinterfragen, ob zusätzliche Informationen in einer Grafik einen Mehrwert bieten, oder ob im schlechtesten Fall die Interpretierbarkeit leidet. Denn bei der «Grammar of Graphics» ist es wie in der Sprache: Die Grammatik ist nur der erste Schritt zu einem guten Satz – respektive zu einer guten Grafik. Wir von Datahouse unterstützen Sie gerne bei der Gestaltung Ihrer persönlichen Visualisierungslösung.