Data science
Pride Month & Monte Carlo
09 Jul 21
Am 30. Juni ging der “Pride Month” zu Ende. Jeden Juni ruft die LGBTQ-Szene damit zu mehr Toleranz auf. Trotz weltweiter Aktionen im letzten Monat ist Homosexualität noch immer nicht in allen Staaten legal. Wir haben ein Monte-Carlo-Modell erarbeitet, um die diesbezügliche Entwicklung vorherzusagen.
Datengrundlage
Unser Modell basiert auf Daten der Open-Data-Plattform “Our World in Data”. Konkret beinhaltet das Dataset für jedes Jahr zwischen 1791 und 2019 die Anzahl Staaten, in denen gleichgeschlechtliche sexuelle Handlungen nicht als Strafbestand gelten (Abbildung 1).
Bereits von blossem Auge lassen sich interessante Dinge feststellen: Der Trend ist klar nicht linear, sondern beschreibt im beobachteten Zeitraum eher eine exponentielle Zunahme. In den letzten 50 Jahren hat sich die Anzahl Staaten ohne Verbot mehr als verdoppelt und lag im Jahr 2019 bei 133, also bei 68% der 195 weltweiten Staaten. Zum Vergleich: In der Schweiz sind homosexuelle Handlungen seit 1942 legal.
Modellierung
Definition der Grundannahmen
Wie jedes Modell basiert auch unsere Vorhersage auf einigen Annahmen. Die wichtigste davon war, dass wir bei der Entwicklung von einer logistischen Funktion ausgingen. Die logistische Funktion ist eine S-förmige Kurve, welche in der Naturwissenschaft und auch in der Soziologie viele Phänomene beschreibt: Nach einem flachen Beginn quasi ohne Entwicklung steigt die Kurve in der Mitte steil an, um dann gegen den maximalen Wert hin wieder abzuflachen.
Weiter mussten wir auch über die verschiedenen Parameter der logistischen Funktion (Kennzahlen, welche die Eigenschaften der Kurve wie Minimalwert, Maximalwert, Wendepunkt oder Krümmung bestimmen) Vorannahmen treffen. Diese Vorannahmen (oder “Priors”) dienen in sogenannten “bayesianischen” Modellen wie dem unseren dazu, konkretes Vorwissen in die Modellierung einfliessen zu lassen. Beispielsweise gaben wir dem Modell vor, dass der theoretische Maximalwert von 195 Staaten nicht überschritten werden dürfe.
Anpassung an die Daten
Um die logistischen Funktion den Daten anzupassen, also um die am besten passenden Parameter zu finden, verwendeten wir eine “Markov Chain Monte Carlo” Methode. Dabei werden zufällig (daher “Monte Carlo”) tausende Ziehungen aus dem Raum möglicher Parameter gemacht. Der Algorithmus bestimmt, welche Kombinationen von Parametern in Anbetracht der Daten und der Grundannahmen am wahrscheinlichsten sind und gibt für jeden Parameter eine Verteilung möglicher Werte aus (sog. “Posteriors”). Anhand dieser Posteriors der Kurvenkennzahlen kann dann die weitere Entwicklung der Kurve und deren Unsicherheit abgeleitet werden.
Resultat
Abbildung 2 zeigt die Vorhersage der Entwicklung ab 2019 mit dem entsprechenden Unsicherheitsbereich (sog. Vorhersageintervall; grün).
Der Maximalwert der Kurve, also die maximale Anzahl an Staaten ohne Verbot, welche theoretisch nie überschritten wird, liegt zwischen 181 und 195. Der Wendepunkt der Kurve, also das Jahr, in welchem diese von einer zunehmenden in eine abnehmende Steigung übergeht, liegt zwischen 2022 und 2030.
Zudem sollten gemäss Modell ca. im Jahr 2050 90% aller Staaten das Verbot von Homosexualität abgeschafft haben.
Transfer auf andere Probleme
Unser Modell ist imstande, fachspezifische Grundannahmen aufzunehmen und diese zusammen mit den beobachteten Daten in eine Vorhersage umzumünzen. Dies kann bei der Anwendung in verschiedenen Bereichen ein Vorteil sein. Konkret überall dort, wo spezifisches Fachwissen vorhanden ist, welches nicht direkt in den Daten vorkommt, aber für die Lösung eines Problems relevant ist.
Haben Sie Daten, die Sie mit ihrem Fachwissen kombinieren und so als Modell nutzen möchten? Zögern Sie nicht, mit uns in Kontakt zu treten!
share