Kontaktieren Sie uns

Data science

Pride Month & Monte Carlo

09 Jul 21

Am 30. Juni ging der “Pride Month” zu Ende. Jeden Juni ruft die LGBTQ-Szene damit zu mehr Toleranz auf. Trotz weltweiter Aktionen im letzten Monat ist Homose­xualität noch immer nicht in allen Staaten legal. Wir haben ein Monte-Carlo-Modell erarbeitet, um die diesbe­zügliche Entwicklung vorher­zusagen.

Daten­grundlage

Unser Modell basiert auf Daten der Open-Data-Plattform “Our World in Data”. Konkret beinhaltet das Dataset für jedes Jahr zwischen 1791 und 2019 die Anzahl Staaten, in denen gleich­ge­schlechtliche sexuelle Handlungen nicht als Straf­bestand gelten (Abbildung 1).

Abbildung 1: Venn-Diagramm der künstlichen Intelligenz

Bereits von blossem Auge lassen sich inter­essante Dinge feststellen: Der Trend ist klar nicht linear, sondern beschreibt im beobachteten Zeitraum eher eine exponen­tielle Zunahme. In den letzten 50 Jahren hat sich die Anzahl Staaten ohne Verbot mehr als verdoppelt und lag im Jahr 2019 bei 133, also bei 68% der 195 weltweiten Staaten. Zum Vergleich: In der Schweiz sind homose­xuelle Handlungen seit 1942 legal.

Model­lierung

Definition der Grund­an­nahmen

Wie jedes Modell basiert auch unsere Vorhersage auf einigen Annahmen. Die wichtigste davon war, dass wir bei der Entwicklung von einer logis­tischen Funktion ausgingen. Die logis­tische Funktion ist eine S-förmige Kurve, welche in der Natur­wis­sen­schaft und auch in der Soziologie viele Phänomene beschreibt: Nach einem flachen Beginn quasi ohne Entwicklung steigt die Kurve in der Mitte steil an, um dann gegen den maximalen Wert hin wieder abzuflachen.

Weiter mussten wir auch über die verschiedenen Parameter der logis­tischen Funktion (Kennzahlen, welche die Eigen­schaften der Kurve wie Minimalwert, Maximalwert, Wendepunkt oder Krümmung bestimmen) Voran­nahmen treffen. Diese Voran­nahmen (oder “Priors”) dienen in sogenannten “bayesia­nischen” Modellen wie dem unseren dazu, konkretes Vorwissen in die Model­lierung einfliessen zu lassen. Beispielsweise gaben wir dem Modell vor, dass der theore­tische Maximalwert von 195 Staaten nicht überschritten werden dürfe.

Anpassung an die Daten

Um die logis­tischen Funktion den Daten anzupassen, also um die am besten passenden Parameter zu finden, verwendeten wir eine “Markov Chain Monte Carlo” Methode. Dabei werden zufällig (daher “Monte Carlo”) tausende Ziehungen aus dem Raum möglicher Parameter gemacht. Der Algorithmus bestimmt, welche Kombi­na­tionen von Parametern in Anbetracht der Daten und der Grund­an­nahmen am wahrschein­lichsten sind und gibt für jeden Parameter eine Verteilung möglicher Werte aus (sog. “Posteriors”). Anhand dieser Posteriors der Kurven­kenn­zahlen kann dann die weitere Entwicklung der Kurve und deren Unsicherheit abgeleitet werden.

Resultat

Abbildung 2 zeigt die Vorhersage der Entwicklung ab 2019 mit dem entspre­chenden Unsicher­heits­bereich (sog. Vorher­sa­gein­tervall; grün).

Der Maximalwert der Kurve, also die maximale Anzahl an Staaten ohne Verbot, welche theoretisch nie überschritten wird, liegt zwischen 181 und 195. Der Wendepunkt der Kurve, also das Jahr, in welchem diese von einer zuneh­menden in eine abnehmende Steigung übergeht, liegt zwischen 2022 und 2030.

Zudem sollten gemäss Modell ca. im Jahr 2050 90% aller Staaten das Verbot von Homose­xualität abgeschafft haben.

Abbildung 2: Lineares Modell von Grösse und Gewicht.

Transfer auf andere Probleme

Unser Modell ist imstande, fachspe­zi­fische Grund­an­nahmen aufzu­nehmen und diese zusammen mit den beobachteten Daten in eine Vorhersage umzumünzen. Dies kann bei der Anwendung in verschiedenen Bereichen ein Vorteil sein. Konkret überall dort, wo spezi­fisches Fachwissen vorhanden ist, welches nicht direkt in den Daten vorkommt, aber für die Lösung eines Problems relevant ist.

Haben Sie Daten, die Sie mit ihrem Fachwissen kombi­nieren und so als Modell nutzen möchten? Zögern Sie nicht, mit uns in Kontakt zu treten!