Kontaktieren Sie uns

Data science, Sportwissenschaft

Modell­va­li­dierung am Beispiel der Super-Bowl-Vorhersage

05 Feb 21

Einleitung

Dieses Wochenende ist es wieder soweit. Der Super Bowl – das Finalspiel der American Football Saison – eines der grössten Einzel­sport­er­eig­nissen des Jahres findet in Tampa statt. Auch für die 55. Austragung dieses Events gibt es hunderte von Exper­ten­mei­nungen und Prognosen.

Auch der ameri­ka­nische Vorher­sa­ge­s­pe­zialist FiveThir­tyEight – ursprünglich gegründet für die Prognose von Wahler­gebnisse in den USA auf Basis von aufbe­reiteten Umfra­gedaten – hat sich in den letzten Jahren neben vielen anderen Themen und Sportarten vertieft mit dem Thema „American Football“ befasst und für die Teams der NFL ein ELO-Rating-System entwickelt, das ähnlich dem im Schach und anderen Sportarten verwendeten Punkte­system entspricht.

Dabei starten alle Teams/​Spieler mit der gleichen Punkte­anzahl. Nach einem Spiel werden dem siegreichen Team Punkte gutge­schrieben und dem anderen Team die gleiche Anzahl Punkte abgezogen. Für weitere Begeg­nungen berechnen sich dann aus der Differenz der beiden aktuellen Punkte­stände der Teams die Wahrschein­lich­keiten für einen Sieg oder eine Niederlage. Das Modell wurde dann von Nate Silver und seinen Mitar­bei­tenden um diverse sportart­spe­zi­fische Beson­der­heiten erweitert; die genauen Details sind in ihrem Metho­den­be­schrieb nachzulesen.

Für den Superbowl LV vom Sonntag sagt das Modell jetzt eine Gewinn­wahr­schein­lichkeit für die Mannschaft der Kansas City Chiefs von 53% voraus und – weil es am Schluss ja einen Sieger geben muss – für die gegne­rische Mannschaft der Tampa Bay Buccaneers ein Wahrschein­lichkeit von 47%. Doch wie sind diese Wahrschein­lich­keiten genau zu inter­pre­tieren?

Vorhersage der Wahrschein­lichkeit

Wenn das Spiel 100 mal statt­finden würde, müssten gemäss dem Modell die eine Mannschaft 53 der Begeg­nungen gewinnen und die andere deren 47. Das Spiel findet aber nur einmal statt und am Schluss wird nur eine Mannschaft gewinnen. Um also einen Tipp abzugeben würde man einfach die Mannschaft nehmen mit über 50% Gewinn­wahr­schein­lichkeit und hätte dann eine bessere Chance als bei einem rein zufälligen Tipp. Also ist für das einzelne Spiel gar nicht so entscheidend, ob das Modell jetzt 70% oder 53% Gewinn­wahr­schein­lichkeit vorhersagt.

Wenn man sich jetzt aber überlegt, dass Modell A jedes Jahr 53% zu 47% vorhersagen würde und Modell B jedes Jahr 70% zu 30% und der Gewinner über zehn Jahre jedes Jahr wechselt, wäre rückblickend klar, dass das Modell A besser war, obwohl beide Modelle den Gewinner in genau der Hälfte der Spiele korrekt vorher­gesagt haben. Modell A hat aber durch die Zahlen nahe bei 50% impliziert, dass die Entscheidung knapp sein könnte, wohingegen beim Modell B auffällt, dass mehrmals ein Team gewonnen hat, dem nur 30% Gewinn­wahr­schein­lichkeit zugesagt wurden.

Abbildung 1: Venn-Diagramm der künstlichen Intelligenz

Validerung der Vorhersagen

Das Modell von FiveThir­tyEight liefert Vorhersagen aller bisherigen 54 Superbowls, die wir im Detail auswerten können. Wenn man immer auf das Team tippt, das eine Wahrschein­lichkeit von über 50% für den Sieg hat, wäre man in 34 Fällen korrekt gelegen und hätte 20 mal auf den falschen Sieger getippt. Bei einem rein zufälligen Tipp müsste man langfristig bei 50% landen, somit sind die rund 63% Genau­gikeit des Modells schon mal deutlich besser. Aufgrund der Tatsache, dass nur die Superbowls für die Validierung benutzt und deshalb nur 54 Prognosen betrachtet werden, ist aber noch nicht klar, ob das Modell inhaltlich oder nur zufällig gut ist. Das 95%-Konfi­den­zin­tervall geht von 49% bis 76% womit noch eine Wahrschein­lichkeit von über 5% besteht, dass das Modell nur zufällig besser ist als Raten.

Natürlich kann man jetzt auch noch die „eindeutigen“ Vorhersagen anschauen, die einem Team eine Wahrschein­lichkeit von 2/​3 oder mehr geben für einen Gewinn. Vom Modell, das hier angeschaut wird, wurden 12 Spiele mit Wahrschein­lich­keiten von mehr als 66.6% vorher­gesagt. Aber auch davon waren 8 Vorhersagen korrekt und 4 nicht. Nur weil die vorher­ge­sagten Wahrschein­lich­keiten grösser sind, werden die Vorhersagen nicht wesentlich treff­si­cherer.

Test der Modell­ka­li­brierung

Schluss­endlich möchte man ja aber wissen, ob das Modell nicht nur den Sieger richtig vorhersagt sondern langfristig auch die richtigen Wahrschein­lich­keiten angibt. Dazu werden die 54 Vorhersagen in Teilbe­reiche aufge­trennt betrachtet: Alle Vorhersagen mit einer Sieges­wahr­schein­lichkeit für Team 1 von unter 40%, alle mit 40-50%, 50-60% und alle über 60% (da sich die Sieges­wahr­schein­lich­keiten von Team 1 und 2 zu hundert Prozent addieren, reicht es die Analyse für ein Team durch­zu­führen).

In einem perfekt kalibrierten Modell würde Team 1 langfristig rund 45% der Spiele gewinnen, die mit 40-50% Gewinn­wahr­schein­lichkeit vorher­gesagt werden und rund 55% der Spiele, die mit 50-60% Gewinn­wahr­schein­lichkeit vorher­gesagt sind. Das heisst in der Grafik mit den vorher­ge­sagten Wahrschein­lich­keiten und den tatsäch­lichen Häufig­keiten, würde das perfekte Modell genau durch eine Diagonale abgebildet. In einem sehr schlecht kalibrierten Modell ist diese Linie des Modells weit von der Diagonalen entfernt und/​oder hat gar nicht die Form einer Geraden, sondern sieht z.B. mehr wie ein um 90 Grad gedrehtes „S“ aus.

Abbildung 2: Lineares Modell von Grösse und Gewicht.

Zusam­men­fassung

In einem gut validierten und kalibrierten Modell sollten die vorher­ge­sagten Wahrschein­lich­keiten langfristig den tatsäch­lichen Häufig­keiten entsprechen. Da wir das Modell hier nur anhand von 54 Vorhersagen und Beobach­tungen beurteilen, ist natürlich eine kleine, statistisch aber nicht signi­fikante, Abweichung der Kalibra­ti­onslinie von der Diagonalen zu beobachten. Für genauere Aussagen müssten die Vorhersagen auf allen Saison­spielen auch noch in die Analyse mitein­bezogen werden; wobei ein ELO-Modell schon aufgrund der Konstruktion eine gute Kalibration aufweisen sollte.

Generell sind die Modelle für Vorhersagen von Sport-Veran­stal­tungen zum Glück noch nicht perfekt – wo würde dann die Spannung bleiben -, aber mindestens schon so gut wie viele Experten.