Data Science, Diverse, Immobilien
Deduplizierungsmodell
Deduplikation von Immobilienanzeigen mittels Naive Bayes
vonThomas Maier
16 Apr 24
Für unsere Muttergesellschaft Wüest Partner haben wir eine Applikation implementiert zur Deduplikation von 60 Millionen Immobilienanzeigen aus Deutschland und der Schweiz mit Hilfe eines mehrstufigen Naive Bayes Modells.
Auslangslage
Immobilienplattformen veröffentlichen jährlich Millionen von Anzeigen für Mietwohnungen und Eigentumswohnungen. Der Markt für Immobilieninserate wird normalerweise von verschiedenen Plattformen bedient, was zu mehrfach publizierten Inseraten desselben Objekts führen kann.
Da die Quantifizierung und Modellierung des Immobilienmarktes durch Wüest Partner eine unverzerrte Datengrundlage erfordert, war das Ziel, die Immobilienanzeigen mit Hilfe eines Naive Bayes Modells zu deduplizieren.
Projektvorgehen
Wir verwendeten kommerziell verfügbare Immobilienanzeigendaten aus Deutschland und der Schweiz von 2012 bis 2019, die aus etwa 60 Millionen einzelnen Einträgen bestanden. Nach mehreren Datenbereinigungs- und Aufbereitungsschritten verwendeten wir eine Naive-Bayes-Gewichtung von 12-14 Variablen zur Berechnung der Ähnlichkeitswerte zwischen den Anzeigen und legten auf der Grundlage des Expertenurteils einen Verknüpfungsschwellenwert fest.
Die Deduplizierungs-Pipeline bestand aus drei Schritten:
- Verknüpfung von Anzeigen auf der Grundlage von Identitätsvergleichen
- Verknüpfung ähnlicher Anzeigen innerhalb kleiner regionaler Gebiete (Gemeinden)
- Verknüpfung ähnlicher Anzeigen innerhalb großer regionaler Gebiete (Kantone, Bundesländer)
Aufbau
Die Applikation wurde mit Docker-Containern und In-Memory-Berechnungen in R und Out-of-Memory-Berechnungen und Datenspeicherung in PostgreSQL aufgebaut. Die Deduplizierung verknüpfte die rund 60 Millionen Anzeigen mit rund 14 Millionen Objektgruppen (Deutschland: 10 Millionen, Schweiz: 4 Millionen). Die Verteilung der Ähnlichkeitswerte zeigte eine hohe Trennschärfe, und die resultierenden Objektgruppen wiesen eine hohe Homogenität in der geografischen Lage und Preisverteilung auf. Darüber hinaus stimmten die Jahresergebnisse gut mit den veröffentlichten Umzugsraten überein.
Erkenntnisse
Die Verwendung von Naive Bayes Rekordverknüpfung zur Deduplizierung von Immobilienanzeigen führte zu einer sinnvollen Gruppierung der Anzeigen in Objektgruppen (Mietwohnungen, Eigentumswohnungen). Wir waren in der Lage, Ähnlichkeiten zwischen verschiedenen Variablen zu einem einzigen Ähnlichkeitsscore zu kombinieren. Ein Vorteil des Ansatzes von Naive Bayes ist die hohe Interpretierbarkeit des Einflusses einzelner Variablen. Durch die manuelle Bestimmung der Verknüpfungsschwelle werden unsere Ergebnisse jedoch stark von möglichen Expertenverzerrungen beeinflusst. Das containerisierte R- und PostgreSQL-Setup bewies seine Portabilität und Skalierbarkeit. Der gleiche Ansatz kann leicht auf andere Bereiche übertragen werden, die eine Deduplizierung von multivariaten Datensätzen erfordern.
Mehr erfahren
Stehen Sie vor ähnlichen Herausforderungen oder haben Sie ein vergleichbares Projekt, bei dem Sie Hilfe benötigen? Dann zögern Sie nicht, unseren Senior Expert Data Scientist Thomas Maier zu kontaktieren.