Weiter zum Ihnhalt

Deduplizierungsmodell

10. September 2021

Text, Face, Clothing

Dedupli­kation von Immobi­li­en­an­zeigen mittels Naive Bayes

Für unsere Mutter­ge­sell­schaft Wüest Partner haben wir eine Appli­kation imple­mentiert zur Dedupli­kation von 60 Millionen Immobi­li­en­an­zeigen aus Deutschland und der Schweiz mit Hilfe eines mehrstufigen Naive Bayes Modells.

Auslangslage

Immobi­li­en­platt­formen veröf­fent­lichen jährlich Millionen von Anzeigen für Mietwoh­nungen und Eigen­tums­woh­nungen. Der Markt für Immobi­li­en­in­serate wird norma­lerweise von verschiedenen Platt­formen bedient, was zu mehrfach publi­zierten Inseraten desselben Objekts führen kann.

Da die Quanti­fi­zierung und Model­lierung des Immobi­li­en­marktes durch Wüest Partner eine unver­zerrte Daten­grundlage erfordert, war das Ziel, die Immobi­li­en­an­zeigen mit Hilfe eines Naive Bayes Modells zu dedupli­zieren.

Projekt­vorgehen

Wir verwendeten kommerziell verfügbare Immobi­li­en­an­zei­gendaten aus Deutschland und der Schweiz von 2012 bis 2019, die aus etwa 60 Millionen einzelnen Einträgen bestanden. Nach mehreren Daten­be­rei­nigungs- und Aufbe­rei­tungs­schritten verwendeten wir eine Naive-Bayes-Gewichtung von 12-14 Variablen zur Berechnung der Ähnlich­keitswerte zwischen den Anzeigen und legten auf der Grundlage des Exper­ten­urteils einen Verknüp­fungs­schwel­lenwert fest.

Die Dedupli­zierungs-Pipeline bestand aus drei Schritten:

  1. Verknüpfung von Anzeigen auf der Grundlage von Identitätsvergleichen
  2. Verknüpfung ähnlicher Anzeigen innerhalb kleiner regionaler Gebiete (Gemeinden)
  3. Verknüpfung ähnlicher Anzeigen innerhalb großer regionaler Gebiete (Kantone, Bundesländer)

Aufbau

Die Appli­kation wurde mit Docker-Containern und In-Memory-Berech­nungen in R und Out-of-Memory-Berech­nungen und Daten­spei­cherung in PostgreSQL aufgebaut. Die Dedupli­zierung verknüpfte die rund 60 Millionen Anzeigen mit rund 14 Millionen Objekt­gruppen (Deutschland: 10 Millionen, Schweiz: 4 Millionen). Die Verteilung der Ähnlich­keitswerte zeigte eine hohe Trenn­schärfe, und die resul­tie­renden Objekt­gruppen wiesen eine hohe Homogenität in der geogra­fischen Lage und Preis­ver­teilung auf. Darüber hinaus stimmten die Jahres­er­gebnisse gut mit den veröf­fent­lichten Umzugsraten überein.

Erkenntnisse

Die Verwendung von Naive Bayes Rekord­ver­knüpfung zur Dedupli­zierung von Immobi­li­en­an­zeigen führte zu einer sinnvollen Gruppierung der Anzeigen in Objekt­gruppen (Mietwoh­nungen, Eigen­tums­woh­nungen). Wir waren in der Lage, Ähnlich­keiten zwischen verschiedenen Variablen zu einem einzigen Ähnlich­keitsscore zu kombi­nieren. Ein Vorteil des Ansatzes von Naive Bayes ist die hohe Inter­pre­tier­barkeit des Einflusses einzelner Variablen. Durch die manuelle Bestimmung der Verknüp­fungs­schwelle werden unsere Ergebnisse jedoch stark von möglichen Exper­ten­ver­zer­rungen beein­flusst. Das contai­ne­ri­sierte R- und PostgreSQL-Setup bewies seine Porta­bilität und Skalier­barkeit. Der gleiche Ansatz kann leicht auf andere Bereiche übertragen werden, die eine Dedupli­zierung von multi­va­riaten Daten­sätzen erfordern.

Mehr erfahren

Stehen Sie vor ähnlichen Heraus­for­de­rungen oder haben Sie ein vergleichbares Projekt, bei dem Sie Hilfe benötigen? Dann zögern Sie nicht, unseren Senior Expert Data Scientist Thomas Maier zu kontak­tieren.