Kontaktieren Sie uns

Data science, Diverse, News

Predicting painting sales using computer vision and machine learning

07 Apr 21

Wir unter­stützten Cyrill Püntener bei seiner Semes­ter­arbeit zum Thema Kunst­be­wertung mit einem Datensatz aus unserem Kunst­projekt.

Cyrill Püntener studiert im 3. Semester Informatik an der ETH Zürich. Für seine Semes­ter­arbeit zum Thema «Data Science for Decision-Making» hat er sich auf der Suche nach einem realen Datensatz an Datahouse gewendet. Weil wir junge Talente gerne unter­stützen und aktuell im Kunst­bereich mit Daten­analysen experi­men­tieren, haben wir ihm einen passenden Datensatz zur Verfügung gestellt. Wir freuen uns sehr über seine hochstehende Arbeit und seinen Erfah­rungs­bericht.

Was war das Ziel deiner Semes­ter­arbeit?

Ergänzend zu einer eher theoretisch orien­tierten Vorlesung, sollten wir das erlernte Wissen im Rahmen einer Semes­ter­arbeit auf realen Daten­sätzen praktisch anwenden. Die Vorlesung mit dem Titel «Building a Robot Judge: Data Science for Decision-Making» beschäftigte sich mit Machine Learning im Bereich von Exper­ten­ent­schei­dungen, also zum Beispiel mit der Schätzung von Kunst­werken.

Auf der Suche nach einem passenden Datensatz, wandte ich mich an Datahouse. Freund­li­cherweise konnten sie mir einen Datensatz einer weltweit tätigen Kunst-Plattform zur Verfügung stellen, wo Gemälde im tiefen Preis­segment angeboten werden. Neben dem Verkaufspreis, dem Namen des Künstlers und dem Titel des Kunst­werkes, enthielt der Datensatz noch viele weitere öffentlich zugängliche Metadaten zu den Kunst­werken. Ziel meiner Arbeit war es mithilfe von Machine Learning voraus­zusagen, ob ein Bild zu gegebenem Verkaufspreis auch effektiv verkauft wird.

Wie hast du dich in das Thema Kunst­be­wertung einge­ar­beitet?

Als ETH Student war mir die Welt der Kunst­be­wertung zu Beginn meiner Arbeit ziemlich fremd, umso wichtiger ist es sich entsprechend einzulesen. So habe ich einige wissen­schaftliche Paper zum Thema gelesen, den «Global Art Market Report» der Art Basel und der UBS studiert und mich über Umwege mit einem Kunst­stu­denten aus Venedig ausge­tauscht. Dieser erzählte mir, dass er den Verkaufspreis seiner Kunstwerke mit folgender Daumenregel festlegt:

Preis in Euro ≈ (Höhe in cm + Breite in cm) * Karrie­restufe

Wobei Karrie­restufe einer Zahl zwischen 10 für Studenten, 20 für Künstler ohne Vertretung und 25 beim Verkauf über eine Galerie entspricht. Für bekannte Künstler ist dem Wert der Karrie­restufe keine Grenze gesetzt.

Mit welchen Methoden hast du dich mit dem Datensatz vertraut gemacht?

In einem ersten Schritt habe ich versucht, jeden Parameter zu verstehen. Welche Daten habe ich überhaupt zur Verfügung? Wie wurden diese erhoben? Dazu gehört auch zu recher­chieren, wie beispielsweise Kunstwerke auf der Plattform erfasst und behandelt werden.

Wichtig ist in diesem Schritt auch eine Quali­täts­kon­trolle der einzelnen Features zu machen. So stellt sich beispielsweise heraus, dass der Durch­schnitt aller Bewer­tungen bei 4.9 von 5 Sternen lag. Negative Bewer­tungen gab es so gut wie keine. Für meine weitere Unter­suchung hiess dies, die Künst­ler­be­wertung ist wertlos.

In einem zweiten Schritt ging es darum Zusam­menhänge zwischen den Features zu finden und zu analy­sieren. Hierbei ist Auspro­bieren das A und O. So habe ich unzählige Tabellen, Grafen und Grafiken erstellt. Daraus entstand auch die folgende Übersicht, die den Zusam­menhang zwischen dem durch­schnitt­lichen Preis (mean_­lo­g_price), der Anzahl Bilder (log_sum) und dem Anteil der verkauften Kunstwerke (mean_is_in­_stock) eines Landes (a) bzw. pro Künstler (b) zeigt. Solche Grafiken helfen ein vertieftes Verständnis des Daten­satzes zu erlangen.

Abbildung 1: Venn-Diagramm der künstlichen Intelligenz

Welche Machine Learning Modelle hast du eingesetzt und wie hast du diese ausgewählt?

Grund­sätzlich habe ich zwei Typen von Modellen auf den Datensatz losge­lassen. Modelle des Typ I versuchen dabei den Preis eines Kunst­werkes vorher­zusagen, Modelle des Typs II versuchen vorher­zusagen, ob das Bild effektiv verkauft wird oder nicht.

Für beide Typen von Modellen habe ich jeweils verschiedene Ansätze ausprobiert und miteinander verglichen. Von klassischen, statis­tischen Methoden, wie «Lasso» oder «Ridge Regression» bis hin zu grossen «Convo­lu­tional Neural Networks». Letztere sind heutzutage Standard in der Bilder­kennung.

Schematisch kann man solche Modelle wie folgt darstellen. Jede Box stellt dabei eine Teilkom­ponente des jeweiligen Modells dar. CNN steht eben für ein solches «Convo­lu­tional Neural Network», das ein Bild als Eingabe nimmt und eine Reihe an Zahlen als Ausgabe zurückgibt. Diese Zahlen lassen sich anschliessend mit weiteren Faktoren zu einer Voraussage des Preises kombi­nieren.

Abbildung 2: Lineares Modell von Grösse und Gewicht.

Nun da du den Preis von Kunst­werken vorhersagen kannst, ist das der Weg zum Millionär?

Nein, ganz bestimmt nicht. Das Bewerten von Kunst­werken ist keine exakte Wissen­schaft – Kunst ist subjektiv. Daher ist es auch nicht weiter verwun­derlich, dass die Vorhersagen meiner Modelle teils weit daneben lagen.

Ist deine Arbeit also ein Misserfolg?

Nein, das auch nicht. Erstens habe ich persönlich während des Arbeits­pro­zesses extrem viel neues gelernt, dass sich so auch in weiteren Projekten anwenden lässt. Für mich ist das Abschliessen meines ersten wissen­schaft­lichen Papers bereits ein riesiger Erfolg. Zweitens ist ein ungenaues Modell nicht direkt mit Misserfolg gleich­zu­setzen. Ich bin überzeugt, dass sich die Resultate mit weiteren Daten und neuen Ansätzen noch verbessern liessen. Es bleibt ein spannendes Forschungs­gebiet.

Wie würdest du weiter­fahren, wenn du zusätzliche Entwick­lungs­res­sourcen hättest?

Einerseits wie bereits angesprochen mit weiteren Daten­sätzen. In dieser Arbeit ging es nur um Gemälde aus dem unteren Preis­segment. Zudem stützt sich meine Arbeit auf eine Moment­aufnahme aus dem März 2020. Im Zusam­menhang mit Corona hat sich aber gerade im digitalen Kunstmarkt einiges getan. Den zeitlichen Verlauf der Kunstwerke auf der Plattform zu unter­suchen, wäre sicherlich höchst spannend und aufschlussreich.

Andererseits lassen sich auch noch weitere Modelle auf die bereits vorhandenen Daten anwenden. Gerade im Bereich der Neuronalen Netzwerke hat die Auswahl und Konstruktion der Modelle eher einen künst­le­rischen Charakter, als deren einer streng wissen­schaft­lichen Vorge­hensweise.

Was hat dich im Verlauf deiner Arbeit am meisten überrascht?

Die Vielsei­tigkeit des Themas. Kunst ist ein weiter Begriff, ebenso das Feld des Machine Learnings bzw. der Daten­analyse. Treffen die beiden aufeinander, so sind die Möglich­keiten schier unendlich.

Welche Tipps hast du für andere angehende Data Scientists?

Probieren, probieren und noch einmal probieren.

Für die Daten­analyse gibt es kein Patent­rezept. Viele Zusam­menhänge lassen sich nur durch intensive Ausein­an­der­setzung mit dem Datensatz finden. Offen­sichtliche Zusam­menhänge oder auffällige Muster stellen sich bei genauem Hinsehen oft auch als irreführend heraus. Das gleiche gilt bei der Auswahl der Modelle. Gebt daher nicht zu früh auf, Durch­hal­te­willen lohnt sich!