Data voorspellen: deze tien restaurants krijgen Michelinster

Data voorspellen: deze tien restaurants krijgen Michelinster

Michelin presenteert maandag 13 januari haar sterren voor 2020. De branche speculeert al weken: wie krijgt er zijn eerste ster? Welke chef komt in aanmerking voor een tweede? Dataspecialist Cmotions doet het anders en geeft een voorspelling af op basis van 400.000 restaurantreviews.

In de Michelingids voor 2019 staan 110 sterrenrestaurants. Cmotions waagt het daar tien restaurants aan toe te voegen die volgens dit bureau – op basis van dataonderzoek – een ster krijgen.

Waar kenners hun voorspellingen vooral baseren op culinaire gronden – Michelin kijkt immers naar de kwaliteit van het eten en de werkwijze van de chef – komen onderzoekers van Cmotions met een andere kijk op het aanwijzen van de winnaars.

Het bureau specialiseert zich in de toepassing van data science om tot inzichten te komen. Op basis van deze expertise denkt het bureau te weten welke restaurants volgende week hun eerste ster in ontvangst mogen nemen.

De tien voorspelde Michelinsterren

  • Marque, Hoorn
  • De Portier, Nijmegen
  • De Gaffel, Valthe
  • Villa la Ruche, Voorburg
  • Hofstede Meerzigt, Zoetermeer
  • 6&24, Den Haag
  • Delicees, Dordrecht
  • Rue de la Plume, Alkmaar
  • De Ertepeller, Papendrecht
  • Bak, Amsterdam

Redactie: De bistro  van De Ertepeller is in bezit van een Bib Gourmand, deze kan dus geen ster krijgen. Het restaurant wel.

‘Wij zien de uitreiking maandag ook met spanning tegemoet. Dan pas weten we hoe goed ons model voorspelt of dat Michelin ook voor ons ondoorgrondelijk blijft,’ zegt Cmotions.

Het dataonderzoek

Data scientists van Cmotions verzamelden meer dan 400.000 restaurantreviews op sites als The Fork (voorheen Iens) vanaf 2013. Daarbij keken ze niet alleen naar de scores, maar juist ook naar de geschreven tekst – iets dat volgens Cmotions nog maar weinig gebeurt: ‘Tekst is overal, maar wordt nog (te) vaak genegeerd in analyses omdat het geen cijfermatige data is.’

Om de tekst bruikbaar te maken voor data-analyse moest deze wel eerst worden opgeschoond. Dit deden de onderzoekers onder meer door het schrappen van hele korte reviews – die volgens de onderzoekers onvoldoende inzicht bieden –, door de reviews te filteren op stopwoorden (zoals et cetera, namelijk en waarschijnlijk), en door alleen woorden mee te nemen die minimaal tien keer voorkomen.

Vervolgens namen ze de gezuiverde dataset uitgebreid onder de loep. Iemands waardering voor een restaurant is uiteraard afhankelijk van diverse criteria, zoals de kwaliteit van het eten, de bediening en de sfeer. Met een specifieke tekstanalysetechniek (‘topic modeling’ om precies te zijn) wisten de onderzoekers deze impliciete criteria uit de reviewteksten naar voren te halen.

Recensies versus Michelin

De criteria die een goede recensie bepalen, hoeven echter niet overeen te komen met de criteria voor het veroveren van een Michelinster. Daarom werd tevens in kaart gebracht welke variabelen goede voorspellers zijn voor het hebben van een Michelinster.

Voor de volledigheid werd ook nog eens gekeken naar het sentiment dat in de online reviews naar voren kwam – waarbij positieve woorden een score van +1 opleveren en negatieve woorden een score van -1 –, naar de lengte van de reviews, en naar het aantal reviews dat de recensent heeft geschreven.

87 procent correct

Al deze informatie werd meegenomen in de voorspelling. Door al deze gegevens een rol te laten spelen wist Cmotions naar eigen zeggen in 87% van de gevallen correct te voorspellen welke restaurants momenteel al in het best zijn van een Michelinster.