[ImoLUG] Netflix Prize: un problema da 1 milione di dollari

Riccardo Govoni battlehorse@gmail.com
Gio 29 Maggio 2008 00:17:13 CEST


eeeh, magari.

Fino a ottobre 2007 ho lavorato per una azienda del Poli di Milano (
http://www.neptuny.it ) su un prodotto ( ContentWise ) che guarda cosa
serve apposta a generare suggerimenti e recommendation per contenuti
IPTV . Hai presente Amazon quando dice "se hai preso questo libro,
puoi essere interessato anche a questo e questo?" . Stessa cosa, ma
con i video. Il contest lanciato da Netflix e' esattamente la stessa
cosa.

L'ultima volta che ho dato un'occhiata, aka novembre 2007, i migliori
'predittori' erano algoritmi di clustering SVD (
http://en.wikipedia.org/wiki/Singular_value_decomposition,
http://portal.acm.org/citation.cfm?id=1097108.1097187 ) e/o sistemi di
graph-compression ( che alla fine e' la stessa cosa) fatti su
matricioni grandi come capanne ( leggi :  oltre ~ 300K utenti x ~ 3M
contenuti video ). Io lavoravo con il primo, per un'accrocchio
commissionato da FastWeb per fornire recommendation sui contenuti
disponibili sulla loro TV via internet.

Mi piacerebbe molto, ma bayesfor ha ancora un sacco di strada da fare
per arrivare la' ( siamo un po' a corto di manpower, anzi stavo
proprio pensando di lanciare un annuncio alla ricerca di sviluppatori
qui sul lug ). La voglia c'e' , e' il tempo che manca, tanto per
cambiare!

Aloha!
/R.


On Wed, May 28, 2008 at 6:22 PM, Fabio Fabbri <fabio@llgp.org> wrote:
> Vagabondando per internet, ho scoperto il Netflix Prize
>
> http://www.netflixprize.com/
>
> Netflix è il più grande noleggiatore online di DVD, ed ha un sistema di
> rating dei film in cui gli utenti possono dare un voto in "stelle" da 1 a 5.
>
> Nel concorso viene fornito un set di dati con circa 100 milioni di voti
> provenienti da circa 500 mila utenti su 18 mila film. Si deve creare un
> sistema che "preveda" il voto che darebbe un utente di questo campione
> ad uno di questi film, generando circa 3 milioni di stime su cui sarà
> testato il sistema (ovviamente gli organizzatori conoscono i voti che
> sono stati dati realmente su questo set...)
>
> Netflix ha già un sistema, detto "Cinematch", che su quel set di dati ha
> una performance (misurata con la radice dell'errore quadratico medio,
> RMSE) di 0.9525. Chi riesce a sviluppare un sistema con una performance
> migliore del 10% (RMSE 0.8563) si porta a casa il premio di un milione
> di dollari. Inoltre, di anno in anno, viene assegnato un premio di
> 50.000$ alla soluzione che raggiunge un traguardo parziale, fissato di
> anno in anno (è partito nel 2006 ed è stato assegnato un premio nel 2007).
>
> Alcuni si stanno avvicinando al traguardo, e non so se sarei all'altezza
> della sfida... Qualcuno ci vuole provare? Appena ho letto l'articolo ho
> pensato a Riccardo Govoni e a BayesFor, magari potrebbe essere pane per
> i loro denti; comunque giro il link per conoscenza alla mailing list...
>
> Fabio Fabbri
> --
> Mailing list info: http://lists.linux.it/listinfo/imolug
>
>


Maggiori informazioni sulla lista ImoLUG