[Flug] R: Re: corsi data mining da itnernet

Carlo Baffa baffa@arcetri.astro.it
Mar 7 Maggio 2013 22:20:07 CEST


On Tue, 7 May 2013, amengoni29@inwind.it wrote:

> Grazie tante Carlo,
>
> apprezzo moltissimo i tuoi suggerimenti.....la volta scorsa sono riuscito a
> ripartire da ubuntu con il sistema in crash...adesso sto  provando open suse.
>
> riguardo al progetto. l'obiettivo sarebbe di tirare giu' con delle macro dei
> dati da internet al minuto. Sono dati finanziari di borsa. Vediamo molto
> grossolanemente sulla borsa italiana ci sono circa 400 titoli e dunque una
> rilevazione al minuto per 400 titoli per 8,5 ore fanno 204 mila dati al giorno
> con uno stock di minimo  1 anno sono 74 milioni
>
> dal momento che il pc dovrebbe rimanere sempre acceso meglio utilizzare
> raspberry consuma meno......ma risucirà a fare il lavoro ?
>
> inoltre e' vero i formati sono balordi e spesso mi sono bloccato......ma
> comunque è un livello di difficoltà anche questo....
> come credi mi possa muovere ?
>

Ciao

Prima di muoverti, secondo me, devi chiederti che cosa ci vuoi fare con dati 
come questi. I dati di borsa hanno un andamento 'caotico' (e' un termine 
tecnico: http://it.wikipedia.org/wiki/Teoria_del_caos). Se sei interessato a 
questi dati perchè studi economia, o fai indagini di costume, va bene. Se 
pensi di usarli per prevedere o speculare, beh, ti posso dire che ho scoperto 
che ci sono decine di organizzazioni, in giro per il mondo, che cercano di 
fare la stessa cosa, con risultati positivi, ma limitati, e hanno a 
disposizione schiere di analisti e di programmatori. Lo spazio per i 'piccoli' 
non dico che non ci sia, ma penso sia limitato, e che ci sia da aspettarsi un 
percorso molto lungo.

Riguardo poi al raspberry come macchina da usare, posso dirti che tenere 
acceso un oggetto 24 ore al giorno costa circa 1 euro al watt per anno. Magari 
un server di tipo compatto, da 20W (il PI ne consuma 4-5) con disco rigido può 
farti più gioco. Il lavoro è grosso, tu parli di 74 milioni di numeri all'anno 
solo per la borsa italiana.

Riguardo poi ai dati, so che ci sono organizazzioni che li vendono a prezzi 
contenuti in formati comodi, un mio amico ha un abbonamento. Quanto vale il 
tuo lavoro? Al solito se lo fai come sfida o come divertimento va tutto bene, 
ma se vuoi guadagnarci, fa bene i tuoi conti. Inoltre se fai questo genere di 
'data collection', passa a strumeti più comodi e potenti, come python, perl, 
php, o simili.

Detto questo dove metti i dati? Se usi un database, scordati la cartuccia SD, 
la bruci in fretta, e non avrebbe le dimensioni adatte. Un file di testo che 
si estende andrebbe già meglio.

Detto questo mi hai incuriosito: che conti di fare?
Ciao
Carlo

----
  Dott.Carlo Baffa              INAF - Osservatorio Astrofisico di Arcetri
  baffa@arcetri.astro.it             Largo Fermi 5   I-50125-Firenze ITALY
  http://www.arcetri.astro.it/~baffa                 Fax (+39) 055 5609713
-------------------------------------------------------------------------
  http://www.skysoft.org           The new Astronomical Software Directory


Maggiori informazioni sulla lista flug