[ImoLUG] Open source OLAP tool ?

Riccardo Govoni ☢ battlehorse@gmail.com
Lun 29 Dic 2008 10:38:58 CET


Ciao virgilio,lo sapevo ( e un po' ci speravo ) sul fatto che avrei
scatenato la tua immaginazione :-)

Un po' di informazioni di contorno :
- non ho bisogno di un ETL, perche' ho gia' un anno di codice alle spalle
che si e' consolidato in un accrocchio che funziona decentemente e non mi va
di riscriverlo. L'accrocchio in questione sostanzialmente macina file di
testo e popola un mysql
- non ho bisogno di tool di visualizzazione / reportistica, perche' al
momento esporto tutti i miei dati come sorgenti
GViz<http://code.google.com/apis/visualization/documentation/dev/implementing_data_source.html>e
quindi uso le visualizzazioni
associate <http://code.google.com/apis/visualization/> .

Posto che non ho ben chiara la distinzione dei tre casi che mi hai
presentato, penso di essere piu' vicino al secondo:
Date le 5-6 entita' chiave che costituiscono la mia base dati, ho bisogno di
effettuare estrazioni del classico tipo: estrai X,Y filtra su Z group by W .

dove x,y,z,w etc sono una qualunque delle 5-6 entita di cui sopra. In questo
caso l'approccio a cubi precalcolati mi sembra  il migliore, perche' a) i
dati cambiano una volta al giorno , b) o schianto mysql di indici, o e'
costretto ad andare in tablescan la maggior parte delle volte.

I dati che escono dai suddetti cubi me li gestisco io, e li espongo al
client con le mie visualizzazioni. Cio' che mi manca e lo strumento che
prenda il mio mysql e si metta a fare i cubi in questione. E al momento
risolvo a mano rigenerando ogni giorno delle tabelle con i 2-3 cubi chiave
che mi servono, ma vorrei automatizzare la cosa.

Mondrian mi sembrava la soluzione giusta, anche se, appoggiandosi
direttamente al dbms sottostante, non mi e' chiaro quanto le sue funzioni di
caching siano smart nel fare cio' che serve a me.

Riassumendo:
dbms relazionale da un lato, visualizzatore di estrazioni tabulari
dall'altro, mi serve un denormalizzatore che prenda il suddetto db e me lo
spezzi nelle varie dimensioni possibili.

Avessi uno straccio di competenze in ambito dwh, sicuramente potrei
esprimere quanto sopra con un gergo piu' efficace, ma ahime' ...
/R.

2008/12/29 virgilio pierini <virgilio.pierini@gmail.com>

> smetto di mangiare una esagerata fetta di panettone e ti rispondo perchè
> l'argomento mi intrippa non poco :)
> hai bisogno di strumenti per realizzare un datawarehouse (intendo qualcosa
> che si esprime con un dbms) o un sistema di BI (ovvero cerchi di soddisfare
> i requisiti con la reportistica, la quale comanda inevitabilmente il
> disegno) o un sistema BPM (fa figo differenziare questi sistemi più
> orientati alla pianificazione, pki, imputazione utente, what-if)?
>
> nel primo dei tre casi ti serve soprattutto un ETL, quello di pentaho
> (kettle) ha una buona storia di sviluppo alle spalle, è java e permette
> agevolmente delle estensioni. L'ho usato in varie occasioni e ti permette di
> arrivare in fondo ai progetti. Altro strumento che ha una buona reputazione
> è Talend
> http://www.talend.com/products-data-integration/talend-open-studio.php(una volta produceva codice perl, adesso non so se è stato esteso). Sulla
> carta è migliore per architettura e connettori, ma non l'ho mai provato.
>
> nel secondo caso hai bisogno di una suite di reporting (una volta che hai
> il cubo mondrian con cosa ti guardi i dati? di solito con jfreereport) e qui
> consiglierei pentaho, che mi sembra più lively. Occhio che l'approccio a
> cubi (vedi il vecchio Hyperion) è abbastanza differente rispetto a
> datawarehouse fatto con le tabelle mysql (vedi i vari testi sacri di
> kimball): hai dei confini un po' più rigidi, l'analisi è meno flessibile, la
> morte sua effettivamente è l'aggregazione precalcolata e le simulazioni
> what-if. Per quanto ne so anche spago-bi usa mondrian...
>
> per il terzo ... beh... fire your eclipse and start coding
>
> torno al panettone
> ciao!!!
>>
>
> 2008/12/26 Massimo Azzolini <massimo.azzolini@gmail.com>
>
> ciao,
>>
>> non gioco mai con questi aggeggi, ma mi hanno parlato bene di
>> www.spagobi.org
>>
>> se non ho capito male è OS anche questo
>>
>> cia'
>>
>> PS. ho ancora il pandoro in mano, io :)
>>
>> P. J. O'Rourke  - "Cleanliness becomes more important when godliness is
>> unlikely."
>>
>> 2008/12/26 Riccardo Govoni ☢ <battlehorse@gmail.com>
>>
>> Hola boys,
>>> basta mangiare panettone mattina mezzogiorno e sera, e' ora di pensare
>>> a qualcosa di serio.
>>>
>>> Avete suggerimento per un buon tool OLAP / Datawarehousing opensource ?
>>> L'unico che conosco e' questo ( in Java ): http://mondrian.pentaho.org/
>>>
>>> Che non mi andrebbe neanche male, ma vorrei valutare qualche alternativa.
>>>
>>> L'esigenza che e' quella di aggregare un 20 milioni di entries con un
>>> ritmo di crescita di ~5M/mese in 5-6 dimensioni diverse. E fare il
>>> tutto a suon di indici di MySql chiaramente non va molto lontano ...
>>>
>>> Buon natale! ( in ritardo ),
>>> /R.
>>> --
>>> Mailing list info: http://lists.linux.it/listinfo/imolug
>>>
>>>
>>
>> --
>> Mailing list info: http://lists.linux.it/listinfo/imolug
>>
>>
>>
>
> --
> Mailing list info: http://lists.linux.it/listinfo/imolug
>
>
>
-------------- parte successiva --------------
Un allegato HTML è stato rimosso...
URL: <http://lists.linux.it/private/imolug/attachments/20081229/84a7a2a1/attachment.htm>


Maggiori informazioni sulla lista ImoLUG