[Golem] conettivita' di internet

Franco Bagnoli bagnoli@dma.unifi.it
Mer 9 Maggio 2001 16:26:47 CEST


Cari Amici,

Insieme ad altri ricercatori (e a chi vuole collaborare) vorrei
"misurare" la connettivita' di internet. 

Mi direte: e' gia' stato fatto... 

Non e' proprio vero: ci sono le misure della connettivita' fisica, ma non
quelle della connettivita' effettiva, ovvero di come le persone usano
internet. In particolare, io sono interessato ai contatti personali, per
cui mi piacerebbe misurare la posta elettronica, per poi magari
paragonarla ad internet, alla rete di gnutella, ecc. (vedi
www.cybergeography.org).


Una possibilita' e' quella di lanciare un esperimento sul campo, come ho
accennato con l'idea di una chain letter scientifica. Pero' i dati vanno
poi "pesati" per cui vorrei prima (o al posto di) cercare di misurare 
il traffico e la connettivita' dai log dei server di posta, chiedendo la
collaborazione di vari provider.

Per far questo vorrei mettere a punto un filtro che analizzi i file di log
estraendo le informazioni rilevanti (ovvero, direi: i messaggi ricevuti
(non credo che ci sia scritto da chi sono venuti), e quelli ricevuti (e
non si sa da chi), e magari la distribuzione temporale, ovviamente
anonimizzando il tutto. 

Ovviamente non ho problemi a realizzare un filtro del genere su linux
(sendmail e probabilmente postfix) perche' ho a disposizione i file del
mio server, ma non conosco
i formati dei file di log di altri sistemi (altri gestori di posta,
windows, ecc.) Mi potete dare una mano? 
Come potete vedere dai messaggi allegati, occorre tenere presente gli
alias, e altre cose che sul mio serverino non sono (quasi) presenti. 

Avete voglia di collaborare, sia sviluppando il filtro (ma qui direi che
me la posso cavare da solo), sia eventualmente facendolo girare sui vostri
server o contattando provider, ecc. ? Il tutto e', ripeto, un'indagine
scientifica fatta da ricercatori dell'universita' di Firenze (io) e
dell'ICTP (International Center for Theoretical Physics) di Trieste.

Vorrei anche suggerimenti su come anonimizzare il tutto. Chiaramente
potrei semplicemente ricavare i totali, ma non mi dispiacerebbe incrociare
il tutto (per cui dovrei usare un digest in modo da "crittare" un
indirizzo mantenendolo unico). Idee? 

e infine, chi vuole partecipare (o conosce qualcuno che e' interessato) mi
contatti, e' in palio una citazione come coautore su una prestigiosa
rivista scientifica (se si trova una formula per fare una misurazione
mondiale probabilmente si puo' puntare a Nature). 

Infine: io ovviamente userei uno script bash o perl, ma per i lmondo
windows? (ma esistono server di posta microsoft?)

-- 
Franco Bagnoli
Dipartimento di Matematica Applicata "G. Sansone"
Universita' di Firenze, Via S. Marta, 3 I-50139 Firenze, Italy
tel. +39 0554796422, fax: +39 055471787
e-mail: bagnoli@dma.unifi.it


---------- Forwarded message ----------
Date: Tue, 8 May 2001 17:08:43 +0200 (MET DST)
From: VESPIGNANI ALESSANDRO <alexv@ictp.trieste.it>
To: bagnoli@dma.unifi.it
Subject: Richiesta di dati (fwd)


Ciao Franco,
grazie mille per l'e-mail. Ho dato un'occhiata al testo 
sui virus che mi sembra ottimo e piuttosto completo. 

riguardo il tuo progetto sulla chain letter, sono molto interessato e
disponibile a collaborare sull'idea. 
Da parte nostra, noi abbiamo gia fatto alcune cose in questa direzione
misurando a analizzando le statistiche degli e-mail spediti e ricevuti 
dagli utenti ICTP. Abbiamo anche fatto un appello per ottenere dati da
altri nodi, ma abbiamo avuto poche adesioni. Per migliorare le statistiche
abbiamo ancora bisogno di altri dati. Stavo pensando che foorse tu
ci potresti aiutare li da Firenze...magari conosci qualche providers???
Insomma non ti voglio scocciare, ma se hai 5 minuti te ne sarei grato. 

Ti accludo il mail che avevamo diffuso sul garr e che contiene il piccolo
script da far girare (sicuramente tu faresti di meglio). Lo ho passato
anche a dei provider locali che pero' mi hanno fatto storie per via degli
aliases etc. dicendomi che dovevo modificare lo script. 

-----------------------------------------------

From: Alvise Nobile <alvi@ictp.trieste.it>
To: discussione@garr.it
Subject: Richiesta di dati

Dei ricercatori che studiano il traffico e la connettivita` dell'Internet
mi hanno chiesto se e` possibile ottenere dati su 'quanti messaggi mandano
e ricevono gli utenti'.

Il tipo di dati che richiedono sarebbe accessibile solo agli
amministratori di posta, per cui invio la richiesta qui.

I dati necessari si possono ricavare dai log di posta, ovviamente del
tutto anonimizzati: quel che servirebbe sarebbe, per ogni utente
(ovviamente anonimo), quanti messaggi ha ricevuto e quanti messaggi ha
inviato), e non occorrerebbe una precisione estrema. Inoltre, sarebbe
necessario specificare la durata del periodo a cui i dati si riferiscono.

Io gli ho fornito i miei passando i log di sendmail attraverso un filtro
stupido tipo

for i in `cat passwd|awk '{print $1}'`;do
grep $i syslog|grep 'to='|wc -l >>output
grep $i syslog|grep 'from='|wc -l >>output
echo '---' >>output
done

Se qualcuno fosse cosi` cortese da voler contribuire questi dati ,
potrebbe inviarli a me o direttamente a vespignani@ictp.trieste.it.

Ringraziando

Alvise Nobile

--
Alvise Nobile				Scientific Computing Section
The Abdus Salam International Centre for Theoretical Physics 
str. Costiera 11 - I-34100 Trieste - Italy    Tel.: +39 040 2240 111






Maggiori informazioni sulla lista golem