[Tech] Misteriosi errori ext3

Francesco Poli frx@firenze.linux.it
Dom 5 Ott 2003 17:36:43 CEST


Ciao a tutti!  :|
Venerdi pomeriggio, ho assistito ad un malfunzionamento molto sospetto
su una macchina RedHat 7.2 (con kernel Linux 2.4.18 personalizzato e
funzionante da molto tempo, filesystem ext3 su tutte le partizioni dei
due dischi fissi).

Un utente (mio amico) aveva una sessione Gnome aperta con vari
Gnome-Terminal e altre applicazioni. Ad un certo punto da` un "ls" nella
directory su cui stava operando e la vede vuota!

$ ls
$

Pensando di aver dato un "rm *" per sbaglio o qualcosa del genere prova
con "history" e l'effetto e` lo stesso che avrebbe ottenuto digitando
"logout": gli si chiude l'emulatore di terminale!

Mi chiede di dare un'occhiata e io assisto incredulo a questi stessi
comportamenti: la cosa e` dunque riproducibile... Provo con

$ ls -al
total 0
$

Il nulla! Neanche . e ..!
- Cosa sta facendo? Sta cancellando tutti i file?
Chiudiamo la sessione Gnome e notiamo diversi errori ext3 segnalati sul
terminale virtuale dal quale era stato dato il comando "startx"; nel
frattempo l'indicatore luminoso segnala ancora attivita` su disco.
Arrestiamo la macchina in maniera brutale con il pulsante power on/off.

Proviamo a riavviarla con Tomsrtbt (http://www.toms.net/rb/) e tutto
sembra normale. Montiamo alcune partizioni dei dischi fissi in sola
lettura e (a parte il recupero del journal dovuto allo shutdown non
pulito) ritroviamo tutti i file che il mio amico aveva gia` dato per
persi. Tutto sembra a posto...

A questo punto prendo Memtest86 (http://www.memtest86.com/) su floppy e
comincio il test standard della memoria centrale (nel caso della
macchina in questione, la capacita` e` 2 Gibyte, quindi richiede un po'
di tempo anche con CPU Athlon MP e frequenza di clock 1.53 GHz). Lo
lasciamo a girare per tutta la notte. Sabato mattina trovo che il test
(ripetuto circa 7 volte nell'arco della nottata) ha individuato un unico
indirizzo difettoso.

Proviamo a riavviare normalmente il sistema (dal primo disco fisso) e
tutto sembra normale (a parte, ovviamente, il recupero del journal sulle
rimanenti partizioni smontate in modo non pulito): i file apparentemente
spariti ci sono e la macchina sembra funzionare regolarmente. Adesso,
dopo un po' di trasferimenti di dati importanti verso altre macchine, la
macchina e` giu`.

Ora, le mie domande sono:

* E` possibile che un solo indirizzo bacato nella memoria centrale abbia
causato tutto questo? Oppure non ha nulla a che vedere?

* E` un'avvisaglia di un disco fisso che si sta per guastare?

* Idee? Suggerimenti?

-- 
             |  GnuPG Key ID = DD6DFCF4 | You're compiling a program
  Francesco  |        Key fingerprint = | and, all of a sudden, boom!
     Poli    | C979 F34B 27CE 5CD8 DC12 |         -- from APT HOWTO,
             | 31B5 78F4 279B DD6D FCF4 |             version 1.8.0
-------------- parte successiva --------------
Un allegato non testuale è stato rimosso....
Nome:        non disponibile
Tipo:        application/pgp-signature
Dimensione:  189 bytes
Descrizione: non disponibile
URL:         <http://lists.linux.it/pipermail/flug-tech/attachments/20031005/a70f4289/attachment.pgp>


Maggiori informazioni sulla lista flug-tech