[gl-como] watchdog

Ruggero ruggero@valtellinux.it
Lun 12 Dic 2005 00:19:09 CET


Pirla ha scritto alle 23:02, sabato 10 dicembre 2005
> Magari a te oggi non viene in mente nessuna situazione nella quale un
> sistema del genere possa farti comodo.
> Chissa col tempo...
Che vespaio che ho tirato in piedi.... ;-))

> Io credo che a chi ha iniziato il thread questa soluzione sia venuta in
> mente leggendo qualche articolo su watchdog (ricordo che ne fecero
> alcuni su Linux journal per esempio), ed ha pensato che potesse
> servirgli.
Ecchime,
vi "presento" la fattispecie incriminata:

server "fatto-in-casa" con hw fallato (controller ide) che dopo 7/8 ore di 
funzionamento si pianta, provocando un errore sul disco che a sua volta causa 
il remount della partizione di root in read-only....
dato che:
- la forensica di quella macchina non mi interessava;
- non potevo schiacciare il bottone di reset da 100 km di distanza (e non 
conosco altri modi per provocarlo) 
- non potevo essere fisicamente presente per assistere il "paziente"

...ho ovviato al problema con un bel wdg che mi lasciava 7/8 ore di tempo per 
poter lavorare su quella macchina e di clonarne il disco (il down-time era 
relativamente basso, le partizioni erano tutte reiserfs)...

> Bisognerebbe fargli capire che per un server non è una soluzione adatta,
> in quanto lo spegnimento brutale del server comporta una serie di
> problemi, primo fra tutti la corruzione dei file system, per non parlare
> di eventuali log non scritti ed altre cose che a chiunque possono venire
> in mente.
Sarà pure la soluzione meno adatta ma nel caso specifico HeartBeat e compagni 
non si sarebbero nemmeno accorti del problema:
il "ping" ethernet tra le macchine avrebbe continuato a funzionare, cosi' come 
quello (ridondante) via seriale e via via i vari controlli sui servizi, samba 
compreso.

Flame: http://www.google.it/search?hl=it&q=linux+heartbeat+%2Fdev%2Fwatchdog
se è nominato (seppur come opzione) non sarà del tutto inutile....

> Però potrebbe rivelarsi l'unica soluzione.
Non sarà l'unica e nemmeno la più elegante, certamente è l'estrema ratio, ma 
lo troviamo montato sui sistemi high-end e su quelli mission-critical (vedi 
NASA) persino negli "accrocchi" con linux-embedded ci sono i wdg...

nell'articolo di LinuxFocus dal quale ho tratto il circuito la filosofia è 
descritta bene: "è una cosa in piu', speriamo non si attivi mai ma è meglio 
che ci sia"...
link: http://cgi.linuxfocus.org/English/July2002/article239.shtml

> Quanti, quando un server non funziona più, schiacciano il pulsante per
> riaccendere la macchina, e dopo cominciare a fare qualche analisi per
> capire cose è successo?
Direi che è un'abitudine nata ai tempi delle "Nuove Finestre Tecnologiche" 
dove a macchina "congelata" c'era ben poco da fare e sicuramente nessuno 
faceva un'analisi per capire il perche' delle cose...

my 2 euro cents,

-- 
Ruggero T.
http://www.valtellinux.it
GPG Key-id: 0x96998647


Maggiori informazioni sulla lista gl-como