[gl-como] watchdog
Ruggero
ruggero@valtellinux.it
Lun 12 Dic 2005 00:19:09 CET
Pirla ha scritto alle 23:02, sabato 10 dicembre 2005
> Magari a te oggi non viene in mente nessuna situazione nella quale un
> sistema del genere possa farti comodo.
> Chissa col tempo...
Che vespaio che ho tirato in piedi.... ;-))
> Io credo che a chi ha iniziato il thread questa soluzione sia venuta in
> mente leggendo qualche articolo su watchdog (ricordo che ne fecero
> alcuni su Linux journal per esempio), ed ha pensato che potesse
> servirgli.
Ecchime,
vi "presento" la fattispecie incriminata:
server "fatto-in-casa" con hw fallato (controller ide) che dopo 7/8 ore di
funzionamento si pianta, provocando un errore sul disco che a sua volta causa
il remount della partizione di root in read-only....
dato che:
- la forensica di quella macchina non mi interessava;
- non potevo schiacciare il bottone di reset da 100 km di distanza (e non
conosco altri modi per provocarlo)
- non potevo essere fisicamente presente per assistere il "paziente"
...ho ovviato al problema con un bel wdg che mi lasciava 7/8 ore di tempo per
poter lavorare su quella macchina e di clonarne il disco (il down-time era
relativamente basso, le partizioni erano tutte reiserfs)...
> Bisognerebbe fargli capire che per un server non è una soluzione adatta,
> in quanto lo spegnimento brutale del server comporta una serie di
> problemi, primo fra tutti la corruzione dei file system, per non parlare
> di eventuali log non scritti ed altre cose che a chiunque possono venire
> in mente.
Sarà pure la soluzione meno adatta ma nel caso specifico HeartBeat e compagni
non si sarebbero nemmeno accorti del problema:
il "ping" ethernet tra le macchine avrebbe continuato a funzionare, cosi' come
quello (ridondante) via seriale e via via i vari controlli sui servizi, samba
compreso.
Flame: http://www.google.it/search?hl=it&q=linux+heartbeat+%2Fdev%2Fwatchdog
se è nominato (seppur come opzione) non sarà del tutto inutile....
> Però potrebbe rivelarsi l'unica soluzione.
Non sarà l'unica e nemmeno la più elegante, certamente è l'estrema ratio, ma
lo troviamo montato sui sistemi high-end e su quelli mission-critical (vedi
NASA) persino negli "accrocchi" con linux-embedded ci sono i wdg...
nell'articolo di LinuxFocus dal quale ho tratto il circuito la filosofia è
descritta bene: "è una cosa in piu', speriamo non si attivi mai ma è meglio
che ci sia"...
link: http://cgi.linuxfocus.org/English/July2002/article239.shtml
> Quanti, quando un server non funziona più, schiacciano il pulsante per
> riaccendere la macchina, e dopo cominciare a fare qualche analisi per
> capire cose è successo?
Direi che è un'abitudine nata ai tempi delle "Nuove Finestre Tecnologiche"
dove a macchina "congelata" c'era ben poco da fare e sicuramente nessuno
faceva un'analisi per capire il perche' delle cose...
my 2 euro cents,
--
Ruggero T.
http://www.valtellinux.it
GPG Key-id: 0x96998647
Maggiori informazioni sulla lista
gl-como