[gl-como] watchdog

Pirla the.pirla@flashnet.it
Sab 10 Dic 2005 23:02:03 CET


Il giorno sab, 10/12/2005 alle 21.08 +0100, Pietro Bertera ha scritto:
> On sab, 2005-12-10 at 17:19 +0100, Pirla wrote:
> 

> certo, qui trovi tutto quello che serve: www.linux-ha.org
Anche soluzioni di questo tipo possono inchiodarsi (nel senso che il
nodo che dovrebbe funzionare non funziona, e l'altro crede che sia
ancora in funzione).
In poche parole il failover non funziona, e il semplice reset di una
macchina fa si che l'altra prenda a funzionare non sentendo più la sua
compagna.
Ne ho viste parecchie di situazioni del genere, anche con software HA
molto più costose (non che costoso voglia dire buono, ma credo che ci
siamo capiti).

> 2 macchine in che condividono uno storage con fiber channel + samba,
> OpenLdap e Heartbeat se configurato a dovere e hw decente non ha bisogno
> di un watchdog. fa parte dei sistemi fatti in casa ?
Sicuramente non è un sistema fatto in casa, ma non è un sistema che esce
di fabbrica con la ridondanza intrinseca di tutte le componenti e senza
single point of failure.
Per es. non so di che storage fiber channel parli, ma molti hanno un
sistema di watchdog interno perché di solito ci sono sempre almeno due
componenti ridondate per l'accesso fibra.

> Il management in genere lo tieni su una VLAN separata. Alcune serie
> degli switch cisco hanno un watchdog interno, ma non è mai stata una
> feature di cui vantarsi.
VLAN separata non vuol dire necessariamente hardware separato.
In genere non vuol dire la soluzione migliore, ma molte volte quella più
economica, o statisticamente meno critica.
Ma la statistica è fatta per noi che guardiamo sempre il caso peggiore?
Generalmente nei sistemi che progetto io si tende ad eliminare il single
point of failure, e il failure può avvenire anche se con poche
probabilità, sull'intero chassis dello switch. In quel caso sei a piedi
sia con la management che con la rete "normale".
Come ti metti.
Hai un single point of failure che invalida l'architettura HA?

> > Il discorso è sempre lo stesso... magari a te non serve, o non ne vedi
> > l'utilità, ma chi l'ha inventata aveva un motivo.
> > Inoltre, dato che viene molto usata (dovrebbe esserci anche un Howto per
> > linux sul watchdog), mi fa pensare che a qualcuno e a qualcosa possa
> > servire.
> 
> IMHO è l'approccio al problema che è sbagliato
Ecco, appunto,
era proprio quello che intendevo dire.
Siamo nel mondo delle opinioni, e per fortuna non tutti abbimo le
stesse.
Io credo che non valga la pena discutere oltre il puro aspetto tecnico.
Credo che valga invece la pena vagliare tutte le ipotesi di una
soluzione del genere... i pro e i contro ci sono sempre.
Magari a te oggi non viene in mente nessuna situazione nella quale un
sistema del genere possa farti comodo.
Chissa col tempo...
Io credo che a chi ha iniziato il thread questa soluzione sia venuta in
mente leggendo qualche articolo su watchdog (ricordo che ne fecero
alcuni su Linux journal per esempio), ed ha pensato che potesse
servirgli.

Bisognerebbe fargli capire che per un server non è una soluzione adatta,
in quanto lo spegnimento brutale del server comporta una serie di
problemi, primo fra tutti la corruzione dei file system, per non parlare
di eventuali log non scritti ed altre cose che a chiunque possono venire
in mente.
Però potrebbe rivelarsi l'unica soluzione.
Quanti, quando un server non funziona più, schiacciano il pulsante per
riaccendere la macchina, e dopo cominciare a fare qualche analisi per
capire cose è successo?

-- 
Ciao
        Pirla

Per rispondere in E-mail the (punto) pirla (chiocciola) flashnet.it
*** un bacio ai pupi ***

---> Linux user since yesterday <---
--->     Linux User #389536     <---



Maggiori informazioni sulla lista gl-como