[FoLUG] Nagios

m m@pavis.biodec.com
Mer 19 Mar 2014 15:02:39 CET


* Silvio Lo Sciuto (silviodinotte@hotmail.com) [140319 11:52]:
>
>1 - in realtà pur avendo configurato il minimo di default in tutte le
>macchine , non tutte mi inviano dei messaggi
>2 - i messaggi sono di default , vorrei invece che questi arrivassero
>SOLO ( e non ogni 1h ) se raggiunti alcuni valori critici che devo
>ESSERE IO ad impostare - per ogni singola macchina , load , max jobs
>running , disco pieno,  etc
>3 - cosa piu importante , la richiesta fattami senza via di fuga , è
>quella di fare in modo che non siano le singole macchine         ad
>interagire con me LOL ma : che sia un Master , un Server , una macchina
>a scelta , che monitori tutte le altre 20 e che  ( in base ai limiti e
>pregi di ogni singola ) mi avvisi via email , una per tutte
>4 - trovare un sistema che nel caso di un load troppo alto , mi killi (
>sempre una per tutte ) il job che lo ha procurato e che eventualmente
>mi riavvii lo stesso o mi avvisi del kill
>5 - riattivare un ssh or un apache2 o un http nel caso che questi siano
>giu
>6 - avvisare nel caso di un fily system compromesso che magari non
>permette la scrittura
>7 - eventuali altri suggerimenti
>
>Qualcuno sarebbe in grado di darmi una sufficiente consulenza per poter
>settare in maniera pratica questi pochi punti che ho evidenziato ?
>

non sono in grado di darti una consulenza per email, perché sarebbe una
cosa troppo lunga, cioè in realtà dovrei configurarti il sistema io, ma
posso darti un paio di consigli ...

>Naturalmente sarei disposto , se ragionevole , a gratificare la
>suddetta consulenza.
>

... dunque, quello che vuoi fare tu è abbastanza normale: vuoi
monitorare un'infrastruttura, nel tuo caso di calcolo

Nagios e affini sono una buona scelta, e quindi sei partito col piede
giusto: i problemi che riscontri sono problemi di tutti, perché la
documentazione è quella che è, gli strumenti sono complicati e bisogna
capirne la logica, ecc.

alcuni punti:
- io (la mia azienda, in realtà: http://www.biodec.com/) fa per mestiere
   queste cose: per cui ne ho un'idea, da un lato, e facciamo supporto
   commerciale, dall'altro, proprio a sistemi basati su Nagios (et
   similia)
- non usare Nagios on the rock, ma prova a vedere se una distribuzione
   come omdistro.org fa meglio al caso tuo, visto che pacchettizza -
   tutte insieme - una serie di varianti a Nagios che spesso sono più
   usabili
- i punti 1. e 2. sono normale amministrazione
- il punto 3. anche è legittimo: che ci sia un solo server che si occupa
   di spedire gli allarmi (ma tu hai installato Nagios su *ogni* server ?)
- i punti 4. e 5. NON si fanno con Nagios e annessi, ma con altri tool,
   come puppet / cfengine3 che hanno uno scopo diverso (quello appunto di
   fungere da cron distribuito e mantenere uno stato consistente fra un
   un gruppo di sistemi)
- il punto 6. è spiegato male: cosa vuol dire file system compromesso ?
   non è un concetto ben definito: se hai un problema hardware, sarà il
   kernel che metterà il file system read only: se hai un problema
   hardware, il sistema di allarme ti avvertirà del problema per tempo,
   se opportunamente configurato
- punto 7.: prendi una decisione: o studi sta roba per un po' o avrai
   sempre l'impressione che funzioni un po' per caso, e alla fine non
   risolverà mai appieno l'obiettivo per cui la stai configurando, ovvero
   avvertirti tempestivamente che c'è un problema

quindi il consiglio è: se vuoi fare da solo, bene: mi permetto di
suggerirti di usare OMD e check_mk come sistema di monitoraggio (client
e server) e di lasciare i punti 4. e 5. a sistemi come puppet (magari
studia questo che è più semplice), se no, fallo fare a qualcuno che lo
fa di mestiere

-- 
  .*.                            finelli
  /V\
(/ \) --------------------------------------------------------------
(   )       Linux: Friends dont let friends use Piccolosoffice
^^-^^ --------------------------------------------------------------

Suppose you're working on an optimizer to render \X unnecessary (or
rather, redundant, which isn't the same thing in my book).
		-- Larry Wall in <199710211624.JAA17833@wall.org>


Maggiori informazioni sulla lista FoLUG