Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

liste des modifs munin #30

Open
17 of 36 tasks
Marc-marc-marc opened this issue Apr 17, 2018 · 12 comments
Open
17 of 36 tasks

liste des modifs munin #30

Marc-marc-marc opened this issue Apr 17, 2018 · 12 comments
Labels

Comments

@Marc-marc-marc
Copy link

Marc-marc-marc commented Apr 17, 2018

liste des modifs faites ou à faire dont certaines sont à transformer en ansible :)

Stats avant modif : munin-update 240sec + munin-limits 2sec + munin-graph 80sec + munin-html 60sec = 382sec toutes les 300sec :(
Stats après modif : munin-update 150sec + munin-limits 2sec + munin-graph 0sec + munin-html 57sec = 209sec toutes les 300sec

  • ajout des moniteurs munin_stats et munin_update sur osm127
  • suppression du doublon localhost <> osm127 (entrée localhost commentée dans /etc/munin/munin.conf)
  • rattacher osm127 au bon hosteur (osm26 au lieu de osm22)
  • erreur dans /var/log/munin/munin-node.log sur osm127
    LWP::UserAgent not found at /etc/munin/plugins/apache_accesses line 86.
    -> libwww-perl installé sur osm127
  • désactivation des serveurs éteints qui ralentissent le processus : osm14 osm16 osm17 osm18 osm22 (gain d'environ 70sec)
  • suppression osm131 (doublon osm25-bzh202)
  • désactivation des crawler dans /var/cache/munin/www/robots.txt
  • patcher l'absence de log du temps munin-graph pour pouvoir comparer avec la solution suivante (fait dans /etc/cron.d/munin-cron)
  • passer en mode graph_strategy cgi (gain d'environ 80sec)
  • passer en mode html_strategy cgi si ce mode n'est plus bugé (nécessite modif apache)
  • passer éventuellement en mode RRDCached
  • passer éventuellement la partition en commit=300 : droit refusé dans la vm
  • passer en mode asynchrone
  • installer libwww-perl sur tous les serveurs apache pour que le moniteur fonctionne
  • augmenter la ram pour osm127 car oom
  • virer moniteur munin@osm11 (il n'y a pas de munin master sur ce host)
  • suppression osm5/osm6
  • osm23 osm111 ne répond pas : ajout ip public osm127 dans munin-node.conf
  • voir pq osm111 ne répond pas (serrait peut-être coupé)
  • rajouter les moniteurs renderd et mod_tile pour osm25-osmfr osm25-bzh202
  • installer les moniteurs smart sur tous les hosteurs
  • installer bc sur tous les hosteurs pour le graphe acpi température
  • config firewall pour laisser passer les icmp destination inatteignable afin qu'un serveur éteint ne ralentisse pas le processus (ou voir s'il option pour attendre max X sec)
  • analyser les erreurs dans les différents /var/log/munin/munin-node.log
  • voir si cela a du sens d'exécuter les moniteurs d'une vm lorsqu'ils donnent l'info du hosteur (ex à vérifier: cpu & io température)
  • avoir les ip réelles dans les logs pour les requêtes http
  • virer les moniteurs apache quand il n'y a pas d'apache : ex osm24
  • les moniteurs fw_conntrack et fw_forwarded_local nécessite le packet contrack qui ne semble pas fonctionner sur les vm. ex osm103
  • des serveurs sans postfix ont un moniteur postfix. ex osm147 osm148
  • les moniteurs fans et voltage ne fonctionnent sur aucun serveur. a voir si on corrige ou supprime.
  • sur osm148 quelqu'un (Rodolphe ?) a utiliser "log_file Sys::Syslog" dans /etc/munin/munin.conf afin de migrer /var/log/munin/munin-node.log en syslog. a faire de même sur les autres serveurs.
  • ajout osm154
  • maj debian 8.10 -> 9.4 (gain d'environ 23sec)
  • osm200/201/202/205/206/207 (backend osmose) : absent du dns + ip privée non accessible
  • osm13 : munin Nginx presque vide (création d'un vhost localhost pour redirection explicite de /ngnix_status vers ngnix et mod_tile vers apache)
  • osm13 : smart sda vide (raid, fonctionne sur osm12)
  • inclure les modifs ci-dessus dans les rôles ansible correspondants
@jocelynj
Copy link
Member

J'ai enlevé osm5 et osm6 de la liste, vu que ces machines n'existent plus.

J'ai monté la ram pour osm127 de 1Go à 2Go.

@Marc-marc-marc
Copy link
Author

Marc-marc-marc commented Apr 18, 2018

outre la correction de petites anomalies, en gain de perf, on a
https://munin.openstreetmap.fr/osm26.openstreetmap.fr/osm127.openstreetmap.fr/munin_stats.html

  • hier : suppression des serveurs éteints : gain d'environ 70sec (le vert au tout début du graphe)
  • à l'instant passage en mode graph_strategy cgi : gain d'environ 80sec (le bleu)

j'ai mis à jour ci-dessus la liste encore partielle des anomalies rencontrées

@jocelynj
Copy link
Member

passer en mode RRDCached et/ou commit=300 sur la partition <-- c'est quoi cette option ?

@Marc-marc-marc
Copy link
Author

Marc-marc-marc commented Apr 18, 2018

RRDCached est un daemon qui s'intercale entre munin et les fichiers rrd.
http://guide.munin-monitoring.org/en/latest/master/rrdcached.html
il apporte un gain a 2 niveaux :

  • il évite a munin-update d'être ralenti par les écritures (réduction de l'io wait)
  • il transforme un tas d'écriture aléatoire en écriture + séquentielle

commit=300 est un paramètre possible sur les partitions ext3&4
il spécifie le temps maxi que l'os est autorisée à reporter les écritures vers le disque (5 sec en valeur par défaut)

@Marc-marc-marc
Copy link
Author

l’extrême lenteur dans la récupération des infos de osm27&osm138 est du au fait que la résolution dns fournit l'ipv6 en premier qui échoue en timeout ~2min puis test en ipv4 qui réussit.
en voulant ajouter l'ipv4 dans /etc/hosts sur osm127 j'ai constaté que plusieurs serveurs avait l'ip privée renseignée.
j'ai fait de même pour osm138 sur osm127, test ok
pour osm27 l'ip privée ne répond pas, j'ai ajouté l'ipv4, test ok
une autre solution est évidement de modifier les fw pour autoriser les 2 depuis les ip d'osm127
la différence https://munin.openstreetmap.fr/munin-cgi/munin-cgi-graph/osm26.openstreetmap.fr/osm127.openstreetmap.fr/munin_update-day.png

@Marc-marc-marc
Copy link
Author

après discussion avec @jocelynj maj de la vm de debian 8.10 en 9.4
seul le paquet atop pose problème, je l'ai temporairement supprimé.

@jocelynj
Copy link
Member

J'ai cette modif dans ansible pour atop et debian 9.4: https://github.com/osm-fr/ansible-scripts/blob/master/roles/common/tasks/main.yml#L43

@Marc-marc-marc
Copy link
Author

le lien existait sur osm127 mais l'installation échoue quand même :
lrwxrwxrwx 1 root root 9 Apr 23 23:48 /etc/systemd/system/atopacct.service -> /dev/null

la cause est que le patch est fait pour systemd alors que osm127 est toujours en init
J'ai fais un update-rc.d atopacct disablece qui a résolu le problème pour atop

reste à comprendre pq osm127 démare en init au lieu de systemd

@Marc-marc-marc
Copy link
Author

~10% de gain de temps d'exécution après l'upgrade
mais la vm ne voulait pas redémarer, init restait bloqué en init 6
un arrêt des services à la main puis /sbin/reboot -d -f a fait l'affaire

je bascule en mode html_strategy cgi

@Marc-marc-marc
Copy link
Author

Marc-marc-marc commented Apr 28, 2018

rajout de qlq entrées dans /etc/hosts
suppression osm119 (vm sur osm11 selon fichier ansible mais inaccessible + absente du wiki)
suppression osm129 (vm sur osm28 selon fichier ansible mais inaccessible + absente du wiki + inexistante sur osm26/27/28)
osm111 osm131 ne répondent pas (problème fw ou munin-node absent, mon accès ne fonctionne pas)
désactivation temporaire osm200/201/202/205/206/207 (backend osmose) : absent du dns + ip privée non accessible

@Marc-marc-marc
Copy link
Author

osm200/osm201/osm202 : utilisation ssh + ProxyJump + Hostname pour résoudre à la fois l'incessibilité directe et l'absence de l'entrée dans le dns
Utilise pour le moment mon compte sur ces 3 vm vu le manque de droit pour ajouter la clef ssh au compte munin.
A faire :

  • voir pour rajouter /var/lib/munin/.ssh au backup
  • déployer la clef ssh sur le compte munin de toutes les serveurs
  • ajouter nc sur osm205/osm206/osm207 pour faire la même chose.

@Marc-marc-marc
Copy link
Author

  • osm11 osm12 osm13 osm14 : utilisation ssh + ProxyJump + Hostname pour résoudre à la fois l'incessibilité directe

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

2 participants