WikiMiNET

La documentation technique et administrative

Outils pour utilisateurs

Outils du site


wiki:cluster:ceph

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
wiki:cluster:ceph [2018/06/16 22:32]
varens [Remplacer un disque défaillant]
wiki:cluster:ceph [2020/06/27 18:16] (Version actuelle)
Ligne 1: Ligne 1:
 ====== Ceph ====== ====== Ceph ======
  
-À MiNET, depuis 2018, on utilise un cluster [[https://ceph.com|Ceph]] pour le stockage.+Avant de zoulouter sur ceph merci de consulter la [[http://docs.ceph.com/docs/master/|doc]], sinon vous pourrez avoir des surprises (du genre plus d'accès aux données) 
 + 
 +Il y aussi la [[https://wiki.gentoo.org/wiki/Ceph/Guide#Monitor_server|documentation de Gentoo]] qui explique bien les concepts 
 + 
 +À MiNET, depuis 2018, on utilise un cluster [[https://ceph.com|Ceph]] pour le stockage pour un tas de [[wiki:cluster:ceph:choix|raisons]].
 Ceph est une technologie de stockage développée par Red Hat (et d'autres acteurs comme Cisco & Canonical), qui permet de créer une grappe de serveur se comportant comme un SAN. Ceph est une technologie de stockage développée par Red Hat (et d'autres acteurs comme Cisco & Canonical), qui permet de créer une grappe de serveur se comportant comme un SAN.
 +
 +
 +===== Politique de sauvegarde =====
 +
 +Nous n'avons actuellement pas de [[wiki:cluster:ceph:backup_morte|serveurs de backup morte]]. Pour l'instant nous réalisons des snapshots des disques des machines via Ceph directement (avec l'outil rbd). Les backups sont lancées depuis Phobos et sa crontab qui lance le [[https://gitlab.minet.net/InsolentBacon/insolentbackuper|script de sauvegarde]].
 +
 +La politique que nous avons choisie est la suivante : une sauvegarde tous les :
 +  * **6 heures**, à 5h,11h,17h et 23h, on en conserve **24**, on couvre donc 6 jours (ce qui permet de couvrir les WE y compris prolongés)
 +  * **jours**, à 3h, on en conserve **21**, on couvre donc 21 jours (ce qui permet de couvrir les vacances de 2 semaines)
 +  * **semaines**, à 2h le samedi, on en conserve **13**, on couvre donc 3 mois (ce qui permet de couvrir les vacances d'été)
 +  * **mois**, à 1h le 1er du mois, on en conserve **12**, on couvre donc 1 an (ce qui permet d'avoir un historique ou si besoin pour des raisons légales)
 +
 +Elles sont monitorées via Zabbix et [[https://gitlab.minet.net/varens/ceph_snapshots_monitoring|quelques scripts]].
 +===== Ceph =====
  
 D'après [[https://fr.wikipedia.org/wiki/Ceph|Wikipédia]]: D'après [[https://fr.wikipedia.org/wiki/Ceph|Wikipédia]]:
Ligne 85: Ligne 103:
  
 Si vous avez des problèmes avec vos Placement Groups c'est peut-être qu'un disque est endommagé, vous pouvez allez voir [[wiki:cluster:ceph:remplacement_disque|ici]], pour s'en assurer et savoir comment on remplace un disque. Si vous avez des problèmes avec vos Placement Groups c'est peut-être qu'un disque est endommagé, vous pouvez allez voir [[wiki:cluster:ceph:remplacement_disque|ici]], pour s'en assurer et savoir comment on remplace un disque.
 +
 +===== À MiNET... =====
 +
 +{{ :wiki:cluster:schema_ceph.jpg?400 |}}
 +
 +À MiNET, nous disposons de 3 serveurs qui agissent comme noeud Ceph: **Atlas**, **Callisto** et **Phobos**. Callisto est au U1 alors que Phobos & Atlas sont en salle serveur.
 +
 +Dans chaque serveur, il y a 10 OSDs (liés à des disques de 2TB), un mon et un mgr.
 +
 +**Attention:** Un mon est installé aussi sur discovery et sur houston. La raison est simple: le quorum.
 +Si jamais la salle serveur n'est plus alimentée: Phobos et Atlas s'éteignent, Callisto étant seul, il n'atteint pas le quorum et s'éteint.
 +
 +Pour qu'il soit encore en majorité il a fallut rajouter des MON sur d'autres noeuds dans __d'autres salles__ (d'où sur Houston et sur Discovery). __Ainsi si jamais on éteint la salle serveur, Callisto 
 +
 +Ces MONs __ne sont pas des dans des VMs/CTs__, c'est normal ! Il faut qu'il puissent avoir une IP dans le 142, or, vu qu'on ne veut pas que les VMs puissent avoir une patte dans le 142, on a pas fait de bridge, et donc on a du mettre directement sur l'host. En plus, ça évite qu'on ait besoin du système d'hypervision pour lancer le stockage (donc on évite qu'il y ait une potentielle double dépendance hyperviseur<->stockage).
 +
 +{{ :wiki:cluster:schema_ceph_justification_mon.jpg?600 |}}
 +
 +On voit bien sur ce schéma très propre, que si vous enlevez une salle (bulle bleue) il vous reste toujours 3 MONs sur 5! Vous avez donc la majorité
 +
 +Si vous regardez /etc/ceph/ceph.conf, vous vous étonnerez sûrement de ne pas voir Discovery et Houston dans //"mon_initial_members = phobos,callisto,atlas"//. C'est normal, on ne veut pas dépendre des noeuds de calcul pour lancer le stockage, ne vous inquiétez pas, une fois lancé, leur vote sera quand même pris en compte.
 +
 +
wiki/cluster/ceph.1529181126.txt.gz · Dernière modification: 2020/06/27 18:15 (modification externe)