Système de stockage de masse

Cette page s'adresse aux utilisateurs intéressés par le stockage de masse.
Elle décrit système implanté à l'UCL et ses modalités de fonctionnement.

Votre capacité utilisée sur disques 

  1. Introduction
  2. Les systèmes à disques (protocole FTP)
  3. Usage du stockage de masse
  4. Utilisation avancée (FTP automatisés, scp, rsync)
  5. Sécurité
  6. Facturation

 1. Introduction

La puissance de traitement des ordinateurs actuels permet d'engendrer des quantités de plus en plus importantes d'information. L'espace disque de tout ordinateur a tendance à se saturer en quelques mois. Un autre problème existant sur tout ordinateur est celui de la sauvegarde : archiver régulièrement l'entièreté d'un disque de plusieurs (dizaines de) Go n'est pas une sinécure si le support est de capacité trop faible.

Les utilisateurs de calcul intensif sont confrontés au même problème : le volume de leurs calculs est de plus en plus important, et la taille des fichiers de résultats est à l'avenant. Le même problème se pose quand les programmes traitent de grandes quantités de données, obligeant l'utilisateur à gérer de volumineux fichiers. Les bandes magnétiques ont été longtemps utilisées pour cela à travers plusieurs technologies. La dernière au C.I.S.M. était un robot HP de 4 dérouleurs et 59 bandes de type LTO (200 Go) avec le logiciel DiskXtender qui étaient en service depuis 2002. Après l’avènement des armoires à disques de type « disk array » et la chute spectaculaire de leur coût, ces dernières ont supplanté les bandes qui ont été abandonnées en mars 2006. Les  configurations "disques" présentent en outre un avantage majeur : leur temps de réaction très court par rapport aux bandes permet des relectures plus fréquentes des données.

Il convient d'avoir conscience que les systèmes implantés ne sont pas à l'abri d'une catastrophe majeure telle qu'un incendie. Celui qui y conserve des informations difficiles à reconstituer doit donc voir le stockage de masse comme la copie de sauvegarde d'informations qu'il conserve ailleurs ou, à l'inverse, créer une copie de sauvegarde des informations confiées au système de stockage de masse.

 2. Les systèmes à disques

Début 2004, le système de stockage de masse a été étendu par l'adjonction de deux serveurs distants (situés aux bâtiments Pierre Curie et Pythagore), comportant chacun un espace disque sécurisé (RAID) de 4 To. Un seul serveur (diskus.cism.ucl.ac.be) était alors accessible directement par les utilisateurs pour le dépôt de leurs fichiers, via le protocole FTP. En un premier temps, les fichiers des utilisateurs étaient systématiquement recopiés sur le deuxième serveur appelé alors « replicus ». Ceci permettait de minimiser les risques de perte de données en cas de désastre sur un des deux sites. En octobre 2004, une nouvelle armoire à disques de 4 To a été ajoutée au serveur « diskus ». La copie systématique n’était plus possible. Les utilisateurs qui le souhaitent  peuvent alors déposer des données dans leur sous-répertoire "ALSOreplicus ", celles-ci sont automatiquement recopiées, endéans l'heure, sur le deuxième serveur.

En janvier 2006, le serveur de stockage "lms.cism.ucl.ac.be" , faisant partie du complexe de Calcul Intensif « lemaitre », a été mis en service au Pythagore avec une armoire à disques d'une capacité de stockage de 11 To. Comme pour "diskus", un dispositif de réplication de fichiers est mis en place vers « replicus », localisé au Pierre Curie. Le serveur « diskus » continue à fonctionner avec ses deux armoires, offrant chacune une capacité de l'ordre de 4 To. Sur chacun des deux serveurs, les fichiers des utilisateurs peuvent être simplement déposés et récupérés par FTP depuis tout ordinateur relié à l'interréseau.

Suite à une avarie de l’armoire à disques de « replicus », ce serveur est désaffecté en avril 2006. Le service de réplication de fichiers est transposé entre « diskus » et « lms » réciproquement, de manière à conserver la possibilité de déposer certains fichiers en deux copies, sur l'un ou l'autre serveur.

Le 22 juin 2007, le serveur "lms" (SUN Sunfire V440) a été remplacé par un SUN Galaxy X4500, plus performant (2 dual-core AMD 2.6GHz) et appelé "lmftp.cism.ucl.ac.be" ou "lmx".

Le 3 février 2009, un serveur "storage02" d'une capacité de 36 To a été mis en service au bâtiment de Hemptinne. Il est dédicacé à l’institut ELI (ex ASTR). Son système de fichiers "ZFS" permet la compression automatique des fichiers au moment de leur dépôt.

Un serveur "storage03" d'une capacité de 50 To est en service depuis le 18 août 2010 au bâtiment de Hemptinne également. Il remplace le serveur "diskus", désaffecté le 17 décembre 2010. Le serveur  "storage03" est également doté d'un système de fichiers "ZFS" avec compression automatique. L'espace disque utilisable sur celui-ci par chaque unité (ou autre entité) est désormais limité par des quotas. Le service de réplication de fichiers a été transposé entre « storage02 » et « storage03 », au bâtiment M. de Hemptinne d'une part, et « lmx » au Pythagore, et réciproquement.

En juillet 2011, 2 serveurs supplémentaires, chacun d'une capacité de 74 To et dotés d'un système de fichiers "ZFS", ont été mis en service: "storage04" et "storage05". Ils seront utilisés en priorité par ELIE, ELIC et NAPS qui ont largement contribué à leur acquisition.

La capacité du serveur "storage05" a été portée à 162 To.

  3. Usage du stockage de masse

Tout utilisateur d'une unité (ou autre entité) qui dispose d'un nom de login sur un des serveurs de stockage peut y déposer ou reprendre un fichier à travers l'utilisation d'une session FTP. Pour obtenir un nom de login, voyez la page "devenir utilisateur" .

Ouvrir une session FTP:

·       se connecter par FTP à l’un des serveurs de stockage, soit au premier système à disques (storage03.cism.ucl.ac.be), soit à celui du complexe "lemaitre" (lmftp.cism.ucl.ac.be)

·       entrer son logon et son mot de passe pour ce serveur.

Déposer un fichier dans le stockage de masse :

·       envoyez votre fichier vers les disques par une sous-commande "put nomdufichier". Vous pouvez vérifier que votre fichier se trouve bien dans le stockage de masse au moyen de la sous-commande dir (ou ls).

Récupérer un fichier :

·       get nomdufichier

Terminer la session FTP :

·       bye

Copies incrémentales

Les systèmes de stockage de masse ne gèrent pas les sauvegardes (backup) incrémentales (sauvetage de la différence par rapport à la sauvegarde précédente) ou de version. C'est la responsabilité de l'usager, en fonction des outils dont il dispose, de définir sa stratégie. Une bonne organisation des répertoires de réception est donc importante.

 4. Utilisation avancée

FTP automatisés

Si l'on veut lancer "en batch" (automatiquement) une session FTP :

en Unix, le fichier .netrc, combiné ou non avec une utilisation des mécanismes PIPE, devrait apporter une solution;

en Windows avec PuTTY, le client PSFTP et l'option " -b Fichier_de_Commandes".

Avec les autres logiciels Mac, X-Windows ou PC sous Windows, la réponse est incertaine. Toutes les implantations dites aimables, (FTPTOOL, COREFTP, WFTP, WS_FTP...) sont souvent basées sur une analyse des informations contenues dans les messages ou les réponses aux commandes "dir". Or, les messages des serveurs FTP ne sont pas tous bâtis sur un canevas reconnu par tous les clients.

Copies avec SCP ou RSYNC

Les utilisateurs qui souhaitent utiliser des commandes Unix "scp" (ou PuTTY PSCP avec Windows) peuvent demander un "login shell" normal via le formulaire de "Demande d'attribution d'un nom d'utilisateur" ou en s'adressant à l'équipe de gestion . Il s'agit d'un privilège particulier dont les utilisateurs ne peuvent profiter que pour accéder à leurs données exclusivement.

Il en est de même pour ceux qui souhaitent utiliser "rsync", par ex. pour des backups de serveurs.

  5. Sécurité

La sécurité peut prendre plusieurs aspects:

  5.1 Protection physique des données

Les systèmes informatiques ne sont jamais totalement à l’abri d’une catastrophe majeure (incendie, …). Toutefois, les armoires à disques sont organisées selon le mode RAID 6: une partie des disques contient des informations redondantes de celles des autres disques, et qui permettent de reconstruire les données originales en cas d’altération. De plus, chaque système à disques étant "dédoublé" pour les fichiers que l’utilisateur place dans le sous-répertoire « ALSOreplicus », le risque de destruction totale est minimisé. En fonction de vos besoins et de l'importance de vos données, il vous appartient de poser votre problème, et nous vous aiderons à mettre en place une stratégie adéquate.

  5.2 Restriction d'accès et d'exploitation des fichiers

L'accès est soumis aux règles classiques des systèmes UNIX. Pour mémoire:

  • seul, le SUPERUSER dispose de tous les droits
  • l'accès est soumis à la fourniture du mot de passe. Tous les utilisateurs reçoivent maintenant un compte "Calcul Intensif" dont  le mot de passe est commun et se change de la même façon (yppasswd). Les mots de passe doivent être différents du nom d'utilisateur ainsi que de toute permutation circulaire ou inverse de ce nom. Les nouveaux mots de passe doivent différer des anciens d'au moins trois caractères et doivent comporter un minimum de 6 caractères dont au moins un numérique, spécial ou majuscule.
  • l'accès aux fichiers est réglé par les permissions d'un fichier placé dans un système de fichiers UNIX. Lors de la création du fichier, à défaut de mentions précisées lors de chaque session FTP (sous-commande "quote site umask"), les permissions attachées à ce fichier réserveront l'accès au seul propriétaire en mode lecture et écriture.
  • gardez en mémoire que chaque système d'exploitation informatique comprend un ensemble d'outils qui permettent le regroupement de fichiers, la compaction ou le cryptage de ceux-ci (citons des outils tels que TAR, COMPRESS, ZIPPEUR...). Si vous avez utilisé de tels outils avant l'envoi du fichier vers le serveur du stockage de masse, veillez à disposer d'un système d'exploitation comprenant les outils inverses qui vous permettent de reconstituer vos fichiers (et le conserver).

  6. Facturation

Dès le départ, la facturation du système de stockage de masse a été basée sur une distinction entre "gros" utilisateurs, payant un forfait couvrant une capacité convenue à l'avance (ceci pour garantir un revenu minimum sur une période donnée), et petits utilisateurs payant l'espace occupé (mesuré chaque mois) à un tarif défini à l'avance. Lorsqu'il y a dépassement du volume couvert par un forfait, le tarif  "petits utilisateurs" est appliqué à l'excédent. Le système étant optimisé pour traiter des fichiers volumineux, on évitera de déposer individuellement de trop petits fichiers mais on les regroupera (voir ci-dessus). Les transferts ne sont pas comptabilisés. Enfin, la facturation est annuelle.

Par décision du CD-CISM (réunion du 3 octobre 2006), les "home" sur le cluster "lemaitre" sont facturés au même tarif que les fichiers déposés sur le stockage de masse, en ce qui concerne le volume excédant 500 Go pour les unités (ou autres entités) membres du CD et 100 Go pour les autres. Cette mesure est en vigueur depuis le 1 décembre 2006 et a été étendue au cluster "green" en mai 2009.

Le tarif  "petits utilisateurs" a été abaissé de 0,030 à 0,015 € / Go / mois pour 2011 (réunion du CD-CISM le 22 décembre 2010) et maintenu en 2012-2013.

Le système de fichiers ZFS dont sont pourvus les serveurs "storage02" et "storage03" permet la compression automatique des fichiers au moment de leur dépôt. De ce fait, il a été décidé (réunion du CD-CISM du 8 mars 2010) de facturer, à partir de mars 2010, l'espace disque réellement occupé et non plus la taille des fichiers. La taille minimale à facturer (anciennement 512 ko) est de ce fait abolie.

Le coût des forfaits est maintenant basé sur le tarif  "petits utilisateurs". Une première formule avait été proposée lors de la réunion du CD-CISM le 2 juin 2008. Lors de la réunion du CD-CISM le 3 juillet 2008, elle a été approuvée avec application à partir du 1 janvier 2008. On s'est rendu compte en décembre 2008 que la formule qui figure dans le PV du 2 juin 2008 est entachée d'erreur. La formule ci-dessous est maintenant en vigueur. Soient "petit_util_TO" le coût annuel d'un TéraOctets au tarif "petits utilisateurs" et "MaxVolForfait" le plus grand volume (en To) couvert par forfait sur l'ensemble des unités (ou autres entités) utilisatrices. Le coût annuel d'un volume "VolumeForfait" (en To) s'élève alors à:

                             petit_util_TO * 0.8 / ( 1 /  VolumeForfait + 1 / ( 2 * MaxVolForfait ) )

Exemple: avec "petit_util_TO" = 180 € / To / an et "MaxVolForfait" = 50 To en 2013, un volume d'un To est facturé 142,57 €.

| 7/05/2013 |