LA REPRISE DE LA PRODUCTION INFORMATIQUE APRES UN INCIDENT ELECTRIQUE MAJEUR

L’alimentation électrique des salles informatiques et des centres de données obéit à un agencement complexe organisant sa distribution et sa répartition depuis les sources externes d’énergie jusqu’aux équipements IT. Elle incorpore une chaîne matérielle assurant idéalement la stabilisation de la fourniture en électricité, la redondance des chemins d’alimentation, la maîtrise de la granularité de l’allocation énergétique et son évolutivité tant capacitaire que capillaire.

La gestion de cette complexité nécessite l’emploi d’outils de monitoring spécialisés (GTB) ainsi qu’une méthode signalétique conférant à l’ensemble la lisibilité nécessaire sur le terrain technique. Il est toutefois difficile, sinon impossible, de se prémunir, avec une absolue certitude et en toutes circonstances, d’une rupture partielle ou totale de l’alimentation électrique des équipements informatiques disposés en salle. D’une part, à cause du caractère purement exogène de certains facteurs de dysfonctionnement (défaillance régionale des fournisseurs d’énergie, destruction accidentelle d’infrastructures, sabotage, erreur humaine…) et de l’autre, parce-que l’adéquation entre la pertinence du design de fourniture énergétique et les besoins des SI s’avère en pratique malmenée par la rapidité avec laquelle ces derniers évoluent en matière de criticité business, de consolidation et de densité.

Quand bien-même des plans de continuité informatique, ou à défaut des plans de reprise d’activité, seraient activés, la question de la reprise en mode optimal après un incident électrique majeur se pose irrémédiablement tôt ou tard. Elle doit alors tenir compte de la possibilité de dégâts occasionnés sur les actifs physiques et immatériels, d’une cause première potentiellement non identifiée ou incomplètement traitée, ainsi que du haut degré de stress occasionné par ce type de situation sur l’ensemble des parties prenantes.

Dans un contexte de rupture partielle du fonctionnement, les organisations disposant d’une supervision IT orientée Métier en addition d’un monitoring technique classique sont mieux positionnées pour qualifier d’emblée l’impact end-user et déclencher simultanément un plan de communication précis (en contenu et destinataires) et un plan de rétablissement tenant compte des priorités business.
Afin d’éviter les effets dévastateurs des interruptions en série, les exploitants doivent rapidement s’assurer que les équipements IT et ceux des processus supports du SI sont isolés des sources d’alimentation pour lesquelles le rétablissement stable et pérenne n’est pas garanti par les moyens généraux et les gestionnaires techniques du bâtiment. Si l’hypothèse d’une sous-capacité énergétique est évoquée, le redémarrage de l’activité nécessite un suivi de la puissance consommée tandis que les fonctions IT sont rétablies par ordre décroissant des priorités Métier.

La remise en route des équipements informatiques exige une méthode efficace à même d’éviter les retours en arrière, c’est-à-dire respectueuse d’une logique ascendante s’inspirant d’une synthèse opérationnelle des modèles OSI et TCP/IP et dûment validée à chaque jalon. Lorsque l’ensemble des composants de commutation, de routage, de filtrage ainsi les principaux tenants de l’infrastructure système sont disponibles, la remise en route (ou la bascule) des applications peut ensuite être déroulée par priorité fonctionnelle et selon le séquençage interne le plus cohérent dans le cas de composants logiciels distribués dans l’environnement.
Le succès de la gestion d’une telle crise réside dans la préparation à l’éventualité d’un dysfonctionnement électrique majeur, incluant les aspects de communication pré-formatés et la maintenance d’un micro-planning phasé identifiant les rôles et responsabilités des acteurs ainsi que les intrants/extrants qui concernent leur périmètre opérationnel.

Pour se former :

cellaconsilium-logo

Conception de Salle Technique – Data Center

Energie – Data Center