ACCÉLÉRER LA REPRISE DU SERVICE APRÈS UN INCIDENT MAJEUR D’EXPLOITATION

Les accidents grave d’exploitation (ceux qui occasionnent une rupture locale de service aux utilisateurs, comme par exemple : une interruption complète de l’alimentation énergétique d’un Centre de données ou d’une salle informatique in-house) sont d’ordinaire couverts, pour leurs principaux impacts, par un Plan de Continuité Informatique. Le PCI s’inscrit lui-même dans le Plan de Continuité d’Activité de l’organisation propriétaire des actifs matériels et immatériels de la sphère IT. L’inaccessibilité locale du service n’est alors généralement par perceptible par l’utilisateur final, dont les requêtes sont redirigées et prises en charge par d’autres nœuds de traitement de l’information. A cet égard, la notion même de Cloud Computing peut être envisagée comme une combinaison des offres IaaS/PaaS/SaaS et d’une fonction de continuité mondialement distribuée parmi les Data Centers des cinq continents. Cette distribution internationale de services simultanément actifs confère à l’offre Cloud la crédibilité nécessaire en matière de résistance aux incidents et induit un partage de la détention et de l’exploitation des actifs entre l’organisation cliente et le fournisseur du service Cloud. Dans le cadre d’une solution SaaS, l’organisation cliente ne possède « que » ses données ; avec une offre PaaS, elle détient et exploite de surcroît les licences d’exploitation et les configurations des systèmes et des applications, tandis que la gestion matérielle au sens large (agencement, énergie, climatisation, maintenance, réseaux, télécoms…) demeure la prérogative du fournisseur de services.

Les services moins critiques peuvent quant à eux bénéficier d’un Plan de Reprise Informatique (PRI constitutif d’un PRA) si l’indisponibilité de ces services peut être tolérée, la perte des données récentes envisageable et/ou si les études de rentabilité de la mise en place d’un PCI démontrent une faible rentabilité en regard des résultats de celles en charge d’évaluer les risques de panne (probabilité, gravité, détectabilité).

Quel que soit le type de protection attaché à la préservation de la continuité du service (PCI, PRI ou aucun plan préventif), l’arrêt partiel ou total d’un nœud de traitement de l’information fragilise temporairement la robustesse de l’ensemble. Une fois la cause première identifiée la remédiation de celle-ci opérée, les exploitants s’évertuent donc à rétablir les services aussi promptement que possible, par ordre de priorité décroissante. L’infrastructure de commutation, de routage et de filtrage peut et doit être globalement redémarrée et/ou validée aussi rapidement que possible, ce qui nécessite un minimum de méthode, une bonne connaissance de l’organisation topologique et hiérarchique du réseau local et éventuellement, quelques sauvegardes de configuration d’équipements actifs à disposition… .

Après la remise en fonction et/ou la validation du bon fonctionnement du socle réseau/télécoms additionné des organes de sécurité périmétriques (firewalls, UTM, passerelles filtrantes, contrôle d’accès…), les applications les plus critiques peuvent être remises en fonction. Cependant, la notion d’ « application » se réfère en pratique à un écosystème de composants techniques en interaction et à polarité « end-user », eux-mêmes dépendants de composants logiciels  intermédiaires. D’où la pertinence de disposer d’un CMS (CMDB) à jour, d’avoir pré-documenté les relations de dépendance technique entre les applications et les composants systèmes sous-jacents (fédération d’identité, RADIUS, annuaire…) afin de maîtriser les séquences techniques de reprise et donner la priorité à la reprise des services les plus importants.

Pour se former :

cellaconsilium-logo

Conception de Salle Technique – Data Center

Energie – Data Center