La complexité des applications cloud modernes peut entraîner des démarrages et des arrêts intempestifs des serveurs, désormais considérés comme des composants jetables. En cas de problème, les serveurs sont voués à être remplacés, plutôt que reconfigurés. Cela ne vous dispense toutefois pas d'identifier la cause de l'arrêt de l'instance de serveur : défaillance de composants matériels, blocage du logiciel par manque de ressources ou lenteur de la réponse à la suite de demandes client inattendues, modification des paramètres de configuration, etc. Les cyberpirates peuvent profiter de ces incidents pour tenter d'obtenir un accès non autorisé au moyen de techniques inédites.
Tout problème d'intégrité de vos serveurs peut nuire à vos activités. Pour assurer leur bon fonctionnement, vous devez bénéficier d'une visibilité continue et en profondeur sur vos serveurs et leur comportement, c'est-à-dire mettre en place une surveillance.
Cet article s'intéresse à la surveillance des serveurs et explique pourquoi elle devrait faire partie intégrante des opérations informatiques de toute entreprise. Nous passerons également en revue quelques-unes des bonnes pratiques en la matière.
Surveillance des nombreux éléments mobiles complexes
Les serveurs assument un large éventail de fonctions, notamment l'hébergement de bases de données, de pare-feux, de sauvegardes, d'applications et de services web. Compte tenu de ces nombreuses fonctions et du nombre de processus secondaires susceptibles d'être exécutés simultanément, la surveillance d'un serveur ne se limite pas à évaluer son accessibilité.
La surveillance des serveurs consiste au contraire à surveiller de nombreux éléments, notamment :
- Connectivité et disponibilité du réseau, périodes de disponibilité et historique des démarrages
- Capacité disponible et performances du processeur, de la mémoire (RAM), du stockage et de la bande passante du réseau
- Intégrité et stabilité du système d'exploitation, notamment le niveau de correctifs, la taille du fichier de segments permutés et des services critiques comme la journalisation
- Événements d'authentification et d'autorisation, tels que connexions, déconnexions, accès aux fichiers et tentatives infructueuses
- Utilisateurs actuellement connectés et processus en cours d'exécution
- État de l'application principale exécutée sur le serveur, ainsi que des services pris en charge
- Disponibilité, niveau de correctifs, consommation de ressources et messages d'erreurs associés à l'ensemble des applications et services en cours d'exécution
- Logs générés par le système d'exploitation et les applications, notamment ceux relatifs à la sécurité, aux réglages, aux changements de configuration et aux erreurs
- Mesures, événements et traces générés
Il est bien entendu impossible d'assurer le suivi de tous ces éléments mobiles en se connectant physiquement à chaque serveur, puis en regroupant, interrogeant et analysant les enregistrements ou en exécutant un logiciel de diagnostic. Il n'est pas non plus envisageable de procéder à une surveillance centralisée de chaque composant (matériel, système d'exploitation et applications).
L'idéal est de se doter d'une solution de surveillance intégrée assurant la surveillance de tous les éléments intervenant dans l'intégrité globale de votre système. Cette solution doit être en mesure de communiquer automatiquement avec vos serveurs via des protocoles standard, de collecter les données ou d'obtenir le flux de données des agents installés sur les serveurs. Elle doit également permettre de collecter en temps réel les logs, les mesures, les événements et les traces depuis les serveurs cibles, de les stocker de façon rationnelle et de les indexer pour faciliter les recherches et les analyses, de même que la visualisation dans des tableaux de bord. Enfin, cette solution doit pouvoir envoyer des alertes en temps réel à l'équipe compétente en cas de problème.
Telle est précisément la fonction des outils de surveillance des serveurs.
Pourquoi la surveillance des serveurs est-elle importante ?
Si vos serveurs critiques exécutent des workloads complexes, vous ne pouvez pas vous permettre que leurs opérations quotidiennes subissent des modifications. En effet, si le serveur de bases de données qui alimente votre site d'e-commerce tombe en panne ou est ralenti, vos clients seront contrariés et abandonneront leurs transactions.
Les défaillances technologiques peuvent également nuire à vos obligations réglementaires. Pour respecter les exigences de conformité, votre infrastructure doit être fiable et sécurisée. Pour ce faire, vous devez avoir une parfaite connaissance de l'environnement de votre serveur et mettre en place une surveillance efficace, proactive et évolutive.
Les attaques de logiciels malveillants et de ransomwares vous menacent en permanence. Pour être parfaitement préparé à ces attaques, vous devez avoir une bonne connaissance du paysage des menaces actuel et de la réaction probable de votre système à de tels événements. Cette préparation nécessite une bonne visibilité sur vos serveurs grâce à une solution de surveillance performante, capable de déterminer instantanément quand et pourquoi un événement anormal est survenu. Elle pourra, par exemple, vous indiquer si les pics de charge sont dus à une augmentation des demandes des utilisateurs ou à des processus système non approuvés. Les outils de surveillance de la sécurité, comme les antivirus, les solutions de prévention des fuites de données (DLP) et systèmes de détection des intrusions sur l'hôte (HIDS), permettent de garder une longueur d'avance sur les cyberattaques. Les systèmes SIEM (gestion des événements et des informations de sécurité) sont sans doute les solutions de surveillance modernes les plus performantes, dont l'investissement est largement amorti.
Seule une surveillance complète de l'ensemble de vos serveurs vous permettra de déterminer avec certitude si un incident donné nécessite un redémarrage, la neutralisation d'un processus, la mise à niveau d'une fonctionnalité ou la mise en place d'un mécanisme de basculement plus performant. Une planification et une implémentation proactives basées sur ces informations contribueront dans une large mesure à maintenir la disponibilité de vos serveurs et à respecter les accords de niveau de service de vos clients. Un système de surveillance performant peut vous aider à définir des bases de référence opérationnelles qui, à leur tour, peuvent vous aider à prévoir vos futurs besoins en capacité et à anticiper les mises à niveau urgentes, les remplacements et les automatisations supplémentaires.
Bonnes pratiques en matière de surveillance des serveurs
Compte tenu de la complexité des infrastructures informatiques constituées de centaines, voire de milliers de serveurs, il convient de mettre en place un certain nombre de bonnes pratiques en matière de surveillance.
Vous devez tout d'abord dresser un inventaire précis et à jour de votre parc de serveurs. Vous devez également les classer correctement. Quels sont les serveurs et les composants critiques ? À quel niveau de votre infrastructure logicielle devez-vous donner la priorité ?
Pour chaque serveur, les dirigeants d'entreprises et les propriétaires de technologies doivent s'efforcer de déterminer les aspects suivants :
- Priorités
- Indicateurs
- Fréquence de surveillance recommandée
- Performances de base acceptables
- Conditions d'avertissement et d'erreur
- Réponses
Étant donné leur connaissance approfondie de leurs systèmes, ces dirigeants d'entreprises et propriétaires de technologies sont par ailleurs les mieux à même de décider quels logs d'erreurs et codes de statut de serveur nécessitent une surveillance étroite. Ils sont également les plus qualifiés pour établir un profil de seuils de mesure clairs et pratiques, mais également pour déterminer la fréquence des mises à jour. Si ces personnes ne sont pas en mesure de fournir ces informations, vous pouvez vous-même décider des composants à surveiller et en informer les parties prenantes.
Un outil de surveillance doit être compatible avec l'infrastructure cible. Par exemple, vous ne pouvez pas utiliser une solution de surveillance Windows pour surveiller vos serveurs Linux. La solution de surveillance doit donc couvrir un large éventail d'options matérielles, de topologies réseau, de systèmes d'exploitation et d'applications.
Dans un environnement complexe, les indicateurs générés par les serveurs peuvent rapidement se compter en téraoctets par jour. La solution que vous choisirez devra donc être en mesure d'ingérer, de traiter, de stocker et d'analyser de tels volumes de données. Les solutions SaaS peuvent parfois s'avérer très utiles à cette fin.
Les tableaux de bord de votre solution de surveillance doivent être faciles à parcourir, à comprendre et à interpréter. Ils doivent être capables d'identifier les tendances et les anomalies à partir des données historiques. Vous devez pouvoir définir des seuils d'alerte en cas d'anomalies et d'écarts par rapport aux valeurs de référence acceptées. Une fois les anomalies identifiées, la solution doit être en mesure d'envoyer des alertes à l'équipe de surveillance du serveur et, de préférence, de créer automatiquement un ticket dans votre système de gestion des services. Certaines solutions de surveillance vont encore plus loin et vous autorisent à prendre des mesures correctives directement depuis leur interface au moyen de correctifs basés sur une stratégie.
Journalisez toutes vos données et répondez à toutes les questions – gratuitement
Falcon LogScale Community Edition (anciennement Humio) offre une plateforme moderne et gratuite de gestion des logs pour le cloud. Exploitez l'ingestion des données de streaming pour bénéficier d'une visibilité instantanée sur les systèmes distribués, de même que détecter et résoudre les incidents.
Falcon LogScale Community Edition, disponible instantanément et gratuitement, inclut les fonctionnalités suivantes :
- Ingestion de jusqu'à 16 Go de données par jour
- Durée de rétention de 7 jours
- Aucune carte de crédit n'est requise
- Accès continu sans période d'essai
- Journalisation sans index, alertes en temps réel et tableaux de bord en direct
- Accès à notre place de marché et à nos packages, y compris aux guides de création de nouveaux packages
- Formation et collaboration avec une communauté active