Qu'est-ce que la surveillance des infrastructures ?
Les applications logicielles modernes doivent être fiables et résilientes pour satisfaire les besoins des clients à l'international. Si l'on prend l'exemple d'Amazon qui génère en moyenne 10 000 $ de ventes par seconde en 2020, 30 secondes à peine de temps d'arrêt leur coûterait des centaines de milliers de dollars.
Pour que les logiciels répondent à la demande, la surveillance de l'infrastructure est cruciale. Cela leur permet de collecter des données opérationnelles et de performances au sein de leurs systèmes à des fins de diagnostic, de correction et d'amélioration. Les équipes peuvent combiner ces données pour générer divers tableaux de bord et graphiques afin d'obtenir une vision plus claire de leur infrastructure.
La surveillance inclut souvent des serveurs physiques, des machines virtuelles, des bases de données, des infrastructures réseau, des terminaux IoT et bien plus. Les systèmes de surveillance complets peuvent aussi vous alerter en cas de problème dans votre infrastructure.
Dans cet article, nous faisons un tour d'horizon complet de la surveillance des infrastructures en abordant les questions suivantes :
- Pourquoi la surveillance des infrastructures est-elle importante ?
- Comment fonctionne la surveillance des infrastructures ?
- Quels éléments de votre infrastructure devriez-vous surveiller ?
- Quels sont les facteurs importants d'une plateforme de surveillance des infrastructures ?
C'est parti.
Pourquoi la surveillance des infrastructures est-elle importante ?
Les temps d'arrêt ou indisponibilités système ont un impact concret sur l'entreprise. La perte de confiance de l'utilisateur conduit à un déclin du nombre d'utilisateurs, ce qui se traduit finalement par une perte de revenus. L'état de préparation général de votre système est crucial, vous avez donc besoin d'une visibilité permanente sur votre infrastructure système pour comprendre l'état actuel de son intégrité. La surveillance d'infrastructure vous apporte le niveau de visibilité dont vous avez besoin.
La surveillance des infrastructures permet aux équipes administratives d'obtenir des informations en direct sur les performances système. Citons quelques-uns des indicateurs disponibles :
- les IOPS des disques
- le débit réseau
- le pourcentage de mémoire sollicité
- le pourcentage de processeur sollicité
- le nombre actuel de connexions à la base de données
La collecte d'indicateurs apporte aux équipes commerciales une analyse des tendances de leur système pour une meilleure planification des capacités du système. Les indicateurs système peuvent permettre à ces équipes d'effectuer une mise à l'échelle automatisée du système. Par exemple, vous pouvez faire en sorte que votre système soit en autoscaling pour solliciter des ressources de calcul supplémentaires dès que l'utilisation du processeur dépasse un certain seuil.
En fin de compte, les données issues de la surveillance des infrastructures aident les entreprises à planifier les demandes client, à satisfaire les exigences des accords de niveau de service (SLA) et à répondre aux attentes des clients.
Même s'il existe plusieurs cas d'usage concrets de surveillance des infrastructures, concentrons-nous en particulier sur le dépannage, les économies et l'évaluation.
Dépannage
Les données télémétriques peuvent fournir des indicateurs et des logs sur l'utilisation intense ou la faible disponibilité au moment où ces événements se produisent. Ces données peuvent déclencher des systèmes d'équilibrage de charge afin de répartir la charge sur d'autres serveurs disponibles dans un cluster. Une fois cette période d'augmentation de charge terminée, vous pouvez analyser ces données pour mieux en déterminer les causes.
Économies
Par exemple, les indicateurs des bases de données donnent aux équipes commerciales un aperçu des exigences en matière de souscription aux systèmes. Vous pouvez surveiller une base de données pour identifier les pics de charge et ainsi trouver des solutions possibles pour réaliser des économies. Si vous déterminez qu'une base de données n'est fortement sollicitée que trois mois par an, un administrateur pourrait alors migrer la base de données vers un hébergement moins coûteux pendant les neuf mois restants.
Évaluation
Au fil du temps, la surveillance des infrastructures permet d'établir des tendances historiques au niveau des performances des applications. Ce profil de performances peut inclure une pléthore d'informations, notamment le nombre total de connexions client, les pics de charge, la latence du réseau et bien plus. Les indicateurs hebdomadaires ou mensuels peuvent mettre en lumière les écarts importants dans l'utilisation des applications, ce qui incite les équipes commerciales à étudier plus en détail les changements potentiels de comportement chez les consommateurs.
Comment fonctionne la surveillance des infrastructures ?
La surveillance des infrastructures dépend des données télémétriques qui affluent depuis les systèmes cible. Bien qu'il existe différents types de données télémétriques, les sources les plus courantes sont les logs, les indicateurs, les événements et les traces du système. Ensemble, ces données peuvent fournir une observabilité du système.
Exemples de données télémétriques en action
Les informations basées sur les événements issues des logs permettent aux ingénieurs d'identifier la cause première des pannes, comme un serveur à court d'espace disque.
Les indicateurs, tels que les entrées/sorties par seconde, le débit réseau ou l'espace disque disponible, sont évalués à intervalles réguliers pour s'adapter aux objectifs de surveillance des différentes équipes. Il est crucial de sélectionner les indicateurs adaptés à votre cas d'usage. Par exemple, des bases de données avec des indicateurs d'espace disque peuvent alerter les administrateurs si l'une d'entre elles est sur le point de manquer d'espace.
Les traces fournissent des données relatives aux transactions de bout en bout transversales aux différentes parties d'un système. Par exemple, une trace peut vous aider à identifier de quelle manière un unique appel d'API par un client a subséquemment entraîné des appels d'API ou de service, l'exécution de fonctions et des transactions de base de données.
Toutes ces informations glanées en direct sont activement analysées, indexées et stockées dans une solution de surveillance accessible aux équipes commerciales. Les utilisateurs peuvent interroger et regrouper ces informations dans des tableaux de bord afin de rendre compte de l'état du système de manière compréhensible.
Collecte de données télémétriques
Pour qu'une solution de surveillance fonctionne, elle a besoin de recevoir des données concernant un système. Généralement, la collecte de données prend l'une des deux formes suivantes.
Une des approches de la collecte de données consiste à installer des agents sur chaque système cible. Un agent est une couche logicielle légère utilisée pour collecter des données télémétriques pertinentes à propos de l'état du système. L'utilisation d'agents rend votre approche solide et sûre. Cependant, vous devez les gérer et les installer sur chaque système, et il est possible qu'ils ne soient pas adaptés à certains environnements cloud. Nous vous recommandons d'automatiser le processus de mise à jour de ces agents, éventuellement via un pipeline CI/CD.
L'autre approche de la collecte de données s'effectue sans agent. Cette approche nécessite généralement l'envoi des données par le système à une solution de surveillance ou que cette solution de surveillance extraie ces données du système. L'approche sans agent est mieux adaptée aux serveurs car elle vous épargne la nécessité d'entretenir des agents sur chaque système. Toutefois, les informations système récupérées via cette approche de surveillance s'avèrent souvent moins complètes.
Une approche mixte, avec et sans agents, est la solution idéale. Cependant, la configuration exacte serait spécifique à son cas d'usage.
Quels éléments de votre infrastructure devriez-vous surveiller ?
L'identification des éléments de votre infrastructure à surveiller dépend de facteurs tels que les exigences des accords de niveau de service, l'emplacement du système et sa complexité. Google cultive ses quatre « Golden Signals » qui peuvent aider votre équipe à mieux définir les indicateurs importants. Vous pouvez aisément surveiller la plupart des systèmes sur site. Cependant, les fournisseurs de services cloud peuvent restreindre les systèmes hébergés que vous pouvez surveiller. La plupart des fournisseurs autorisent l'accès aux indicateurs, aux logs et aux événements du système. Tout autre élément au-delà de cette liste sera potentiellement inaccessible. Les éléments de votre infrastructure à surveiller comprennent notamment :
- Les serveurs et leurs composants
- Les couches et terminaux réseau
- Les pare-feux et les passerelles API
- Répartiteurs de charge
- Les systèmes de stockage par bloc ou par objet
- Les instances de bases de données
- Les conteneurs et les orchestrateurs de conteneurs
Parmi les indicateurs système les plus courants, citons notamment :
- Faible niveau de mémoire
- Faible espace disque
- Alerte d'utilisation élevée du processeur
- Excès de requêtes de connexion
- Lenteur des transactions
- Latence réseau élevée
- Excès d'échecs des requêtes
- Perte ou abandon de paquets réseau
- Alertes de délai dépassé
- Conteneurs planifiés en excès dans un environnement de clusters
- États des sauvegardes de serveurs et de bases de données
La liste des indicateurs pour chaque système n'est pas exhaustive. Il vaut mieux déterminer les exigences et les attentes de votre entreprise à propos des différentes parties de votre infrastructure. Ces cadres de référence vous aideront à mieux comprendre quels indicateurs surveiller et à établir des lignes directrices pour définir les seuils d'alerte.
Quels sont les facteurs importants d'une plateforme de surveillance des infrastructures ?
En général, les solutions de surveillance des infrastructures fiables et efficaces partagent des caractéristiques communes. Passons-les en revue l'une après l'autre.
Facilité d'installation et de gestion
Les solutions SaaS déchargent la configuration, la sécurité et la maintenance d'une plateforme de surveillance à un fournisseur. Cela permet aux équipes commerciales de se concentrer en priorité sur le système à proprement parler. Une intégration profonde avec les composants système est cruciale pour fournir au moment opportun une surveillance légère et des données système précises. La confidentialité des données est également une préoccupation importante. De nombreuses entreprises auront besoin d'une plateforme capable d'assainir les informations sensibles au moment de leur réception.
Hautes performances
Un système entièrement surveillé permettra de collecter et d'exporter rapidement un grand volume de données. De ce fait, la plateforme de surveillance doit pouvoir absorber et traiter ce volume de données à grande vitesse. Seul ce niveau de performance peut fournir à une équipe de réponse à incident des informations système pertinentes et en temps quasi réel. Combiner ces performances avec des fonctionnalités telles que des alertes peut garantir la détection et la correction rapide de tout signe d'atteinte à l'intégrité du système.
Outils avancés d'analyse des données
Une solution robuste de surveillance des infrastructures doit intégrer des outils d'assistance à la personnalisation des interactions avec les données. Des fonctionnalités de filtrage, de recherche, de corrélation et d'agrégation permettent d'établir des relations entre les données pour identifier les problèmes potentiels. Le regroupement de ces fonctionnalités en tableaux de bord et analyse des tendances fournissent les informations nécessaires à la compréhension par les équipes de l'intégrité du système.
Journalisez toutes vos données et répondez à toutes les questions – gratuitement
Falcon LogScale Community Edition (anciennement Humio) offre une plateforme moderne et gratuite de gestion des logs pour le cloud. Exploitez l'ingestion des données de streaming pour bénéficier d'une visibilité instantanée sur les systèmes distribués, de même que détecter et résoudre les incidents.
Falcon LogScale Community Edition, disponible instantanément et gratuitement, inclut les fonctionnalités suivantes :
- Ingestion de jusqu'à 16 Go de données par jour
- Durée de rétention de 7 jours
- Aucune carte de crédit n'est requise
- Accès continu sans période d'essai
- Journalisation sans index, alertes en temps réel et tableaux de bord en direct
- Accès à notre place de marché et à nos packages, y compris aux guides de création de nouveaux packages
- Formation et collaboration avec une communauté active