Was ist Infrastrukturüberwachung?

Moderne Software-Anwendungen müssen zuverlässig und belastbar sein, um die Anforderungen einer weltweiten Kundschaft zu erfüllen. Angesichts eines durchschnittlichen Umsatzes von 10.000 $ pro Sekunde in 2020 hätten bei Amazon schon 30 Sekunden Ausfallzeit das Unternehmen Hunderttausende Dollar gekostet.

Damit Software mit der Nachfrage Schritt halten kann, ist Infrastrukturüberwachung von entscheidender Bedeutung. Damit lassen sich Betriebs- und Leistungsdaten aus Systemen erheben, um diese zu diagnostizieren, von Fehlern zu befreien und zu verbessern. Die zuständigen Teams können diese Daten in verschiedenen Dashboards und Diagrammen zusammenfassen und so einen noch besseren Einblick in die Infrastruktur erlangen

Die Überwachung umfasst häufig physische Server, virtuelle Maschinen, Datenbanken, Netzwerkinfrastruktur, IoT‑Geräte (Internet of Things, also das „Internet der Dinge“) und vieles mehr. Voll ausgestattete Überwachungssysteme können Sie auch benachrichtigen, wenn in Ihrer Infrastruktur etwas nicht stimmt.

In diesem Artikel bieten wir einen umfassenden Überblick über die Infrastrukturüberwachung und beantworten dabei folgende Fragen:

  • Warum ist Infrastrukturüberwachung wichtig?
  • Wie funktioniert Infrastrukturüberwachung?
  • Welche Elemente Ihrer Infrastruktur sollten Sie überwachen?
  • Welche Faktoren sind bei einer Plattform für Infrastrukturüberwachung wichtig?

Los geht's.

Warum ist Infrastrukturüberwachung wichtig?

Ausfälle und eine Nichtverfügbarkeit des Systems haben konkrete Geschäftsauswirkungen. Der Vertrauensverlust führt zu sinkenden Nutzerzahlen und damit letztlich zu Umsatzeinbußen. Da die Gesamtbereitschaft Ihres Systems von entscheidender Bedeutung ist, benötigen Sie konstante Einsicht in die Systeminfrastruktur, um dessen aktuellen Zustand zu überblicken. Infrastrukturüberwachung bietet Ihnen genau den Einblick, den Sie benötigen.

Durch Infrastrukturüberwachung können Verwaltungsteams Live-Informationen über die Leistung ihrer Systeme einsehen. Zu den verfügbaren Kennzahlen gehören:

  • IOPS des Datenträgers
  • Netzwerkdurchsatz
  • Anteil des verwendeten Arbeitsspeichers
  • Anteil der verwendeten CPU
  • Aktuelle Anzahl der Datenbankverbindungen

Die Erfassung von Kennzahlen ermöglicht Unternehmensteams eine Trendanalyse ihres Systems für eine bessere Planung der Systemkapazität. Infrastrukturteams können damit die automatisierte Systemskalierung vorantreiben. Beispielsweise kann eingerichtet werden, dass ein System automatisch auf zusätzliche Rechenressourcen skaliert, sobald die CPU-Auslastung einen bestimmten Schwellenwert überschreitet.

Letztendlich helfen die Daten aus der Infrastrukturüberwachung einem Unternehmen, sich auf die Anforderungen seiner Kundschaft einzustellen, SLA-Anforderungen (Service‑Level Agreement) zu erfüllen und Kundenerwartungen zu bedienen.

Zwar gibt es mehrere konkrete Anwendungsfälle für die Infrastrukturüberwachung, wir wollen uns hier jedoch speziell auf Fehlerbehebung, Kosteneinsparungen und Benchmark-Analysen konzentrieren.

Fehlerbehebung

Telemetriedaten können Kennzahlen und Protokolle zu hoher Auslastung oder geringer Verfügbarkeit liefern, sobald diese eintreten. Diese Daten können Lastenausgleichssysteme dazu veranlassen, die Last auf andere in einem Cluster verfügbare Server zu verteilen. Nachdem der Zeitraum erhöhter Last abgeklungen ist, können Sie diese Daten analysieren, um besser zu bestimmen, was den Anstieg verursacht hat.

Kosteneinsparungen

Datenbankkennzahlen verschaffen Unternehmensteams beispielsweise Einblick in die Abonnementanforderungen für Systeme. Sie können eine Datenbank überwachen, um Spitzenlastzeiten zu ermitteln und potenzielle Lösungen für Kosteneinsparungen zu finden. Wenn Sie feststellen, dass eine Datenbank nur drei Monate im Jahr stark ausgelastet ist, könnte ein Administrator die Datenbank in den verbleibenden neun Monaten auf günstigere Hosting-Optionen umstellen.

Benchmark-Analysen

Mithilfe von Infrastrukturüberwachung über einen längeren Zeitraum lassen sich Verlaufstrends zur Anwendungsleistung erstellen. Das Leistungsprofil kann eine Fülle von Informationen enthalten, darunter die Gesamtanzahl der Client-Verbindungen, Spitzenlastzeiten, Netzwerklatenz und vieles mehr. Wochen- oder Monatskennzahlen können erhebliche Abweichungen bei der Anwendungsnutzung aufdecken und Unternehmensteams dazu veranlassen, potenzielle Änderungen im Verbraucherverhalten näher zu untersuchen.

Wie funktioniert Infrastrukturüberwachung?

Die Infrastrukturüberwachung stützt sich auf Telemetriedaten ab, die von den Zielsystemen übermittelt werden. Typische Quellen sind hier – neben vielen weiteren Datentypen – die Protokolle, Kennzahlen, Ereignisse und Ablaufverfolgung des Systems. Zusammengenommen verleihen alle diese Daten einen wertvollen Einblick ins System.

Beispiele für Telemetriedaten in Aktion

Anhand von ereignisbasierten Informationen aus Protokollen können Technikteams die Grundursache von Ausfällen ermitteln, beispielsweise wenn auf dem Server nicht mehr genügend Speicherplatz vorhanden ist.

Kennzahlen – wie IOPS, Netzwerkdurchsatz und verfügbarer Speicherplatz – werden gemäß den Überwachungszielen der unterschiedlichen Teams in regelmäßigen Abständen gemeldet. Dabei ist die Wahl der richtigen Kennzahlen für Ihren Anwendungsfall entscheidend. Beispielsweise können Datenbanken mit Speicherplatz-Kennzahlen Administratoren benachrichtigen, wenn der Speicherplatz in einer Datenbank knapp wird.

Die Ablaufverfolgung liefert Daten zu End-to-End-Transaktionen, die verschiedene Elemente eines Systems durchlaufen. Mithilfe von Ablaufverfolgung können Sie beispielsweise ermitteln, wie ein einzelner API-Aufruf von einem Client zu nachfolgenden API- oder Dienstaufrufen, der Ausführung von Funktionen und Datenbanktransaktionen geführt hat.

Alle diese Live-Informationen werden aktiv analysiert, indiziert und in einer Überwachungslösung gespeichert, auf die Unternehmensteams zugreifen können. Nutzer können Informationen abfragen und in Dashboards zusammenfassen, um verständliche Berichte zum Systemzustand zu erstellen.

Erfassung von Telemetriedaten

Damit eine Überwachungslösung funktioniert, muss sie systembezogene Daten empfangen. In der Regel erfolgt deren Erfassung in einer von zwei Formen.

Ein Ansatz zur Datenerfassung sieht die Installation von Agents auf jedem Zielsystem vor. Ein Agent ist eine kompakte Software-Ebene, die verwendet wird, um relevante Telemetriedaten zum Zustand des Systems zu erheben. Der Einsatz von Agents macht den Ansatz stark und sicher. Sie müssen jedoch auf jedem System verwaltet und installiert werden und sind für einige Cloud-Umgebungen möglicherweise ungeeignet. Es wird empfohlen, den Aktualisierungsprozess dieser Agents zu automatisieren, möglicherweise über eine CI/CD-Pipeline.

Der andere Ansatz zur Datenerfassung erfolgt ohne Agent. In der Regel setzt er voraus, dass ein System Daten an eine Überwachungslösung sendet oder dass die Überwachungslösung diese Daten aus dem System zieht bzw. ausliest. Für Server eignet sich dieser Ansatz besser, da dabei keine Agents auf den einzelnen Systemen gepflegt werden müssen. Allerdings sind die bei diesem Überwachungsansatz erfassten Systemdetails eher weniger umfassend.

Ideal ist ein gemischter Ansätzen – teils mit Agents, teils ohne. Die genaue Konfiguration hängt jedoch von Ihrem Anwendungsfall ab.

Welche Elemente Ihrer Infrastruktur sollten Sie überwachen?

Welche Elemente Ihrer Infrastruktur überwacht werden müssen, hängt von Faktoren wie SLA-Anforderungen, Systemstandort und Komplexität ab. Google orientiert sich dabei an Four Golden Signals, also den „vier goldenen Signalen“. Diese können Ihrem Team dabei helfen, die wichtigsten Kennzahlen einzugrenzen. Die meisten lokalen Systeme lassen sich recht einfach überwachen. Cloud-Anbieter können jedoch einschränken, welche gehosteten Systeme überwacht werden können. Die meisten Anbieter gewähren Zugriff auf Systemkennzahlen, -protokolle und -ereignisse. Alles darüber hinaus ist für Sie möglicherweise nicht zugänglich. Zu den zu überwachenden Elementen Ihrer Infrastruktur gehören:

  • Server und ihre Komponenten
  • Netzwerkebenen und Geräte
  • Firewalls und API-Gateways
  • Load Balancer
  • Blockspeicher- oder Objektspeichersysteme
  • Datenbankinstanzen
  • Container und Container-Orchestratoren

Gängige Kennzahlen zur Systemüberwachung sind unter anderem:

  • Wenig Arbeitsspeicher
  • Wenig Speicherplatz
  • Warnungen zu hoher CPU-Auslastung
  • Übermäßig viele Verbindungsanfragen
  • Langsame Transaktionen
  • Hohe Netzwerklatenz
  • Übermäßig viele fehlgeschlagene Anfragen
  • Verworfene oder verloren gegangene Netzwerkpakete
  • Warnungen zu Zeitüberschreitungen
  • Überschüssige Container, die in einer Cluster-Umgebung geplant sind
  • Sicherungsstatus von Servern und Datenbanken

Diese Liste mit Kennzahlen für jedes System ist nicht vollständig. Vielmehr sollten Sie Ihre Geschäftsanforderungen und Erwartungen an verschiedene Elemente der Infrastruktur ermitteln. Diese Baseline verhilft Ihnen zu einem besseren Verständnis der zu überwachenden Kennzahlen und zur Orientierung bei der Festlegung von Warnschwellen.

Welche Faktoren sind bei einer Plattform für Infrastrukturüberwachung wichtig?

Effektive und zuverlässige Lösungen zur Infrastrukturüberwachung weisen im Allgemeinen folgende gemeinsamen Merkmale auf. Sehen wir sie uns einmal nacheinander an.

Einfache Installation und Verwaltung

SaaS-Lösungen lagern die Einrichtung, Sicherheit und Pflege einer Überwachungsplattform an einen Anbieter aus. So können sich Unternehmensteams vorrangig auf das System selbst konzentrieren. Eine umfassende Integration in Systemkomponenten ist entscheidend, damit eine einfache Überwachung und präzise Systemdaten zeitnah bereitgestellt werden. Auch der Datenschutz ist ein wichtiges Anliegen, und viele Unternehmen benötigen eine Plattform zur Bereinigung sensibler Daten bei deren Eingang.

Hohe Leistung

Aus einem umfassend überwachten System werden schnell große Datenmengen erfasst und exportiert. Daher muss die Überwachungsplattform in der Lage sein, diese mit hoher Geschwindigkeit aufzunehmen und zu verarbeiten. Nur auf diesem Leistungsniveau erhält ein Notfallreaktionsteam relevante und aktuelle Systeminformationen. In Kombination mit Funktionen wie Warnmeldungen kann sichergestellt werden, dass Anzeichen einer Systemstörung umgehend erkannt und behoben werden.

Fortschrittliche Tools zur Datenanalyse

Eine zuverlässige Lösung zur Infrastrukturüberwachung muss Tools umfassen, anhand derer Unternehmensteams ihre Dateninteraktion individuell anpassen können. Filter-, Such-, Korrelations- und Aggregationsfunktionen decken Beziehungen zwischen Daten auf, um potenzielle Probleme zu erkennen. Durch die Zusammenführung dieser Funktionen in Dashboards und Trendanalysen erhalten Teams die Informationen, die sie zum Verständnis des Systemzustands benötigen.

Vollständige Protokollierung und Einblicke – kostenlos

Falcon LogScale Community Edition (ehemals Humio) ist eine kostenlose moderne Log-Management-Plattform für die Cloud. Durch die Erfassung von Streaming-Daten erhalten Sie einen sofortigen Überblick über verteilte Systeme und können Zwischenfälle verhindern bzw. beheben.

Falcon LogScale Community Edition ist sofort kostenlos verfügbar und bietet folgende Vorteile:

  • Erfassung von bis zu 16 GB pro Tag
  • Speicherung bis zu 7 Tage
  • Keine Kreditkarte erforderlich
  • Unbegrenzter Zugriff ohne Testzeitraum
  • Indexlose Protokollierung, Echtzeit-Warnungen und Live-Dashboards
  • Zugriff auf unseren Marktplatz und zugehörige Pakete, einschließlich Leitfäden zur Entwicklung neuer Pakete
  • Lernen und Kooperation in einer aktiven Gemeinschaft

Kostenlos testen