Aufgrund der Komplexität moderner Cloud-Anwendungen können Server schnell anlaufen und anhalten und gelten dabei als entbehrlich. Server sind so konzipiert, dass sie bei einem Ausfall ersetzt und nicht neu konfiguriert werden. Das bedeutet jedoch auch, dass Sie feststellen müssen, was schief gelaufen ist, bevor eine Serverinstanz abstürzt. Hardware-Komponenten können ausfallen. Software kann sich ohne Ressourcen aufhängen oder mit einem Fehler auf unerwartete Client-Anforderungen reagieren. Konfigurationseinstellungen ändern sich. Und zusätzlich können auch Hacker immer ihre Finger im Spiel haben und neue Techniken ausprobieren, um sich unbefugten Zugriff zu verschaffen.
Mangelhafte Serverintegrität beeinträchtigt Ihr Unternehmen. Gleichzeitig erfordert optimale Integrität einen kontinuierlichen und detaillierten Überblick über Ihre Server und ihr Verhalten – mit anderen Worten: Überwachung.
In diesem Artikel befassen wir uns mit der Serverüberwachung und erklären, warum sie ein integraler Bestandteil des IT-Betriebs in einem Unternehmen sein sollte. Darüber hinaus werden wir uns einige Best Practices für die Serverüberwachung ansehen.
Überwachung komplexer und zahlreicher dynamischer Elemente
Server führen eine sehr breite Palette von Funktionen aus. Sie hosten Datenbanken, Firewalls, Backups, Anwendungen und Web-Services. Wenn man bedenkt, wie viele Rollen Ihr Server spielen kann (und wie viele dieser Teilprozesse möglicherweise gleichzeitig ausgeführt werden), dann wird klar, dass die Überwachung eines Servers über reine Verfügbarkeitsüberwachung hinausgeht.
Serverüberwachung kann daher bedeuten, mehrere Elemente im Auge zu behalten, darunter:
- Netzwerkkonnektivität und -verfügbarkeit, Betriebszeit und Boot-Historie
- Verfügbare Kapazität und Leistung von CPU, Arbeitsspeicher (RAM), Speicher und Netzwerkbandbreite
- Zustand und Stabilität des Betriebssystems, einschließlich Patch-Level, Größe der Auslagerungsdatei (oder Seitendatei) und kritischer Services wie Protokollierung
- Authentifizierungs- und Autorisierungsereignisse wie Anmeldungen, Abmeldungen, Dateizugriff und Fehlversuche
- Aktuell angemeldete Benutzer und die von ihnen ausgeführten Prozesse
- Status der auf dem Server ausgeführten Hauptanwendung und ihrer Unterstützungsservices
- Verfügbarkeit, Patch-Status, Ressourcenverbrauch und Fehlermeldungen aller laufenden Anwendungen und Services
- Sowohl vom Betriebssystem als auch von der Anwendung generierte Log-Dateien, z. B. sicherheitsbezogene Ereignisse, Einrichtung, Konfigurationsänderungen, Fehler usw.
- Generierte Metriken, Ereignisse und Traces
Natürlich kann man diese dynamischen Elemente in ihrer Fülle nicht lückenlos verfolgen, indem man sich nacheinander bei jedem Server anmeldet und die Datensätze dann manuell zusammenstellt, durchsucht und analysiert oder eine Diagnosesoftware ausführt. Selbst die individuelle zentralisierte Überwachung jeder einzelnen Komponente (z. B. eine für die Hardware, eine für das Betriebssystem und noch eine für die Anwendung) wird schnell unmöglich.
Ideal wäre eine integrierte Überwachungslösung, die alle Faktoren abdeckt, die die Gesamtintegrität Ihres Systems betreffen. Ein solche Lösung würde über Standardprotokolle automatisch mit Ihren Servern kommunizieren, die Daten erfassen oder von Agenten gespeist werden, die auf den Servern installiert sind. Sie würde die Protokolle, Metriken, Ereignisse und Traces von den Zielservern in Echtzeit erfassen, platzsparend speichern und für eine einfache Suche und Analyse oder Visualisierung über Dashboards indexieren. Außerdem könnte die Lösung Echtzeitwarnungen an das zuständige Team senden, sobald ein Problem erkannt wird.
Das ist die Aufgabe von Serverüberwachungstools.
Warum ist Serverüberwachung wichtig?
Wenn auf geschäftskritischen Servern komplexe Workloads ausgeführt werden, können Sie ihren täglichen Betrieb nicht dem Zufall überlassen. Wenn der Datenbankserver, der Ihre E-Commerce-Site betreibt, ausfällt oder langsamer wird, ärgern sich die Kunden und brechen ihre Transaktionen ab.
Wenn Technologie ausfällt, können unter Umständen auch gesetzliche Verpflichtungen nicht mehr eingehalten werden, da sie oft eine zuverlässige und sichere Infrastruktur voraussetzen. Die Einhaltung der entsprechenden gesetzlichen Normen gelingt nur, wenn Sie Ihre Serverumgebung vollständig verstehen und eine robuste, proaktive Überwachung implementieren, die sich an Änderungen anpassen kann.
Malware- und Ransomware-Angriffe sind heute häufige und ständige Bedrohungen. Die Kenntnis der aktuellen Bedrohungslandschaft und der Reaktionsmöglichkeiten Ihres Systems bei solchen Angriffen ist ein wichtiger Bestandteil der Sicherheitsvorsorge. Ohne einen guten Überblick über den Zustand Ihrer Server können Sie sich jedoch nicht angemessen vorbereiten. Eine gute Überwachungslösung kann hier liefern. Ein Überwachungssystem kann sofort verstehen, wann und warum ein ungewöhnliches Ereignis aufgetreten ist. Es kann beispielsweise zeigen, ob Lastspitzen aufgrund einer erhöhten Benutzernachfrage aufgetreten sind oder ob böswillige Systemprozesse dafür verantwortlich waren. Sicherheitsüberwachungskomponenten wie Virenschutz, Datenverlustprävention (DLP) und Systeme zur Erkennung von Host-Eindringungsversuchen (HIDS) können Sie vor Cyberangriffen schützen. SIEM-Systeme (Sicherheitsinformations- und Ereignismanagement) sind – vielleicht – die ultimativen „Nutznießer“ moderner Überwachungslösungen, denn sie rentieren sich auf vielfache Weise.
Nur wenn Sie wirklich alle Server überwachen, können Sie sicher wissen, ob ein bestimmtes Problem einen Neustart, die Beendigung eines Prozesses, ein Kapazitätsupgrade oder einen robusteren Failover-Mechanismus erfordert. Eine proaktive Planung und Implementierung auf Grundlage eines solchen Feedbacks kann erheblich dazu beitragen, dass Serverausfallzeiten vermieden werden und Sie die SLAs Ihrer Kunden einhalten können. Ein solides Überwachungssystem kann Ihnen dabei helfen, Baselines für den Betrieb zu definieren, um den zukünftigen Kapazitätsbedarf vorherzusagen und die Notwendigkeit sofortiger Upgrade-, Austausch- und zusätzlicher Automatisierungsschritte zu antizipieren.
Best Practices bei der Serverüberwachung
In Anbetracht der Komplexität von Infrastrukturumgebungen, die aus hunderten oder tausenden Servern bestehen, sollten Sie bei Ihrem Überwachungsregime auf einige wichtige Punkte achten.
Im ersten Schritt ist es wichtig, eine genaue und aktuelle Bestandsaufnahme Ihrer gesamten Serverflotte zu machen. Stellen Sie außerdem sicher, dass Sie sie richtig kategorisieren. Welche Server und Komponenten sind kritisch? Welcher Software sollte die höchste Priorität eingeräumt werden?
Definieren Sie als technischer oder kaufmännischer Verantwortlicher für jeden Server folgende Punkte so gut wie möglich:
- Prioritäten
- Metriken
- Empfohlene Überwachungsintervalle
- Akzeptable Baseline-Leistung
- Bedingungen für Warnungen und Fehler
- Reaktionen
Die technischen und kaufmännischen Verantwortlichen kennen ihre Systeme am besten. Daher sollten sie beispielsweise auch entscheiden, welche Fehlerprotokolle und Serverstatuscodes genau überwacht werden sollten, und ein Profil mit eindeutigen und praktikablen Schwellenwerten für die Metriken erstellen. Sie wissen auch, wie oft alles aktualisiert werden sollte. Sollten sie diese Informationen nicht bereitstellen, können Sie entscheiden, was auf diesen Systemen überwacht werden soll, und es den Beteiligten mitteilen.
Ein Überwachungstool muss mit der Zielinfrastruktur kompatibel sein. Sie verwenden zum Beispiel keine Windows-Überwachungslösung, um Ihre Linux-Server zu überwachen. Daher sollte die Überwachungslösung ein breites Spektrum an Serverhardware-Optionen, Netzwerktopologien, Betriebssystemen und Anwendungen abdecken.
Die von Servern in einer komplexen Umgebung generierten Metriken können schnell Daten im Terabyte-Bereich umfassen. Die Lösung Ihrer Wahl muss in der Lage sein, diese riesigen Datenmengen zu erfassen, zu verarbeiten, zu speichern und zu analysieren. In einigen Fällen eignen sich SaaS-Lösungen dafür ideal.
Die Dashboards Ihrer Überwachungslösung sollten sich durch einfache Navigation, Verständlichkeit und Interpretation auszeichnen und zum Beispiel Trends und Anomalien aus historischer Daten ableiten und darstellen können. Darüber hinaus sollten sie die Möglichkeit bieten, Schwellenwerte für Warnungen bei erkannten Anomalien und Abweichungen von akzeptierten Baselines zu definieren. Nach der Identifizierung sollte die Lösung Warnmeldungen an das Serverüberwachungsteam senden und ein Ticket in Ihrem Service-Management-System erstellen – vorzugsweise automatisch. Einige Überwachungslösungen gehen noch einen Schritt weiter, indem sie es Ihnen ermöglichen, direkt über ihre Schnittstellen basierend auf Playbooks Behebungsmaßnahmen auszulösen.
Vollständige Protokollierung und Einblicke – kostenlos
Falcon LogScale Community Edition (ehemals Humio) ist eine kostenlose moderne Log-Management-Plattform für die Cloud. Durch die Erfassung von Streaming-Daten erhalten Sie einen sofortigen Überblick über verteilte Systeme und können Zwischenfälle verhindern bzw. beheben.
Falcon LogScale Community Edition ist sofort kostenlos verfügbar und bietet folgende Vorteile:
- Erfassung von bis zu 16 GB pro Tag
- Speicherung bis zu 7 Tage
- Keine Kreditkarte erforderlich
- Unbegrenzter Zugriff ohne Testzeitraum
- Indexlose Protokollierung, Echtzeit-Warnungen und Live-Dashboards
- Zugriff auf unseren Marktplatz und zugehörige Pakete, einschließlich Leitfäden zur Entwicklung neuer Pakete
- Lernen und Kooperation in einer aktiven Gemeinschaft