Was ist Monitoring

Warum Monitoring

Die perfekten IT-Systeme, die zuverlässig und ohne Fehler ihre Dienste tun, gibt es nicht. Ein funktionierendes IT-System ist kein Zustand, sondern ein Prozess, der von Menschen (Administratoren) permanent begleitet werden muss.

Zahlreiche Ereignisse sorgen immer wieder dafür, dass ein IT-System seinen Dienst versagt. Verschleißteile wie Festplatten, fehlerhafte Bedienung, bösartige Angriffe oder das Versäumen von regelmäßigen Pflegeaufgaben sind nur einige Gründe, warum Fehler und Ausfälle auftreten. Und spätestens dann, wenn Ihr Kunde schneller als Sie bemerkt, dass ein System nicht mehr funktioniert, brauchen Sie ein Monitoring.

Die folgenden Aufgaben sollte ein Monitoring-System für Sie erledigen:

  • den Status aller Komponenten erfassen
  • Daten aufbereiten, sortieren und bewerten
  • übersichtliche Zusammenfassungen präsentieren
  • Abweichungen vom Normalzustand erkennen
  • Alarmauslösen
  • Zustände und Veränderungen protokollieren
  • die Einhaltung von Prozessen oder eine Abweichung überwachen und protokollieren.

Monitoring ist mehr als ein Alarm im Fehlerfall

Je größer ein IT-System ist, desto schwieriger wird es, den Überblick über den Zustand des gesamten Systems und aller Einzelkomponenten zu behalten. Entsprechend muss das Monitoring-System komplexere Aufgaben als die zuvor beschriebenen erfüllen.

Einen Alarm zu senden, wenn ein Fehler auftritt, ist eine wichtige, aber bei weitem nicht die einzige Aufgabe eines Monitoring-Systems. Monitoring heißt, viele Daten zu sammeln und automatisiert die richtigen Schlüsse zu ziehen. Fällt eine Komponente aus, ist es nicht schwer, daraus zu schlussfolgern, dass ein Problem vorliegt! Es sollte sich jemand darum kümmern! Ab einer gewissen Anzahl von Systemen gehören Meldungen des Monitoring- Systems zum Alltag. Das Monitoring-System sollte harmlose von schweren Fehlern unterscheiden und je nach Schweregrad unterschiedliche Medien zur Benachrichtigung nutzen können.

Neben der Erkennung von Fehlern sollte ein Monitoring-System Schlüsse oder konkrete Aussagen zur Zuverlässigkeit von Systemen und Komponenten ermöglichen. Dazu ist das Speichern historischer Daten notwendig. Dabei sollte das System eine Schnittstelle und ein User-Interface zur Verfügung stellen, um die gespeicherten Daten schnell und bequem auswerten zu können.

IT-Verantwortliche und Systemadministratoren möchten mithilfe eines Monitoring-Systems auch vorbeugen, dass eine Komponente oder ein Dienst ausfällt. Dafür ist in der Regel die Auswertung großer Datenmengen notwendig. Die Performance von Komponenten und Diensten und die Auslastung der Infrastruktur muss ebenfalls permanent gemessen und grafisch dargestellt werden.

Ein einfaches Beispiel ist der freie Speicher auf einer Festplatte: Wenn das Monitoring-System einen Anstieg des verbrauchten Speichers von X GB pro Tag berechnet, ist es nicht schwer, vorherzusagen, wann die Festplatte voll sein wird.

Wenn nun ein Dienst auf fünf Server mit insgesamt 20 Festplatten zugreift, wollen Sie an einem Sonntagabend nicht in der Wochenendruhe gestört werden, nur weil eine Festplatte voll ist. Nun hat das Monitoring-System eine komplexe Aufgabe zu bewerkstelligen und muss die Daten von 20 Festplatten, 5 Servern, einem Dienst, den Wochentag und die Uhrzeit zu einer „Entscheidung“ verarbeiten: Geht ein Alarm raus, oder nicht?

Performancedaten werden aber nicht zur Prognose des nächsten Ausfalls gebraucht. Ein Monitoring-System sammelt viele Daten auf Verdacht, ohne dass diese automatisiert ausgewertet werden. Diese Daten brauchen Sie, um nicht vorhersehbare Störfalle zu erklären. Ein einfaches Beispiel sind die Besucherzahlen auf einer Webseite. Wenn der Webserver „abstürzt“, können Sie sich die Besucherzahlen als Graphen anschauen. Wenn dem Ausfall des Webservers ein ungewohnt hoher Anstieg der Besucherzahlen vorausging, wäre dies eine plausible Erklärung für den Ausfall. Die hohen Besucherzahlen könnten eine so hohe Last verursacht haben, dass der Server abgestürzt ist.

Auch für die Planung und den Ausbau der Hardware ist es wichtig zu wissen, wie stark die Hardware in der Vergangenheit ausgelastet war. Kunden wünschen oft einen Verfügbarkeitsreport. Oder vielleicht berechnen Sie Ressourcen je nach Verbrauch an Kunden. Auch das ist eine Aufgabe des Monitoring-Systems.

Die Anforderungen an ein IT-Monitoring-System können zusammenfassend in fünf Kategorien eingeordnet werden:

1. Zustand des Systems beobachten

  • „End-to-End“-Monitoring, bei dem der ausgelieferte Dienst so nah wie möglich am Endbenutzer auf Funktionsfähigkeit geprüft wird
  • Statuserfassung aller Dienste, Software und Hardware
  • Langzeitspeicherung von Informationen über die Verfügbarkeit von Diensten und Komponenten

2. Alarmierung

  • das manuelle Eingreifen ins System verlangen
  • einen Mitarbeiter so gut wie möglich über die Ursache eines Fehlers informieren.
  • Reaktionszeiten und die Fehlerbehebung dokumentieren

3. Diagnose

  • genügend Informationen sammeln, um eine detaillierte Ursachenanalyse zu ermöglichen
  • Informationssammlung für Entscheidungen

4. Qualitätsmessung

  • Datensammlung über die Leistungsfähigkeit und den Durchsatz des Systems und Teilkomponenten
  • Erfassung von vereinbarten Grenzwerten und deren Einhaltung
  • Identifikation von Engpässen, Überlastungen und Implementierungsfehlern

5. Konfiguration

  • Überwachung von standardisierten Konfigurationen
  • Warnen bei Abweichungen von einem standardisierten Vorgehen

Besonders der letzte Punkt, die Überwachung von standardisierteren Konfigurationen, wird oft vernachlässigt. Eine Konfiguration gemäß des vereinbarten Standards ist aber für ein stabiles System essenziell. Oder anders formuliert: Die Ursache für Probleme sind häufig Änderungen an der Umgebung! Woher kommt der in IT-Kreisen oft zitierte Spruch „Never touch a running system“? Der Grund ist, dass einmal gut laufende Systeme oft jahrelang ohne Probleme weiterlaufen. Korrekt konfigurierte Systeme minimieren das Risiko von Ausfällen.

Ihr Monitoring-System sollte in der Lage sein, die folgenden Aspekte der Systemkonfiguration zu dokumentieren und bei Abweichungen zu alarmieren:

  • Wann wurden Änderungen an der Konfiguration vorgenommen? Wenn beispielsweise die Änderung an einer Apache-Konfigurationsdatei und der spätere Ausfall des Webservers in ein gemeinsames kleines Zeitfenster passen, liegt die Vermutung nahe, dass die Änderung für den Ausfall verantwortlich ist.
  • Wird die richtige (vereinbarte) Software eingesetzt? Manche Mitarbeiter experimentieren auch mit kritischen Systemen. Monitoren Sie nicht nur, dass irgendein Mailserver läuft. Monitoren Sie, dass der in Ihrer Firma vereinbarte Standardmailserver läuft.
  • Wann wurden Updates und Patches eingespielt? Das Monitoring sollte also stets dokumentieren, welche Version und welches Release von einer Software im Einsatz war.
  • Gibt es Sicherheitsupdates für Software und das Betriebssystem und wann wurden diese Updates eingespielt?

Mit Monitoring beginnen

Denken Sie nun, Monitoring ist kompliziert? Nein, ist es nicht! Mit der richtigen Software ist es einfach. CloudRadar ist eine Monitoringsoftware as a Service, die die vorgenannten Ziele erfüllt.

Nun könnten Sie einwenden, dass man für die genannten Aufgaben keine spezielle Software braucht. Ein paar Skripte tun es doch auch. Wenn Sie einen einzelnen Webserver überwachen möchten, dann kommen Sie mit einem Skript sicher zu akzeptablen Lösungen. Wenn es aber um ein Netzwerk und Server im produktiven Einsatz geht, reichen Skripte nicht aus. Ein Dienst wie CloudRadar kann mehr:

  • Es wird nicht nur das Endprodukt, z.B. die Verfügbarkeit einer Website überwacht. Alle Teilkomponenten, wie Hard- und Software, Betriebssysteme und Netzwerkinfrastruktur werden beobachtet.
  • Durch das Überwachen von vielen Teilkomponenten wie z.B. des freien Festplattenplatzes können Fehler vorgebeugt werden. Routineaufgaben werden nicht mehr vergessen.
  • Ressourcenengpässe werden frühzeitig erkannt.
  • Ein einheitliches Setup wird gewährleistet. Das Monitoring erkennt sofort, wenn ein Kollege sich bei der Installation eines neuen Servers nicht an die vereinbarten Konventionen gehalten hat. Das Monitoring liefert eine Todo-Liste, was zu ändern ist.
  • Die Alarmierung erfolgt zielgerichtet. Nur die relevanten Daten werden verschickt. Der Admin weiß sofort, wo er mit der Fehlerbehebung beginnen muss. (Ein Router fällt aus. Sie wollen i.d.R. dann nicht noch unzählige SMS bekommen, die Sie darüber informieren, welche Webseiten nun auch offline sind, weil der entsprechende Webserver hinter dem ausgefallenen Router hängt.)