Auch Observability-Plattformen brauchen Transparenz über ihre eigenen Komponenten. Eine neue Funktion der KI-gestützten Observability-Plattform Dynatrace analysiert den OpenTelemetry Collector und hilft, potenzielle Datenverluste mithilfe von KI-gestützter Anomalieerkennung frühzeitig zu identifizieren und automatisiert gegenzusteuern.
Seit einigen Jahren gibt es ein Wettrennen zwischen Admins und der wachsenden Zahl zu betreuender IT-Systeme: Die Infrastruktur wird immer komplexer, ihre Überwachung wird deshalb immer aufwendiger. Denn moderne, cloud-native Anwendungen verteilen sich auf verschiedene Systeme, Plattformen und Clouds – und erhöhen damit die betriebliche Komplexität und das Risiko für Datenverluste. Eine manuelle Überwachung – etwa durch Auswertung von Logfiles – ist nicht mehr zu leisten. Stattdessen haben sich sogenannte Observability-Plattformen eingebürgert, die alle Telemetrie-Daten erfassen.
Telemetriedaten sind heterogen
Telemetriedaten in Cloud-Infrastrukturen bestehen zu einem großen Teil aus Logs, Metriken und Traces, die in Umfang, Format und Aussagekraft stark variieren – und daher nur schwer einheitlich zu verarbeiten sind.
- Logs (Protokolle) sind strukturierte oder unstrukturierte Dateien, die fortlaufend Systemereignisse dokumentieren – und in der Dynatrace-Plattform automatisiert und KI-gestützt analysiert werden, um Muster oder Anomalien zu erkennen. Vor allem bei betriebssystemnahen Tools sind es Klartext-Daten im ASCII-Format, bei vielen modernen Anwendungen allerdings auch binäre Daten.
- Metriken sind Datenpunkte, die durch Zählung oder Messung ermittelt werden. Sie werden häufig über einen Zeitraum aggregiert und stammen aus unterschiedlichen Quellen, etwa der Infrastruktur, einzelnen Hosts oder aus Drittanbieter-Lösungen.
- Traces entstehen durch die Verfolgung von Prozessen innerhalb der Infrastruktur. Sie zeigen, wie einzelne IT-Komponenten miteinander interagieren. Dafür werden heterogene Daten gesammelt, beispielsweise Bezeichner von Systemen und Diensten, Zeitstempel, Protokolle, Ereignisse und einiges mehr.
Das zeigt deutlich, dass Observability-Plattformen ganz unterschiedliche Daten verarbeiten müssen. Darüber hinaus ist es in weitläufigen IT-Landschaften nicht einfach, tatsächlich alle potenziell vorhandenen Telemetriedaten zu erfassen. Aus diesem Grunde gibt es einige Tools, die Daten sammeln und an eine Observability-Plattform weiterleiten.
Ein bekanntes und eingeführtes Open-Source-Framework für diesen Zweck ist das OpenTelemetry-Ökosystem. Es wird auch abgekürzt als OTel bezeichnet und besteht aus einer Sammlung von Tools, APIs und SDKs, mit der Unternehmen Telemetriedaten verarbeiten können. Dieses Ökosystem ist inzwischen ein De-facto-Standard für das Monitoring von Cloud-nativen Anwendungen. Es lässt sich in seiner Bedeutung mit Kubernetes als Standard für die Container-Orchestrierung vergleichen.
Der OpenTelemetry Collector als Datendrehscheibe
Eine zentrale Komponente ist hierbei der OpenTelemetry Collector. Diese Anwendung fungiert als Datendrehscheibe zwischen allen Anwendungen. Sie empfangen und erzeugen die Daten, die der Collector verarbeitet und weiterleitet. Sie erzeugen die Daten, die der Collector sammelt und verarbeitet. Schließlich reicht er sie an ein Observability-Backend weiter. Diese Rolle macht ihn zu einem Bindeglied zwischen der Erzeugung und der Auswertung der Daten.
Der Collector kann Daten aus vielen Formaten verarbeiten, darunter Jaeger, Zipkin, Prometheus, StatsD oder FluentD. Durch eine Filterfunktion lassen sich beispielsweise sensible Informationen wie personenbezogene Daten entfernen oder irrelevante Daten wie wiederholte gleiche Messwerte verwerfen. Zudem kann das System auch externe Kontextdaten wie Kubernetes-Labels hinzufügen. Diese Flexibilität erlaubt die effiziente Verarbeitung der Daten, die schließlich sicher an Systeme wie Dynatrace weitergeleitet wird.
Doch was ist mit der Collector-Komponente selbst? Auch der OpenTelemetry Collector muss kontinuierlich überwacht werden, denn selbst minimale Störungen – etwa durch Ressourcenengpässe oder Konfigurationsfehler – können die Qualität und Vollständigkeit der Telemetriedaten gefährden. Die KI-gestützte Observability-Plattform Dynatrace erkennt solche Abweichungen automatisch und unterstützt mit intelligenter Ursachenanalyse und Echtzeit-Visualisierung. Das neue Self-Monitoring-Dashboard für den OpenTelemetry Collector visualisiert interne Leistungs- und Zustandsmetriken und schafft damit eine fundierte Basis für präventive Optimierung – bevor kritische Telemetriedaten verloren gehen.
Transparenz durch Self-Monitoring
Die Dashboards basieren auf Daten, die vom Collector exportiert werden und sind direkt über den Dynatrace Hub installierbar. Nach der Aktivierung der internen Collector-Telemetrie stehen zwei vorgefertigte Dashboards zur Verfügung: eines für die Übersicht aller Collector-Instanzen und eines für die detaillierte Analyse einzelner Instanzen.
Das Multi-Collector-Dashboard zeigt aggregierte Metriken über alle Collector-Instanzen hinweg. Es ist in der Lage, beispielsweise einen plötzlichen Anstieg des Speicherverbrauchs in mehreren Instanzen sofort zu erkennen und mit gezielten Maßnahmen wie horizontaler Skalierung oder Lastverteilung zu beantworten. Diese Erkenntnisse unterstützen nicht nur die Kapazitätsplanung – sie ermöglichen es IT-Teams auch, proaktiv auf Engpässe zu reagieren, bevor sie sich negativ auf den Geschäftsbetrieb auswirken. Ein zentraler Aspekt ist die Überwachung der Verarbeitung von Telemetriesignalen (Alerts, Ereignisse und weitere Signale). Die Dashboards zeigen, wie viele Signale empfangen, verarbeitet, weitergeleitet oder abgelehnt wurden. So wird erkennbar, ob alle eingehenden Daten korrekt verarbeitet wurden oder es zu Datenverlusten kam.
Das Single-Collector-Dashboard erlaubt den Drilldown auf eine einzelne Instanz. Dabei stehen unter anderem der Speicherverbrauch und die Warteschlangen-Auslastung im Fokus. Wenn sich die Anzahl abgelehnter Datensätze erhöht, ist dies häufig ein Indikator für verdeckte Anomalien – etwa durch Überlastung, falsch gesetzte Grenzwerte oder fehlerhafte Konfigurationen. Die Dynatrace-Plattform erkennt solche Muster KI-gestützt, ordnet sie im Kontext ein und unterstützt die Teams bei der Ursachenanalyse. Durch gezielte Skalierung oder Optimierung lassen sich potenzielle Datenverluste vermeiden – und damit blinde Flecken in der Observability ausschließen.
Mehr Resilienz durch Telemetrie
Die Einführung von Dashboards zur Selbstüberwachung des OpenTelemetry Collectors ist ein essenzieller Baustein für alle IT-Verantwortlichen. Nur durch die Kombination aus KI-gestützter Transparenz, automatisierter Überwachung und einem tiefen Verständnis für Telemetriedaten lassen sich Observability-Infrastrukturen robuster, skalierbarer – und damit geschäftskritisch zuverlässig gestalten. Die Kombination aus zentraler Visualisierung und automatisierter Anomalieerkennung hilft IT-Teams bei der Bewältigung ihrer Aufgaben. Sie können nicht nur schneller auf Probleme reagieren, sondern auch ihre Infrastruktur proaktiv optimieren – ein entscheidender Schritt hin zu einer widerstandsfähigen Observability-Strategie.