Netzwerk-Troubleshooting: So sieht eine Lösungsstrategie aus

Netzwerk-Troubleshooting: Fn-OptiViewXGDas IT-Netzwerk ist das Kernstück der meisten Unternehmen. Es unterstützt geschäftskritische Applikationen, stellt die Daten für geschäftliche Entscheidungen bereit, und erleichtert die Kommunikation mit Kunden, Partnern, Auftragnehmern und Mitarbeitern.

Alle Ausfallzeiten oder Verminderungen der Netzwerk- oder Applikationsleistung wirken sich direkt auf das Geschäftsergebnis der Organisation aus. Um die mit dem Unternehmen vereinbarten Service Level zu erreichen, muss die Leistung proaktiv verbessert und optimiert werden. Außerdem müssen alle Probleme so schnell wie möglich gelöst werden, um Ausfallzeiten auf ein Minimum zu beschränken. Doch die Ermittlung der Grundursache von Netzwerk- und Applikationsproblemen wird in heutigen Unternehmensnetzwerken immer schwieriger und zeitraubender. Stefan Pracht, Director, Product Marketing bei von NETSCOUTs Fluke Networks Enterprise Solutions zeigt eine Lösungsstrategie auf und stellt einen neuen Ansatz vor, um Ursachen schneller auf die Spur zu kommen.


Anzeige

Das Grundproblem liegt in der Komplexität heutiger Netzwerke: In der heutigen IT-Landschaft von Unternehmen können Netzwerk-Probleme eine Vielzahl von Ursachen haben. Dazu gehören beispielsweise die Verbreitung von Wi-Fi-Geräten, die exzessive Belegung von Bandbreite durch nicht autorisierte Applikationen, Konfigurationsfehler oder eine schlechte Infrastruktur für die Applikationsbereitstellung. Schnell sind die die Grenzen der Bandbreite erreicht. Es wird zusätzlich immer schwieriger, Leistungsprobleme zu lösen, da nur schwer festzustellen ist, in welchen Zuständigkeitsbereich sie fallen.


Fn-OneTouch

Bild: Netzwerke werden immer komplexer und bedürfen einer ständigen Überwachung.

Der Umgang mit Problemen mit der Netzwerkleistung – ein neuer Ansatz


Techniker benötigen heute End-to-End-Transparenz im Netzwerk, um Leistungsprobleme schnell untersuchen und lösen zu können, denn es gilt eine Vielzahl von Problemursachen aufzuspüren. Diese können beispielsweise durch nicht verwaltete Geräte auftreten, die möglicherweise aufgrund ihres geringeren Preises erworben wurden, jedoch teurer bei der Fehlersuche sind, da sie keine Transparenz des Zustands der einzelnen Netzwerksegmente bieten und die Auslastungsgrade nicht überwacht werden können. Aber auch nicht dokumentierte Netzwerke, Probleme in der Vergangenheit, die erst sehr viel später nach ihrem Auftreten gemeldet werden, oder neue und noch nicht überwachte Technologien können problematisch sein. Manchmal liegt die Ursache auch gar nicht im eigenen Netzwerk – dann gilt es, entsprechende Nachweise zu erbringen, damit diese an andere IT-Teams oder gar externe Service Provider weitergereicht werden können.


Traditionell standen bisher zur Problemlösung entweder Netzwerkmanagementsysteme oder Datenpaketerfassungs- und Analysetools zur Verfügung. Beide Ansätze für sich genommen reichen jedoch oft nicht mehr aus. So bleiben Netzwerkmanagementsystemen (NMS) beispielsweise die Auswirkungen von Zugriffsspitzen verborgen, da Abfragedaten über viele Minuten hinweg gesammelt und auf diese Weise gemittelt werden. Datenpaket-Analysetools sind aufgrund der hohen Komplexität nur für qualifizierte und erfahrene Techniker geeignet. Die Lücke zwischen diesen Tools – ein NMS ohne umfassende Informationen und komplexe Datenpaket-Erfassungstools – führt zu einer längeren durchschnittlichen Reparaturzeit. Für das strategisch wichtige Unternehmensnetzwerk braucht es eine dedizierte Lösung für automatisierte Netzwerk- und Applikationsanalyse, die End-to-End-Transparenz im Netzwerk bietet, um Leistungsprobleme schnell untersuchen und lösen zu können. 


Eine Netzwerk-Troubleshooting-Strategie in vier Schritten


Auch für moderne Netzwerk- und Applikationsleistungslösungen empfehlen sich die folgenden vier Trouble-Shooting-Schritte:


1. Überwachung/Alarm


Die erste Voraussetzung für die Behandlung und Lösung von Netzwerkproblemen ist ein System, das einen zeitnahen Alarm auslöst, wenn ein Problem auftritt. Im schlimmsten Fall erfährt der Techniker durch den Anruf eines Benutzers von einem Problem und befindet sich damit bereits in einer schlechten Ausgangsposition.


Viele Alarme von Netzwerkmanagementtools müssen für jedes Netzwerk manuell konfiguriert werden, indem das System dazu aufgefordert wird, an alle Geräte in jeder Broadcast-Domäne ein Ping-Signal zu senden oder diese zu ermitteln. Mit einer stets aktiven Netzwerk- und Applikationsleistungslösung jedoch sind eine automatisierte Ermittlung und zielgerichtete Workflows möglich, mit denen die verbundenen Komponenten schnell und einfach sofort angezeigt werden können. Das reduziert die erforderliche Zeit für die Einrichtung und Überwachung erheblich.
Die Leistung wird im Vergleich mit einem benutzerdefinierten Referenzwert (z. B. dem SLA) überwacht. Alle Werte außerhalb des zulässigen Bereichs werden umgehend als Alarm angezeigt. 


2. Untersuchung


Der Netzwerkingenieur muss nun den Umfang des Problems ermitteln. Um eine schnelle und genaue Untersuchung zu erleichtern, muss die Lösung alle relevanten Daten (z. B. SNMP, Datenströme, Pakete, Endbenutzer-Antwortzeiten usw.) sammeln und für die zukünftige Analyse speichern. Eine Netzwerk- und Applikationsleistungslösung stellt auch eine Echtzeitmethode zur Verfügung, mit der der Pfad vom Client zum Service oder zur Applikation erkannt und so die aufgewendete Zeit erheblich verkürzt werden kann.


Wenn sich das Problem auf einen Client oder eine Gruppe von Clients bezieht, muss der Techniker einen Test der Leistung oder Antwortzeit von Applikationen ausführen und auf diesem Wege feststellen, ob es sich um ein Problem mit dem drahtgebundenen Netzwerk oder WLAN handelt. Durch die Integration von drahtgebundenen und WLAN-Tools in eine Benutzeroberfläche ermöglicht das Netzwerk- und Applikationssystem einen einzigen Test, mit dem die Ursache des Problems gefunden werden kann.


3. Isolierung


An dieser Stelle wurde das Problem auf ein einziges Netzwerksegment, einen Switch, Router oder Server oder eine Applikation isoliert. Pfad, Geräte und Ports im Pfad wurden identifiziert. Nun muss der Pfad analysiert werden. Dazu sind Datenverkehrsstatistiken für jede Verkabelungsstrecke erforderlich, um zu bestimmen, ob das Problem durch ein fehlerhaftes Gerät, Verbindungsmedien, Störungen oder eine Datenverkehrsüberlastung verursacht wird.


Einer der wesentlichen Vorteile von SNMP (Simple Network Management Protocol) besteht in der Möglichkeit, fehlerhafte Domänen aufzuspüren. Mit SNMP kann eine Abfrage an jedem Verbindungspunkt entlang des Weges eine Antwort auf die Frage geben, ob ein Engpass im Netz für die Verlangsamung verantwortlich ist. Dies ist relativ einfach, wenn die Geräte im Pfad verwaltet werden und der Techniker über die Kennwörter oder Community-Strings verfügt, um die Geräte abzufragen. Andernfalls muss er ein Tool mit jeder Verkabelungsstrecke verbinden, ohne das Netzwerk zu stören, und auf diese Weise die Pakete und Datenverkehrsstatistiken anzeigen. Das kann sehr viel Zeit kosten, wenn eine große Zahl von Verkabelungsstrecken über ein großes geografisches Gebiet verteilt ist. Möglicherweise werden für verschiedene Orte auch mehrere Tools benötigt.


Wenn es keine überlasteten Verkabelungsstrecken oder Framefehler gibt, ist das Problem wahrscheinlich nicht auf das Netzwerk zurückzuführen. Dies kann jedoch nur als sicher angenommen werden, wenn der Techniker die Verkabelungsstrecken in einem angemessenen Zeitraum analysiert hat und das Problem, das behoben werden soll, immer noch besteht. Dazu werden die vom Netzwerk- und Applikationsleistungssystem erfassten Verlaufsdaten benötigt.


4. Ursachenanalyse und Problemlösung


An diesem Punkt stellt der Techniker die Ursache des Problems zweifelsfrei fest, entwickelt und implementiert eine Lösung und prüft diese. Wenn sich das Problem nicht auf das Netzwerk bezieht und nicht mit der Serverantwortzeit zusammenhängt oder durch überlastete Ressourcen zustande kommt, sind detailliertere Informationen durch die Erfassung und Analyse von Paketen erforderlich. Es ist wichtig, zuvor die Verkabelungsstrecke isoliert oder das Problem zwischen Server, Netzwerk und Applikation ermittelt zu haben, da die Paketanalyse extrem zeitraubend sein kann und viel Fachwissen und Erfahrung voraussetzt.


Um die Grundursache schneller zu ermitteln, empfiehlt es sich, die Analyse mit einem Top-Down-Ansatz anzugehen und auf Applikationsebene zu beginnen. Wenn etwa der Pfad richtig ist, die Antwortzeit jedoch sehr schlecht, kann das Problem von einem virtualisierten Server, einer auf mehreren Tiers ausgeführten Applikation oder einem Fehler in der Applikation verursacht werden.


Es ist empfehlenswert, das Netzwerk aus Abzweigungen aufzubauen, die sich bereits an strategischen Stellen vor Serverfarmen, Rechenzentren, Routern zu externen Verbindungen sowie im Kern des Netzwerks befinden. So können die Daten erfasst werden, ohne den Netzwerkbetrieb zu unterbrechen. Wenn dies nicht möglich ist, muss der Techniker möglicherweise eine Span- oder Port-Spiegelung vornehmen. Dabei sind die damit verbundenen Probleme und Ungenauigkeiten zu berücksichtigen.


Mithilfe der Erfassung und Analyse von detaillierten Verlaufsdaten kann der Techniker beim Netzwerk- und Applikationsleistungssystem auch zeitlich zurückgehen, um die Symptome zu prüfen, die zu Beginn des Problems aufgetreten sind. Auf diese Weise können zeitweilig auftretende Probleme gefunden und gelöst werden.


Stefan PrachtStefan Pracht, Director, Product Marketing bei von NETSCOUTs Fluke Networks Enterprise Solutions

www.netscout.com

 

 

Anzeige

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.