Unstrukturierte Daten verwalten

Datenarchivierung bewältigt exponentielles Datenwachstum

Die Geschwindigkeit, mit der unstrukturierte Daten – wie Texte, Videos, Bilder und Social-Media-Posts – erzeugt werden, nimmt kontinuierlich zu. Mittlerweile fallen 80 bis 90 Prozent aller Daten in diese Kategorie. Gleichzeitig ist der Zeitrahmen für die aktive Nutzung von Daten immer kleiner geworden.

Dank Edge Computing, IoT-Systemen, maschinengenerierten Daten und nicht zuletzt generativer KI beschränkt sich der Zeitraum für die Datennutzung heute weitgehend auf rund 30 bis 90 Tage. Dann werden die vorhandenen Daten aufgrund der Flut neu hinzukommender Daten entweder weniger nützlich oder sogar überflüssig.

Anzeige

Viele Unternehmen versuchen inzwischen fast vergeblich, mit der rasanten Entwicklung Schritt zu halten. Denn der ständige Zustrom unstrukturierter Daten erfordert praktisch fortlaufende Erweiterungen des Speichersystems – mit den damit verbundenen Kosten. Eine moderne Archivierungsstrategie ist für die Verwaltung von Speicher- und Hybrid-Cloud-Systemen deshalb unabdingbar.

Der Begriff Archivierung wird allerdings häufig falsch verstanden, was zu einiger Verwirrung führen kann. Beispielsweise sind Tiering und Archivierung zwei unterschiedliche Dinge. Einfach erklärt, kann man sich das Thema Archivierung etwa als Umzugsunternehmen vorstellen, das Papierdokumente aus Aktenschränken räumt, in Kartons packt und extern einlagert. Sobald diese Aufgabe erledigt ist, wird das Umzugsteam nicht mehr gebraucht. Sollten die Dokumente in Zukunft aber wieder benötigt werden, dann können diejenigen Personen darauf zugreifen, die die entsprechende Zugangsberechtigung zu den Akten haben.

Tiering hingegen entspräche einem spezialisierten Bibliothekar, der ständig vor Ort ist, um jeweils eine Datei in ein besonderes Ablagesystem zu verschieben. Nur der Bibliothekar weiß, wie die einzelnen Dateien wieder zurückgeholt werden können. Das Tiering ist im Grunde eine andere Bezeichnung für hierarchisches Speichermanagement (HSM). Tiering- oder HSM-Lösungen werden schon seit vielen Jahren in unterschiedlichen Formen erprobt, doch sie bringen in der Praxis meist mehr Probleme als wirklichen Nutzen.

Anzeige

NAS-Cloud-Gateways bieten keine echte Archivierung

Cloud-Gateways kommen zunehmend in hybriden Speicherumgebungen zum Einsatz und können eine kostengünstige Lösung für den wachsenden Speicherbedarf sein, denn sie verbinden den lokalen Speicher mit öffentlichen Cloud-Speichern. Mit ihrem globalen Dateisystem bieten NAS-Cloud-Gateways über die Cloud Zugriff auf Dateien, die bisher im lokalen NAS-Speichersystem (Network Attached Storage) aufbewahrt wurden.

Die NAS-Gateway-Appliance wird von manchen Nutzern als Archiv-Front-End verstanden. Allerdings handelt es sich auch hierbei nicht um eine echte Archivierung, da die dateibezogenen Metadaten im NAS-Gateway gespeichert sind. Das bedeutet, dass der Zugriff auf die gespeicherten Inhalte im Falle eines Abrufs – ähnlich wie beim Tiering – durch das Gateway geregelt wird.

Sowohl Tiering als auch Gateways stellen Unternehmen damit vor ein großes Problem: Was passiert, wenn die Lösung außer Betrieb geht, veraltet ist oder der Anbieter keinen Support mehr leistet? Wie lassen sich die gespeicherten Daten später wieder abrufen, wenn die Anwendung dafür nicht mehr verfügbar ist? Eine gut durchdachte Archivierungsstrategie löst dieses Dilemma. Den Vorgang der Datenarchivierung und die Plattform, auf der die archivierten Daten gespeichert werden, darf man dabei nicht miteinander verwechseln. Zwar ist die Wahl des richtigen Archivspeichers wichtig, aber bei der Archivierungsstrategie geht es um weit mehr als nur um das Speicherziel.

Denn beim Vorgang der Datenarchivierung müssen geschäftskritische Entscheidungen darüber fallen, was archiviert werden soll und wohin welche Daten anschließend auf Grundlage festgelegter Richtlinien verschoben werden sollen. Bei Bedarf müssen sich plötzlich wieder benötigte Daten zwischen Milliarden anderer Dateien anhand bestimmter Kriterien schnell auffinden lassen, beispielsweise anhand der Zeitspanne seit dem letzten Zugriff, seit der letzten Änderung einer Datei oder auch anhand einer bestimmte Benutzerkennung.

Eine moderne Archivierungsstrategie muss Unternehmen deshalb in die Lage versetzen, diese sprichwörtliche Nadel im Heuhaufen zu finden, sie auf eine geeignete Archivierungsplattform zu verschieben und über eine herstellerunabhängige Option zeitnah abzurufen.

Eine moderne Archivierungsstrategie muss Unternehmen in die Lage versetzen, diese sprichwörtliche Nadel im Heuhaufen zu finden.

Sascha Hempe, Datadobi

Eine moderne Archivierungsstrategie

Bei der Entwicklung einer Archivierungsstrategie ist es wichtig, abzuwägen, ob ein aktives Archiv, ein Langzeit-Archiv oder eine Kombination aus beiden genutzt werden soll. Ein aktives Archiv ist für Daten geeignet, bei denen eine gewisse Wahrscheinlichkeit besteht, dass sie später wieder abgerufen werden müssen. Ein Langzeit-Archiv wird dagegen für Daten verwendet, bei denen diese Wahrscheinlichkeit eher gering ist, die aber entweder zur Einhaltung gesetzlicher Vorschriften oder aus Governance-Gründen weiterhin aufbewahrt werden. Das Langzeit-Archiv kann zudem als nächster Speicherort für Daten aus dem aktiven Archiv dienen, die einen festgelegten Schwellenwert überschritten haben, der durch die Unternehmensrichtlinien definiert ist.

Der erste, wichtige Schritt bei der Entwicklung einer Archivierungsstrategie besteht darin, Erkenntnisse über das Profil der betreffenden Dateien zu gewinnen. Hilfreich sind dabei die zahlreichen vom Speichersystem zugewiesenen Metadaten, die etwa Aufschluss darüber geben, wann Inhalte erstellt wurden, wann der letzte Zugriff erfolgte, wann Inhalte zuletzt geändert wurden und sogar, ob eine Datei einem aktiven oder inaktiven Benutzer zugeordnet ist (verwaiste Dateien). Mithilfe von Richtlinien können Unternehmen dann festlegen, nach welchen Kriterien Daten auf die Archivierungsplattform verlagert werden sollen.

Ein Beispiel dafür ist, Dateien, die in den letzten drei Jahren nicht abgerufen oder geändert wurden, auf den Archivspeicher zu übertragen. Viele Unternehmen sind sich nicht bewusst, dass im Schnitt über 60 Prozent ihrer gespeicherten Daten in diese Kategorie fallen. Bei Datenmengen im Petabyte-Bereich und Milliarden von gespeicherten Dateien kommt da eine immense Anhäufung von nicht mehr aktiv genutzten Daten zusammen.

Sobald die zu archivierenden Daten identifiziert sind, gilt es, sie so effizient und reibungslos wie möglich auf die neue Archivierungsplattform zu übertragen. Es empfiehlt sich, dazu eine Lösung zu verwenden, die schnell und skalierbar ist und – ganz wichtig – die nicht dauerhaft zu Abruf- und Migrationszwecken betrieben werden muss. Denn in den meisten Fällen ähneln die Archivierungsvorgänge einer Datenmigration. Es handelt sich um eine punktuelle Aktivität, die nur einmalig mit Aufwand verbunden sein sollte – und nicht in einen langwierigen Prozess mit unzumutbaren Folgen ausartet. Unternehmen, die diese Aspekte berücksichtigen, werden das Wachstum unstrukturierter Daten souverän bewältigen.

Sascha

Hempe

Regional Sales Manager DACH

Datadobi

Anzeige

Artikel zu diesem Thema

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.