Die Mär vom Problem mit den Sekundärdaten

Doc. tec. Storage

Nutzbare Daten sind viel Wert, heißt es. Doch wir haben längst den Überblick verloren. Daher geht es für Doc Storage nicht um das Sammeln, sondern um ein bewusstes und effizientes Datenmanagement. Er fordert Qualität über Quantität zu stellen und die Daten wirklich zu verstehen.

Kolumne Doc Storage:

Um es gleich vorwegzunehmen: meiner Ansicht nach ist dies eine Diskussion über Systeme, die wir in dieser Form gar nicht hätten, würde man sich bei der Erzeugung, Formatierung und Speicherung dort erzeugter Informationen mehr Mühe geben.

Anzeige

Personal, das defätistisch in der IT-Steinzeit oder ähnlich abschätzig kommentiert an zentralen Systemen arbeiten zu durfte, weiß noch allzu gut, warum der schiere Umfang der dort erfassten, erzeugten oder verarbeiteten Daten wesentlich geringer waren als in der heute als wünschenswert dargestellten »offenen« Welt. Erstens kosteten die Systeme und ihre Ressourcen damals wesentlich mehr, waren aber zweitens leistungsmäßig weit entfernt von jeder heutigen Armbanduhr mit angebissenem Apfel. Und deshalb wurde uns damals – drittens – eines beigebracht, was den jüngeren Kollegen heute komplett abgeht, nämlich bewusst sparsam mit den Ressourcen umzugehen, ob es nun um die schiere Rechenleistung oder den dahinterliegenden Speicherplatz ging. Seinerzeit gab es diesen heute so hochfliegend als Sekundärspeicher bezeichneten Bereich in der DV überhaupt nicht, erstens weil es außerhalb der »dummen« Terminals keine Geräte zur Datenerfassung gab, und zweitens, weil auch in der Orga niemand gewusst hätte, wer und vor allem was man mit diesen Daten hätte anfangen sollen.

Und dann kam der unsägliche 14. September 1981, an dem die IBM selbst jemandem den ersten »Personal Computer« auf den Tisch stellte und diesem Jemand damit die Möglichkeit zur Erfassung und Speicherung eigener Daten gab. Zunächst auf Floppys, dann auf immer größer werdenden Festplatten, und zum Ende desselben Jahrzehnts hatte irgendein anderer Entwickler dann die Idee, einen PC zum Server zu machen, um in den nun folgenden Jahrzehnten alle Dämme bezüglich der dezentral gespeicherten Informationen brechen zu lassen. Ob die dezentral erfassten Daten jemals wieder für irgendjemanden wichtig sein würden, das war den damaligen Nutzern ebenso gleichgültig wie den heutigen. Stehen doch annähernd unendliche Speichermöglichkeiten zur Verfügung, und wenn nicht lokal oder auf dem Server, dann in irgendeiner Wolke.

Die Hersteller entsprechender Systeme werden nicht müde zu betonen, dass all diese Daten irgendwann einmal für irgendwelche geschäftlichen Entscheidungen wichtig sein könnten. Gleichzeitig wurde die Päckchen eben auf die im Moment so beliebten Themen »Künstliche Intelligenz« oder »Machine Learning« gesetzt – irgendjemand wird schon irgendetwas damit anzufangen wissen.

Wer weiß wirklich über seine gespeicherten Daten Bescheid?

Ich will jetzt gar nicht mit den grundsätzlichen Problemen anfangen, die in Fragen grenzen wie »schafft mein System das Backup noch in weniger als 24 Stunden« oder »hat mein System die Möglichkeit, mir zu jedem Zeitpunkt zu sagen, was wann über was und wo gespeichert wurde«. Dabei müsste ich zu jeder Zeit beide Fragen mit Ja beantworten können, sonst bekomme ich mächtigen Ärger mit der DSGVO. Oder ich bräuchte eben eine schlüssige Ausrede, die ebenfalls die Beantwortung beider Fragen voraussetzt.

Allerdings – und hier schließt sich der Kreis – hätte ich gern mal eine Frage beantwortet. Die wichtigste aller Fragen. Und ich meine nicht die mit wieviel ZByte Speicher wir das Klima dieses Planeten noch belasten wollen. Oder welche künstliche Intelligenz nun aus welchem Datenbestand abschreibt, um mir damit Intellekt vorzutäuschen, oder gar die blödsinnige Möglichkeit, selbst »lernen« zu können. Nein, viel einfacher: Wissen die Hüter dieser ZByte an Daten eigentlich, was sie dort wo und wie oft gespeichert haben? Wer dort was und wann abgelegt hat? Wie das Verhältnis von Informationen und Metadaten ist? Und vor allem – wie wird beurteilt, ob in Pusemuckel erfasste Daten jemals wieder, und vor allem wofür benötigt werden?

Ich lehne mich mal aus dem Fenster und wage mal eine kurze und schmerzlose Antwort – nein! Natürlich wollen uns Systemhersteller und die von ihnen bezahlten Analysten weißmachen, dass der auch hier immer wieder gerne gezeigte Eisberg mit 80 Prozent Sekundärdaten betrieben werden muss. Natürlich wollen sie uns davon überzeugen, dass all diese Daten (von »Informationen« wage ich hier nicht mehr zu sprechen) irgendwann einmal von irgendeinem System für die Erlangung irgendwelcher bahnbrechender Erkenntnisse gut sein werden. Allerdings sollte man sich diese Prognosen einmal genauer durchlesen.

Erstens weiß niemand mehr, wieviel Daten da draußen überhaupt gespeichert sind, wie hoch die Redundanzen und auch die schlichten Fehlerquoten in diesen Speichern sind. Aber, man weiß eines ganz genau – diese Daten müssen aufbewahrt werden, damit sie irgendwann einmal von irgendetwas zu irgendeinem Zweck (meistens wird hier die »Gewinnung geschäftstaktischer und -strategischer Erkenntnisse« vorgeschoben) ausgewertet werden können. Ach ja – gerne auch und natürlich von Systemen der künstlichen Intelligenz oder des Machine-Learnings.

Was ich gerne einmal gesehen hätte, wären konkrete Aussichten darauf, welcher Anteil dieser Daten tatsächlich auch nur in allerkürzester Zukunft zu diesen Zwecken herangezogen werden. Alle anderen bräuchten wir ja dann irgendwann nicht mehr. Egal, welche Aufbewahrungsfrist uns die geliebte DSGVO oder andere Vorschriften auferlegt hat. Dünnt man dann die entsprechenden Speicher nach und nach aus, schmilzt der erschreckende Eisberg immer weiter zusammen – doch ach, dann verkaufen die Systemhersteller für lange Zeit keine Platten oder anderen Speicher mehr. Und die Analysten haben nichts mehr, womit sie die DV-Gemeinde in Angst und Schrecken versetzen können.

Das Ausdünnen kann man übrigens von den häufig lächerlich gemachten »Dinosauriern« lernen, solange es noch welche gibt. Allerdings müsste man sich das persönlich aneignen, und kann keine Maschine vorschicken.

Gruß
Doc Storage

Weiterführende Links:

Anmerkung der Redaktion

Der Inhalt des Artikels entspricht der persönlichen Ansicht des Autors und spiegelt nicht unbedingt immer die Meinung der Redaktion wider.

Doc. tec. Storage beantwortet alle Ihre technischen Fragen zu Storage, Backup & Co.
Doc. tec. Storage beantwortet alle Ihre technischen Fragen zu Storage, Backup & Co.

Doc

Storage

Doc. tec. Storage beantwortet alle Ihre technischen Fragen zu Storage, Backup & Co.Stellen Sie Ihre Frage an: [email protected]
Anzeige

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.