Datenreduzierung ist nicht gleich Datenreduzierung

Daten

Mit der zunehmenden Verbreitung der Datenreduzierung haben zu viele Storage- und Backup-Administratoren begonnen, Komprimierung und Deduplizierung als Checkbox-Funktionen zu betrachten. Dabei ignorieren sie jedoch die vielen Ansätze zur Datenreduzierung und ihre unterschiedlichen Reduzierungsgrade.

VAST zeigte in einem aktuellen White Paper auf, wie verschiedene Anbieter die Datenreduzierung implementieren. Das Dokument vergleicht die Datenreduzierungstechniken der PowerProtect DD Appliances von Dell (den direkten Nachfolgern von Data Domain) mit der Similarity Reduction von VAST Data. Dabei wird untersucht, welche Kompromisse Dell bei der Datenreduzierung eingeht und wie VAST diese Kompromisse vermeidet, um bei der Datenreduzierung das technisch Machbare zu erzielen.

Anzeige

In den 20 Jahren, seit Data Domain die Datendeduplizierung im Rechenzentrum eingeführt hat, sind Deduplizierung und ihr Vorgänger in Form der verlustfreien Komprimierung in einer Reihe von Speicherlösungen zum Standard geworden. Leider hat dies bei vielen Anwendern dazu geführt, dass sie die Datenreduzierung als einen eindeutigen Vorgang betrachten, als ob alle Datenreduzierungen gleich wären, obwohl das Gegenteil der Fall sein könnte.

Bevor es näher um die Unterschiede zwischen den Datenreduktionstechnologien von PowerProtect DD und VAST gehen soll, wird zunächst ein anderer Aspekt erläutert: Wie funktionieren Datenkomprimierung, Datendeduplizierung und die globale Ähnlichkeitsreduktion von VAST und welche Entscheidungen müssen Systemarchitekten bei der Implementierung treffen? Im Grunde ist die Datenreduzierung eine Technik, bei der ein Storage-Architekt ein wenig Rechenleistung gegen eine erhebliche Steigerung der effektiven Speicherkapazität eintauschen kann.

Datenkomprimierung

Die meisten Datenkomprimierungsalgorithmen basieren auf zwei Haupttechniken. Erstens sind dies Wörterbuch-Komprimierungsmethoden wie die LZ-Familie von Komprimierungsalgorithmen. Diese finden wiederholte Muster in einem Datensatz und ersetzen sie durch kleinere Symbole, indem sie ein Wörterbuch von Symbolen und den von ihnen repräsentierten Zeichenfolgen erstellen. Die zweite Technik, die Huffman-Kodierung, eliminiert die Entropie auf Bit-Ebene, indem sie die Anzahl der Bits zur Speicherung jedes Wertes an die Häufigkeit des Wertes anpasst, so dass häufige Werte mit weniger Bits gespeichert werden.

Das Ausmaß, in dem ein Datensatz komprimiert werden kann, hängt von dem verwendeten Komprimierungsalgorithmus und der Rechenzeit ab, die das System für die Komprimierung aufwendet. Bei modernen Komprimierungsalgorithmen ist die Dekomprimierung wesentlich weniger rechenaufwändig als die Komprimierung. Die Dekomprimierung ist sogar so rechengünstig, dass die meisten Speichersysteme bei eingeschalteter Komprimierung eine bessere Leseleistung bieten als bei ausgeschalteter Komprimierung. Dies gilt insbesondere für Festplatten, bei denen die zusätzliche Bandbreite beim Lesen komprimierter Daten erheblich sein kann. Die größte Einschränkung der meisten Komprimierungsverfahren ist ihr begrenzter Anwendungsbereich. Die meisten Algorithmen zur Kodierung von Wörterbüchern bauen ihre Wörterbücher nur über 64 KB oder weniger auf, wobei alle 64 KB ein neuer Block begonnen und ein weiteres Wörterbuch gespeichert wird.

Da die Effektivität dieser klassischen Ansätze in der Praxis oft begrenzt ist, hat VAST Data eine vollständig neue Methode entwickelt: VAST Similarity Reduction. Diese hebe die Limittierung der klassischen Ansätze auf, dass nur sehr kleine Datenblöcke von 64KB oder weniger für die Erkennung von Mustern zur Reduktion verwendet werden könnten. Statt dessen können mit Similarity Reduction auf globaler Ebene Muster zwischen verschiedensten solcher Datenblöcke selbst in unterschiedlichen Dateien oder Objekten erkannt werden. Dadurch lässt sich die Erkennungsrate von Ähnlichkeiten und somit die Effektivität der Datenreduktion in der Praxis um ein Vielfaches steigern, so dass die Systemkosten durch weniger Hardware-Bedarf erheblich sinken.

Datenbewusste Komprimierung

Wörterbuchkomprimierung und Huffman-Kodierung sind universell einsetzbare Methoden zur Reduzierung jeder Art von Daten. Datenbewusste Methoden, einschließlich MP3 und AAC, können sogar noch effektiver komprimieren, indem sie ihr Wissen über die Daten selbst ausnutzen. Beispielsweise kann ein datenbewusster Algorithmus wie MPEG die Daten effektiver reduzieren, indem er Keyframes und die Änderungen von Frame zu Frame speichert, anstatt jedes Frame als unabhängiges Standbild zu speichern. Einige Komprimierungsverfahren, darunter MP3, verwenden eine verlustbehaftete Komprimierung, bei der die Daten nicht in die ursprünglichen Einsen und Nullen dekomprimiert werden, sondern in etwas, das beim Abspielen wie die Originaldaten klingt. Da Speichersysteme genau dieselben Bits zurückgeben müssen, die der Benutzer gespeichert hat, muss jede Komprimierung, die sie durchführen, ob datenbezogen oder allgemein, unbedingt verlustfrei sein.

VAST-Systeme enthalten datenbezogene Komprimierungsalgorithmen, die die Reduzierung von numerischen Daten verbessern sollen. Diese reichen von einfachen Temperatur- und Drucksensoren bis hin zu seismischen Untersuchungen für die Suche nach Öl und Gas. Diese realen Daten weisen in der Regel eine große Entropie (Zufälligkeit) auf, aber da Sensoren häufig Werte innerhalb eines Bereichs liefern, ist diese Entropie hauptsächlich in den Bits niedrigerer Ordnung jedes Werts enthalten.

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.

VAST Universal Storage

Das Universal Storage-System von VAST ist ein All-Flash NAS- und Objekt-Speichersystem, das die DASE (Disaggregated Shared Everything) Scale-Out-Architektur von VAST nutzt, um von Hunderten von TB auf Hunderte von PB in einem einzigen Cluster Namensraum zu skalieren. Die VAST-Systeme verwenden zustandslose Protokollserver, um Benutzeranfragen zu verarbeiten und den globalen Namensraum zu verwalten, der auf dem Storage Class Memory (SCM) und den Quad-Level Cell (QLC) SSDs in den HA-Enclosures gespeichert ist. Somit können VAST-Benutzer die Kapazität und Leistung ihres Clusters bei Bedarf jederzeit durch Hinzufügen von Enclosures skalieren. Darüber hinaus ermöglicht dieses Design eine unabhängige Skalierung von Leistung und Kapazität. Der Element Store von VAST umfasst mehrere Funktionen zur Maximierung der Speichereffizienz und Minimierung des Flash-Verschleißes, darunter lokal dekodierbare Löschcodes, die mit nur 2,7 Prozent Overhead vor bis zu vier gleichzeitigen SSD Ausfällen schützen, sowie die auf Ähnlichkeit basierende Datenreduktion von VAST. 

Fazit

Data Domain hat mit der Deduplizierung die Ära des Backup-to-Disk der Datensicherung eingeleitet. In den darauffolgenden 20 Jahren haben die zunehmende Größe und die statische Leistung von Festplattenlaufwerken dazu geführt, dass die Rehydration Tax die Wiederherstellungen verlangsamt. Dies ist zu einer erheblichen Belastung für die heutigen PowerProtect DD Systeme geworden. Die „Rehydrierungssteuer“ wird durch die I/O-Verstärkung verursacht, die durch sequenzielle Lesevorgänge aus einem deduplizierten Datenspeicher entsteht. Dies führt dazu, dass PowerProtect DD-Appliances Daten nur mit einem Bruchteil der Geschwindigkeit wiederherstellen können, mit der sie Backups annehmen.

VAST Data führt die Backup-to-Flash-Ära mit Universal Storage-Systemen an, die im Gegensatz zu PowerProtect DD Daten für die Wiederherstellung noch um ein Vielfaches schneller bereitstellen als sie Backups annehmen. Da Ransomware und andere Probleme den Umfang von Wiederherstellungen um Größenordnungen erhöhen, werden schnelle Wiederherstellungen wichtiger als schnelle Backups. VAST macht dieses All-Flash-System im Vergleich zum festplattenbasierten PowerProtectDD kostengünstig und bietet eine überlegene Dateneffizienz.

Zu den Technologien, die hinter dieser Effizienz stehen, zählen:

  • VAST Similarity Reduction als neuartige gobale Kompressionstechnologie
  • Modernere ZSTD-Methode
  • Hocheffizientes Erasure-Coding mit nur 2,7 Prozent Overhead gegenüber 20 Prozent bei PowerProtect DD
  • Großer Schreibpuffer für eine asynchrone und damit tiefere Komprimierung
  • Datenbewusste Komprimierung für numerische Daten und unkomprimierte Bilder. (Weitere Data-Aware-Funktionen in Entwicklung.)
  • Globale Deduplizierung. (Ein einziger Deduplizierungsbereich skaliert auf 100 PB gegenüber 1-5 PB)
  • Adaptives Chunking ermöglicht dynamische Blockgrößen
  • Effektivität selbst bei vorkomprimierten Daten durch globalen Similarity Reduction Ansatz

 www.vastdata.com 

Anzeige

Artikel zu diesem Thema

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.