Interview

Anforderungen an moderne Data Warehouses

Datenmanagement, Data Warehouses, DWHs

Ein aktueller Report von Fivetran beschäftigt sich intensiv mit den Eckdaten führender Data Warehouses (DWHs). Das Unternehmen unterstützt Anwender Daten aus Hunderten von SaaS- und On-Premises-Datenquellen in Cloud-Destinationen zu zentralisieren, zu transformieren und für Analysen zu nutzen. Über die Ergebnisse des Reports sprach Ulrich Parthier, Publisher it management mit Data-Management-Experte George Fraser, CEO bei Fivetran.

Worin genau sehen Sie Ihre Mission?

George Fraser: Fivetran bietet Data Pipelines, die Daten aus Apps, Datenbanken und File Stores in die Data Warehouses von Kunden synchronisieren. Was wir in diesem Zusammenhang am häufigsten gefragt werden: „Welches Data Warehouse ist für uns das richtige?“ Um diese Frage besser beantworten zu können, haben wir uns mit Brooklyn Data Co. zusammengetan, um die Geschwindigkeit und die Kosten von fünf der beliebtesten Data Warehouses zu vergleichen: Amazon Redshift, Snowflake, Google BigQuery, Databricks und Azure Synapse.

Anzeige

Wie sind die Test durchgeführt worden?

George Fraser: Bei Benchmarks geht es darum, eine Auswahl zu treffen: Um welche Art Daten geht es? Um wie viele Daten handelt es sich? Welche Art von Abfragen werden durchgeführt? Es kommt sehr stark darauf an, auf welcher Basis diese Entscheidungen getroffen werden: Wenn sich die Form der Daten oder die Struktur der Abfragen ändert, kann das schnellste Warehouse im Nu zum langsamsten werden. Wir haben versucht, diese Auswahl so zu gestalten, dass durch sie ein typischer Fivetran-Nutzer abgebildet wird.

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.

Wie definieren sie einen typischen Nutzer?

George Fraser: Ein typischer Nutzer würde beispielsweise Daten aus Salesforce, JIRA, Marketo, Adwords und seine Oracle-Produktionsdatenbank in seinem Data Warehouse synchronisieren. Diese Datenquellen sind nicht sehr groß: Eine übliche Quelle enthält normalerweise einige zehn bis hundert Gigabyte. Allerdings sind sie vergleichsweise komplex: Sie enthalten hunderte normalisierte Tabellen, und unsere Kunden fassen diese Daten mithilfe komplexer SQL-Abfragen zusammen.

Welche Abfragen wurden durchgeführt?

George Fraser: Wir haben von Mai bis Oktober 2022 insgesamt 99 TPC-DS-Abfragen durchgeführt. Diese Abfragen sind komplex: sie umfassen viele Join-Operationen, Aggregationen und Unterabfragen. Wir haben jede Abfrage nur einmal durchgeführt, um zu verhindern, dass das Warehouse vorhergehende Ergebnisse zwischenspeichert. Die Abfragen wurden sequenziell, eine nach der anderen, ausgeführt, was sich von einem typischen realen Anwendungsfall unterscheidet, bei dem viele Benutzer Abfragen gleichzeitig ausgeführt werden.

Fivetran-Benchmark 2022

Die wichtigsten Erkenntnisse des neuen Reports im Überblick:

  • Preis/Leistungs-Verhältnis verschiedener Data Warehouses
  • Wollen Cloud-Data-Warehouses ihre Performance nicht verbessern, damit sie ihre Umsätze nicht gefährden?
  • Databricks hat im Konkurrenzkampf deutlich aufgeholt
  • Snowflake vs. Databricks: der Kampf um das schnellste und kostengünstigste Data Warehouse
  • DuckDB wird die Branche aufrütteln
  • Was den Modern Data Stack im Jahr 2023 beeinflusst

Vergleiche sind immer schwierig, da nicht alle Produkte über identische Funktionen, Preisgebilde oder Releasestände verfügen.

George Fraser: Richtig, Kostenvergleiche zwischen verschiedenen Systemen sind in der Tat schwierig, da jedes System unterschiedliche Funktionen bietet, mit denen sich die Kosten senken lassen. Folgende Vorteile werden beispielsweise in diesen Zahlen nicht widergespiegelt:

  • Databricks Spot-Instance-Preise
  • Automatische Skalierung von Snowflake-Multiclustern
  • BigQuery On-Demand-Preise

Diese und andere plattformspezifische Funktionen können zur Kostensenkung bei vielen Aufgaben eingesetzt werden. Man muss also das jeweilige Einsatzgebiet prüfen.

Wie wurden die Data Warehouses optimiert?

George Fraser: Die betrachteten Data Warehouses bieten erweiterte Funktionen wie Sortierschlüssel, Clustering-Schlüssel und Datenpartitionierung. Wir haben für die Zwecke dieses Benchmark-Tests keine dieser Funktionen verwendet. Wir haben Spaltenkompressionscodierung bei Redshift und Spaltenspeicherindizierung bei Synapse angewendet. Snowflake, Databricks und BigQuery wenden die Kompression automatisch an.

Und wie sah die Performance aus?

George Fraser: Alle Warehouses wiesen eine hervorragende Ausführungsgeschwindigkeit auf und eignen sich für interaktive Ad-hoc-Abfragen. Eine kleine Einschränkung gibt es: Die Leistung von Redshift ist sehr anfällig für Cache-Fehler im gemeinsamen Abfragekompilierungs-Cache. Dies hat zu einer gewissen Zufälligkeit in unseren Ergebnissen geführt und bewirkt, dass Redshift nicht die gleichen Kompromisse zwischen Kosten und Leistung aufwies wie andere Systeme. Zur Berechnung der Gesamtkosten haben wir die Laufzeit mit den Kosten der Konfiguration pro Sekunde multipliziert.

Wie stark hat sich die Leistung verbessert?

George Fraser: Wir haben 2020 denselben Benchmark-Test durchgeführt. Die Leistung aller Systeme hat sich in den letzten zwei Jahren verbessert. Databricks hat dabei die größten Verbesserungen erzielt, was nicht überraschend ist, da sie ihre SQL-Ausführungs-Engine komplett umgeschrieben haben.

Wie lautet ihr Fazit?

George Fraser: Alle getesteten Warehouses punkten mit hervorragender Leistung und fairen Preisen. Dass sie sich sehr ähnlich sind, überrascht nicht: Die grundlegenden Techniken zum Aufbau eines schnellen spaltenorientierten Data Warehouse sind spätestens seit der Veröffentlichung der C-Store-Studie 2005 hinreichend bekannt. Solche Data Warehouses nutzen zweifelsohne die Standardtaktiken zur Steigerung der Performance: spaltenorientierte Speicherung, kostenbasierte Abfrageoptimierung, Ausführungs-Pipelines und Just-in-time-Kompilierung. Benchmark-Tests, die extreme Geschwindigkeitsunterschiede von Data Warehouses als Ergebnis präsentieren, sind mit Vorsicht zu betrachten.

Die wichtigsten Unterschiede zwischen Warehouses bestehen in den durch ihre Designansätze bedingten Qualitätsunterschieden: Einige Warehouses sind auf Optimierungsmöglichkeiten ausgelegt, andere auf Benutzerfreundlichkeit. Bei der Bewertung von Data Warehouses sollten Unternehmen mehrere Systeme berücksichtigen und jenes auswählen, das die für Sie erforderliche Ausgewogenheit mitbringt.

Ulrich Parthier: Herr Fraser, wir danken für dieses Gespräch.

Weitere Informationen:

Den kompletten Data Warehouse-Report können sie kostenlos hier abrufen.

George Fraser Fivetran
George Fraser Fivetran

George Fraser

Fivetran -

CEO

Ulrich Parthier

IT Verlag GmbH -

Herausgeber it management, it security

Anzeige

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.