Cloudera will Apache Spark mit Apache Hadoop vereinen

ZusammenNeue „One Platform“-Initiative soll Spark weiterentwickeln und die nächste Generation von Analyse-Anwendungen ermöglichen.

Cloudera hat heute seine „One-Platform“-Initiative angekündigt, mit der die Entwicklung von Apache Spark für Unternehmensanwendungen beschleunigt werden soll. Spark ist bereits jetzt das beliebteste Open-Source-Projekt im Hadoop-Ökosystem. Mit der Initiative soll es in die Lage versetzt werden, Nachfolger von Hadoops ursprünglichem MapReduce-Framework für die allgemeine Hadoop-Datenverarbeitung zu werden. Durch die tief gehende Integration von Spark quer durch die Plattform, unter anderem in den Bereichen Verwaltung, Sicherheit, Skalierbarkeit und Streaming, wird diese Initiative dabei helfen, die nächste Generation analytischer Anwendungen möglich zu machen.

Anzeige

In den letzten 18 Monaten wurde Spark weiträumig eingeführt. Mehr als 200 Kunden von Cloudera – darunter Avvo, Barclays, Concur, DigitalGlobe, RelayHealth, und Santander UK – nutzen Spark in unterschiedlichen Branchen und Anwendungsbereichen. Cloudera hat früh erkannt, dass Spark aufgrund seiner für Entwickler leichten Bedienbarkeit, seiner modularen Flexibilität und seiner Leistungsfähigkeit das Potenzial dazu hat, zum nächsten generellen Verarbeitungsframework für Hadoop zu werden. Daher hat Cloudera als erster im Markt in Core-Engineering, Support, Dienstleistungen und Training investiert, um Kunden zum Erfolg mit Spark zu verhelfen.

„Spark entwickelt sich rasant zu einer beliebten Ergänzung zu Hadoop, weil Unternehmen eine benutzerfreundliche, schnelle und vielseitige Engine verlangen, um den Analysebedarf rund um Streaming, Diagramme und sogar maschinelles Lernen zu decken“, sagte Nik Rouda, Senior Analyst der Enterprise Strategy Group ESG. „Cloudera investiert viel in die Entwicklung von Spark als vollwertige Komponente seines Angebots. Der Big-Data-Markt wird sich weiter rasend schnell entwickeln. Dieser Schritt stellt sicher, dass Cloudera auch in Zukunft nicht nur relevant, sondern ein Vorreiter bleiben wird.“

Cloudera war der erste Hadoop-Anbieter, der Spark vertreibt und unterstützt. Damit ist Cloudera ein Vorreiter in der Spark-Community, insbesondere auch bei der Integration von Spark und Hadoop. Weil Cloudera fünfmal mehr Spark-Techniker beschäftigt als andere Hadoop-Distributoren, konnte das Unternehmen mehr als 370 Patches und 43.000 Zeilen Code zu Spark beitragen und dessen Entwicklung mit seinem Partner Intel zu einer Schlüsselinitiative machen. Im Ergebnis ist Spark eine tief integrierte und weitläufig verwendete Komponente der Cloudera Hadoop-Plattform. Diese produktive Erfahrung lieferte erhebliche Einblicke in die Herausforderungen, die beim großflächigen Einsatz von Spark in Kundenumgebungen entstehen. Außerdem entstand so umfangreiches Wissen über die Anforderungen von Techniker- und Analyseteams.

„Spark ist auf einem guten Weg, MapReduce zu ersetzen, wenn es darum geht, Jobs mit Hunderten von Exekutoren simultan auf riesigen, mandantenfähigen Clustern mit Zehntausenden von Knotenpunkten laufen zu lassen. Es gibt aber auch noch viel zu tun“, so Mike Olson, Gründer und Chief Strategy Officer von Cloudera. „Es ist ein ambitioniertes Ziel, aber mit der Community von Anwendern und Unterstützern und unserer Führung denken wir, dass es gut erreichbar ist.

Damit Spark sein Potenzial ausreizen kann, muss jedoch noch an mehreren Kernbereichen gearbeitet werden. Die One-Platform-Initiative wird die Anstrengungen der Community auf die vier wichtigsten Anforderungen konzentrieren: Sicherheit, Skalierbarkeit, Verwaltung und Streaming.

Die Sicherheit von Spark stärken

Viele Unternehmen, vor allem in stark regulierten Branchen wie Finanzdienstleistungen, Verwaltung oder Gesundheitswesen, haben umfangreiche Sicherheits- und Compliance-Bedürfnisse, wenn sie neue Tools wie Spark einführen und nutzen. Als Anbieter der einzigen Distribution, die einen PCI Compliance Audit bestanden hat, ist Cloudera schon seit langem auf umfassende Sicherheit konzentriert. Es gab bereits Fortschritte darin, Spark zu sichern, unter anderem durch Kerberos-Integration zur Authentifizierung und rollenbasierte Zugriffskontrolle durch HDFS-Sync mit Apache Sentry. Die One-Platform-Initiative wird sicherstellen, dass Spark strenge regulatorische Richtlinien einhält und voll in die Hadoop-Sicherheitsfunktionen integriert ist. Die Entwicklungsanstrengungen konzentrieren sich dabei auf Governance, Verschlüsselung einschließlich Integration mit den Intel Advanced Encryptoin Bibliotheken, und feinmaschige Sicherheitskontrollen.

Spark im Hadoop-Maßstab

Damit Spark MapReduce ablösen kann, muss es die Menge von MapReduce-Aufgaben, die heute laufen, erreichen oder übertreffen. Das betrifft oft Petabyte an Daten über Tausende von Knotenpunkten. Cloudera unterstützt bereits die größten Spark-Einsätze der Welt, und diese müssen weiter wachsen. Die One-Platform-Initiative wird gewährleisten, dass Spark Aufgaben quer durch Tausende Knotenpunkte in mandantenfähigen Clustern bewältigen kann, was verbesserte Verlässlichkeit, Stabilität und Leistung verlangt.

Spark verwalten

Es ist notwendig, die Verwaltung von Spark zu vereinfachen, damit es breite Anwendung in Unternehmen findet und erfolgskritische Produktionsanwendungen unterstützen kann. Cloudera hat diese Initiative vorangetrieben, indem es Spark mit Hadoop YARN für gemeinsames Ressourcenmanagement integriert, mit anderen Hadoop Frameworks wie Impala und Apache Solr verbunden und nützliche Metriken für Diagnostik hinzugefügt hat. Die One-Platform-Initiative wird Spark durch automatisierte Konfigurationen, verbesserte Mandantenfähigkeit, Leistung, und Benutzerfreundlichkeit für Spark-on-YARN, mehr Sichtbarkeit des Ressourcenverbrauchs und eine verbesserte PySpark-Installation für Python-Zugriff noch einfacher verwaltbar machen.

Streaming

Streaming-Workloads zählen zu den beliebtesten Anwendungsgebieten für Spark, besonders angesichts des exponentiellen Wachstums bei Internet of Things (IoT)-Daten und dem Bedarf nach Echtzeitanalyse. Um den Anforderungen seiner Kunden im produktiven Einsatz gerecht zu werden, hat Cloudera bereits daran gearbeitet, sicherzustellen, dass es keinen Datenverlust mit Spark Streaming gibt, und Integrationen mit den beliebtesten Dateneinspeisungs-Tools Kafka und Flume entwickelt. Zukünftig soll auch sicher gestellt werden, dass Spark Streaming die meisten üblichen Streamverarbeitungs-Workloads unterstützen kann. Dazu wird der Hauptaugenmerk auf Leistung sowie auf dem Zugriff auf Streaming-Kapazitäten durch neue Nutzergruppen durch hochwertigere Spracherweiterungen liegen.

Für weitere Informationen über die One-Plattform-Initiative und wie man sich beteiligen kann, melden Sie sich bitte an für das Webinar “Unifying Spark and Hadoop: The One Platform Initiative” mit Doug Cutting, Mitschöpfer von Hadoop und Chefarchitekt bei Cloudera, am Donnerstag, 24. September um 19 Uhr deutscher Zeit.

www.cloudera.com

Anzeige

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.