Realtime-Streaming und Machine Learning mit Apache Spark 2.0

12. Oktober, 2016
09:13

Cloudera hat auf der Strata+Hadoop World in New York seine neue Version vorgestellt, die auf Apache Spark 2.0 (Beta) aufbaut und Verbesserungen bei der Behandlung von APIs, mehr Leistung und bessere Fähigkeiten im Bereich Machine Learning bringt. Außerdem arbeitet Cloudera mit der Community an der Weiterentwicklung von Apache Kudu 1.0, das erst vor kurzem von der Apache Software Foundation veröffentlicht wurde.

Mit den neuesten Ergänzungen zu diesen Open-Source-Projekten sowie der tiefen Integration in seine Plattform trägt Cloudera dem zunehmenden Bedarf an Streaming und Echtzeitanalysen von Daten in anspruchsvollen Workloads Rechnung, wie etwa Machine-Learning-Modellen im produktiven Einsatz bei Unternehmenskunden von Cloudera.

Apache Spark

Clouderas führende Rolle bei der Entwicklung von Funktionen und Ressourcen für Unternehmen, insbesondere bei Sicherheit, Stabilität und der breiten Integration, belegt das Engagement für Open-Source-Innovationen. Diese Ressourcen sind wichtig, um Projekte bereit für den Unternehmenseinsatz zu machen. Cloudera hat als erster Anbieter von Big-Data-Analysen mit Hadoop eine kommerziell unterstützte Version von Spark auf den Markt gebracht und sich aktiv an der Open-Source-Community beteiligt, um Spark mit seiner One-Platform-Initiative für Unternehmen auszubauen. Mit Spark 2.0 können Organisationen die Vorteile von Streaming-Daten besser nutzen, angereicherte Modelle zum Machine Learning entwickeln und in Echtzeit in Betrieb nehmen. Dadurch können sie mehr Workloads in die Produktion einbeziehen.

Zu den Funktionen von Spark 2.0 zählen:

Bessere Leistung und Bedienbarkeit mit der neuen Dataset API

Strukturiertes Streaming für bessere Leistung und einfachere Aufnahme traditionell strukturierter Daten für Zeitserien, Tabellen und IoT-Daten.

Höhere Zuverlässigkeit in geschäftskritischen Anwendungen durch Typensicherheit beim Kompilieren anwenderdefinierter Funktionen.

Machine Learning-Modelle, Pipeline-Persistenz und neu unterstütze Machine-Learning-Bibliotheken zur Aufnahme neuer Datenbestände und Analyseanwendungen

„Cloudera hat als erster Anbieter eine kommerziell unterstützte Version von Apache Spark in seiner Big-Data-Plattform angeboten. Seitdem hat sich Spark zu einem Branchenstandard für die Stream-Verarbeitung und Machine-Learning-Workloads entwickelt”, so Mike Olson, Gründer und Chief Strategy Officer von Cloudera. „Als Bestandteil des Cloudera Enterprise Data Hub profitiert Spark von der Sicherheit, Verwaltbarkeit, Data-Governance und den Compliance-Services, die Kunden verlangen. Es kann mit Hochleistungs-Workloads im großen Maßstab umgehen. Als Teil der weltweiten Spark-Community fühlen wir uns der kontinuierlichen Weiterentwicklung für die Anforderungen von Unternehmen verpflichtet.”

Apache Kudu

Im September 2015 hat Cloudera die Beta-Version von Kudu veröffentlicht, seinem leistungsfähigen, spaltenbasierten Speicher für Hadoop, der die starke Kombination aus schnellen Analysen auf schnellen Daten ermöglicht. Zwei Monate später hat Cloudera Kudu an die Apache Software Foundation (ASF) übertragen, um es für eine breitere Entwicklergemeinde zu öffnen und mehr unterschiedliche Einsatzszenarien für schnelle Analysen zu ermöglichen. Während Spark 2.0 Unternehmen besseren Zugang zu Streaming-Daten gibt, ermöglicht Kudu 1.0 Echtzeit-Anwendungsfälle mit hoher Geschwindigkeit.

„Kudu ist eine Reaktion auf die wachsende Marktverbreitung von Anwendungsfällen für Echtzeit-Analysen”, Charles Zedlewski, Vice President Products bei Cloudera. „Bereits 2012 hat Cloudera erkannt, dass es im Hadoop-Ökosystem eine Lücke im Bereich Analysen gab, die Architekten dazu brachte, für Echtzeit-Analysen komplexe hybride Architekturen zu erzeugen. Mit der Veröffentlichung von Apache Kudu 1.0 wurde die ursprüngliche Vision umgesetzt. Anwender können sich jetzt auf ein einheitliches, vereinfachtes Projekt für schnelle Analysen auf schnellen Daten stützen. Die Community hat Kudu schnell angenommen und bei einer Vielzahl von Anwendungsfällen für Echtzeit-Analysen bereits in großem Maßstab eingesetzt.”

Kudu bietet schnelle Scans von Daten für Analysezwecke und unmittelbare Lese-/ Schreibfähigkeiten für häufige Updates und Suchen. Mit Kudu können Unternehmen auch Echtzeit-Anwendungsfälle in größerem Umfang einführen. Neben der Integration mit Spark ist Kudu 1.0 für eine optimale Verarbeitung auch eng mit MapReduce und Impala verbunden.

Zu den Funktionen von Kudu 1.0 zählen:

Eine vereinfachte Architektur ermöglicht sehr schnelle Batch- und Stream-Verarbeitung.

Fehlertoleranz und Skalierbarkeit bis zu mehreren hundert Nodes.

Eine spaltenbasierte Struktur ermöglicht Analysen der aktuellsten Daten für Echtzeit-Anwendungsfälle, etwa Zeitserien, Maschinendatenanalysen und Online-Bericht

www.cloudera.com

Application Programming Interface (API) Machine Learning

Realtime-Streaming und Machine Learning mit Apache Spark 2.0

Apache Spark

Zu den Funktionen von Spark 2.0 zählen:

Apache Kudu

Zu den Funktionen von Kudu 1.0 zählen:

Weitere Artikel

Meistgelesene Artikel

Hacker-Angriff: IT-Totalausfall bei Medizintechnik-Riesen Stryker

ChatGPT-Deinstallationen steigen um 295 % nach Pentagon-Deal

Amazon-Störung: Checkout in Europa stundenlang nicht erreichbar

OpenClaw-Gründer rechnet nach OpenAI-Wechsel mit Europa ab

X zum zweiten Mal heute down: “Something went wrong” weltweit

IT Verlag

Wichtige Links

Kontakt