Apache Spark: Der Alleskönner unter den Big-Data-Technologien

Apache Spark: Der Alleskönner unter den Big-Data-Technologien

Wenn es um die Analyse und Auswertung von Big Data geht, fällt in diesem Zusammenhang oft auch der Name Apache Spark. Was das genau ist und was dieses Projekt der Apache Software Foundation alles kann, erklären wir heute in unserem Blog.

Was ist Apache Spark?

Aus einem Forschungsobjekt der Universität Berkeley (Kalifornien) heraus entstanden, ist 2014 das Open-Source Verarbeitungssytem Apache Spark auf den Markt gekommen. Das Framework Spark ist eine Weiterentwicklung und gleichzeitig größte Konkurrenz von Apache Hadoop. Letzteres erregte Aufsehen, da es mit dem Tool erstmals gelang, den Einsatz von Big Data wirtschaftlich zu gestalten. Hadoop und Spark sind beide frei verfügbare Frameworks von Apache und können mit wenigen Schritten von der offiziellen Homepage heruntergeladen werden. Doch was unterscheidet Hadoop und Spark?

Die Optimierungen bei Spark

Wie bei Hadoop ist auch Apache Spark mit einem normalen Equipment leistungsstark und erfordert keine besondere Hardware. Einzig ein Hadoop-Cluster, d. h. ein großer Verbund sicherer Netzwerk-Rechner, wird dabei benötigt.

Größter Kritikpunkt bei Hadoop war immer, dass es nicht für die Echtzeitdatenanalyse zu gebrauchen war. Dies hat sich mit Spark geändert. Zudem ist Spark bis zu 100-mal schneller. Neben diesen Optimierungen haben die Entwickler auch mit einigen Neuerungen das Framework verbessert:

  • In-Memory-Datenverarbeitung: Diese ermöglicht eine besonders schnelle Auswertung von Daten. Die zu analysierenden Daten werden direkt im Arbeitsspeicher der Cluster-Knoten gespeichert und verarbeitet. So kann das System wesentlich schneller arbeiten als konventionelle Systeme. Erst bei zu großen Datenmengen lagert Spark diese auf die Festplatte aus.
  • Machine-Learning: Seit 2015 ist die Funktionsbibliothek MLlib (Machine Learning Library) enthalten. Durch diese Sammlung von intelligenten Algorithmen wird ein Problem nicht mehr wie bei Hadoop in seine Einzelteile zerlegt und auf mehreren Servern parallel bearbeitet, sondern kann Ergebnisse bereits nach wenigen Klicks erstellen und ist somit für eine Vielzahl von Anwendungsfällen nutzbar.
  • Skalierbarkeit: Im Gegensatz zu Hadoop lassen sich bei Spark Daten nicht nur im Megabyte-, sondern auch im Petabyte-Bereich analysieren.

Wie setzt sich Spark zusammen?

Spark besteht aus mehreren Komponenten, die teilweise voneinander abhängig sind. Zu diesen zählen unter anderem die bereits erwähnte Machine Learning Library MLlib, der Spark Core, der die Grundlage des gesamten Systems bildet, oder das Tool Spark SQL, das eine einfache Durchführung von Selektionen, Projektionen, Gruppierungen und vielem mehr ermöglicht. Somit kann man durch Spark Daten transformieren, zusammenfassen und auch mathematischen Analysen unterziehen. Zudem ist das Framework über die Programmiersprachen Java, Python, R und Scala ansprechbar.

Hat Apache Spark Hadoop überholt?

Aufgrund der oben genannten Vorteile und Optimierungen ist Apache Spark nicht umsonst marktführend und der größte Konkurrent von Hadoop. Große Unternehmen wie Amazon, eBay, oder Yahoo setzen bereits auf Apache Spark und Experten stufen das leistungsstarke Tool bereits als die vereinheitlichende Big-Data-Technologie ein. Als wichtiges Instrument für Projekte in der Industrie 4.0 ist es also kaum mehr aus der Big Data-Analyse wegzudenken.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.