Hadoop - Einführung


Advertisements

Hadoop ist eine Apache Open Source Framework geschrieben in Java dass ermöglicht verteilte Verarbeitung von großen DatenSatz über Clustern von Computern mit einfachen Programmiermodelle. Die Hadoop Framework-Anwendung werk in einem Umfeld, das verteilte Speicher und Berechnung in Clustern von Computern zur Verfügung stellt. Hadoop ist entworfen, um von einem Server zu skalieren bis zu Tausenden von Maschinen, die jeweils lokale Berechnung und Speicherung.

Hadoop Architektur

Bei es ist Kern hat Hadoop zwei Hauptschichten nämlich:

  • Verarbeitung / Berechnung Schicht (MapReduce) und
  • Speicherschicht (Hadoop verteiltes Dateisystem).
Hadoop Architektur

Karte reduzieren

Kartereduzieren ist eine parallele Programmiermodell für das Schreiben von verteilten Anwendungen ersinnen bei Google für effiziente Verarbeitung großer Datenmengen entwickelt (Multiterabyte Datensätze ), über große Cluster (mehrere tausend von knoten) von Wirtschaftsgut-Hardware in eine zuverlässige, fehlertolerante Weise. Das kartereduzieren Programm läuft auf Hadoop, welche ist ein Apache-Open-Source-Rahmen.

Hadoop verteiltes Dateisystem

Die Hadoop verteiltes Dateisystem (HDFS) auf dem Google File System (GFS) und stellt ein verteiltes Dateisystem, das entworfen, um auf Standard-Hardware betrieben wird. Es hat viele Ähnlichkeiten mit bestehenden verteilte Dateisysteme. Jedoch sind die Unterschiede gegenüber anderen verteilten Dateisysteme signifikant. Es ist sehr fehlertolerant und wurde entwickelt, um auf kostengünstiger Hardware eingesetzt werden. Es bietet einen hohen Durchsatz Zugriff auf Anwendungsdaten und eignet sich für Anwendungen mit großen Datenmengen.

Neben den oben genannten beiden Kernkomponenten, umfasst Hadoop Rahmen auch folgende zwei Modulen:

  • Hadoop Gemeinsame : Das sind Java-Bibliotheken und Dienstprogramme erforderlich von anderen Hadoop Module.

  • Hadoop YARN : Dies ist ein Rahmen für die Job-Scheduling und Cluster-Ressource-Management.

Wie funktioniert Hadoop Arbeit?

Es ist ziemlich teuer, größere Server mit schweren Konfigurationen, die in großem Maßstab Verarbeitung handhaben zu bauen, aber als Alternative, können zusammen viele Rohstoff Rechner mit Single-CPU als einzelne funktionale verteiltes System zu binden, und praktisch, können die Cluster-Maschinen lesen Sie die Datenmenge, die parallel und bieten eine deutlich höhere Durchsatzleistung. Ferner ist es billiger als ein High-End-Server. Das ist also der erste Motivationsfaktor mit Hadoop, dass es in gruppierten und Low-Cost-Maschinen ausgeführt wird.

Hadoop läuft Code über einen Cluster von Computern. Dieser Prozess umfasst die folgenden Kernaufgaben, die Hadoop führt:

  • Die Daten werden zunächst in Verzeichnisse und Dateien aufgeteilt. Dateien werden in gleichmäßig große Blöcke von 128M und 64M (vorzugsweise 128M) unterteilt.
  • Diese Dateien werden dann über verschiedene Cluster-Knoten für die Weiterverarbeitung verteilt.
  • HDFS, an der Spitze dem lokalen Dateisystem, überwacht die Verarbeitung.
  • Die Blöcke sind für den Umgang mit Hardware-Fehler repliziert.
  • Überprüfen, dass der Code erfolgreich ausgeführt wurde.
  • Die Durchführung der Art, die zwischen der Karte stattfindet und Stufen zu reduzieren.
  • Senden der sortierten Daten zu einem bestimmten Computer.
  • Das Schreiben der Debugging-Protokolle für jeden Job.

Vorteile von Hadoop

  • Hadoop Framework ermöglicht es dem Benutzer, schnell zu schreiben und testen verteilten Systemen. Es ist effizient, und es automatisch verteilt die Daten und die Arbeit über die Maschinen und die wiederum nutzt die zugrunde liegende Parallelität der CPU-Kerne.

  • Hadoop nicht auf Hardware angewiesen, um Fehlertoleranz und hohe Verfügbarkeit (FTHA) zu bieten, sondern Hadoop Bibliothek selbst wurde entwickelt, um auf der Anwendungsschicht zu erkennen und zu behandeln Ausfälle.

  • Die Server können hinzugefügt oder entfernt werden aus dem Cluster dynamisch und Hadoop weiterhin ohne Unterbrechung betrieben werden.

  • Ein weiterer großer Vorteil von Hadoop ist, dass abgesehen davon, dass offen Quelle, auf allen Plattformen kompatibel ist, da es ist Java basiert.

Advertisements