Hadoop ist eine Apache Open Source Framework geschrieben in Java dass ermöglicht verteilte Verarbeitung von großen DatenSatz über Clustern von Computern mit einfachen Programmiermodelle. Die Hadoop Framework-Anwendung werk in einem Umfeld, das verteilte Speicher und Berechnung in Clustern von Computern zur Verfügung stellt. Hadoop ist entworfen, um von einem Server zu skalieren bis zu Tausenden von Maschinen, die jeweils lokale Berechnung und Speicherung.
Bei es ist Kern hat Hadoop zwei Hauptschichten nämlich:
Kartereduzieren ist eine parallele Programmiermodell für das Schreiben von verteilten Anwendungen ersinnen bei Google für effiziente Verarbeitung großer Datenmengen entwickelt (Multiterabyte Datensätze ), über große Cluster (mehrere tausend von knoten) von Wirtschaftsgut-Hardware in eine zuverlässige, fehlertolerante Weise. Das kartereduzieren Programm läuft auf Hadoop, welche ist ein Apache-Open-Source-Rahmen.
Die Hadoop verteiltes Dateisystem (HDFS) auf dem Google File System (GFS) und stellt ein verteiltes Dateisystem, das entworfen, um auf Standard-Hardware betrieben wird. Es hat viele Ähnlichkeiten mit bestehenden verteilte Dateisysteme. Jedoch sind die Unterschiede gegenüber anderen verteilten Dateisysteme signifikant. Es ist sehr fehlertolerant und wurde entwickelt, um auf kostengünstiger Hardware eingesetzt werden. Es bietet einen hohen Durchsatz Zugriff auf Anwendungsdaten und eignet sich für Anwendungen mit großen Datenmengen.
Neben den oben genannten beiden Kernkomponenten, umfasst Hadoop Rahmen auch folgende zwei Modulen:
Hadoop Gemeinsame : Das sind Java-Bibliotheken und Dienstprogramme erforderlich von anderen Hadoop Module.
Hadoop YARN : Dies ist ein Rahmen für die Job-Scheduling und Cluster-Ressource-Management.
Es ist ziemlich teuer, größere Server mit schweren Konfigurationen, die in großem Maßstab Verarbeitung handhaben zu bauen, aber als Alternative, können zusammen viele Rohstoff Rechner mit Single-CPU als einzelne funktionale verteiltes System zu binden, und praktisch, können die Cluster-Maschinen lesen Sie die Datenmenge, die parallel und bieten eine deutlich höhere Durchsatzleistung. Ferner ist es billiger als ein High-End-Server. Das ist also der erste Motivationsfaktor mit Hadoop, dass es in gruppierten und Low-Cost-Maschinen ausgeführt wird.
Hadoop läuft Code über einen Cluster von Computern. Dieser Prozess umfasst die folgenden Kernaufgaben, die Hadoop führt:
Hadoop Framework ermöglicht es dem Benutzer, schnell zu schreiben und testen verteilten Systemen. Es ist effizient, und es automatisch verteilt die Daten und die Arbeit über die Maschinen und die wiederum nutzt die zugrunde liegende Parallelität der CPU-Kerne.
Hadoop nicht auf Hardware angewiesen, um Fehlertoleranz und hohe Verfügbarkeit (FTHA) zu bieten, sondern Hadoop Bibliothek selbst wurde entwickelt, um auf der Anwendungsschicht zu erkennen und zu behandeln Ausfälle.
Die Server können hinzugefügt oder entfernt werden aus dem Cluster dynamisch und Hadoop weiterhin ohne Unterbrechung betrieben werden.
Ein weiterer großer Vorteil von Hadoop ist, dass abgesehen davon, dass offen Quelle, auf allen Plattformen kompatibel ist, da es ist Java basiert.