Hadoop-Dateisystem wurde verwendung verteiltes Dateisystem-Design entwickelt. Es auf Wirtschaftsgut-Hardware laufen. Im Gegensatz zu anderen verteilten Systemen HDFS hoch fehlertolerante und ist entworfen verwendung niedrigen Kosten Hardware.
HDFS hält sehr große Menge an Daten und stellt einen leichteren Zugang. Um solche großen Daten zu speichern, werden die Dateien auf mehreren Maschinen gespeichert. Diese Dateien sind in redundanter Weise zu Rettung gespeichert, um das System vor einer möglichen Datenverlust im Falle eines Ausfalls. HDFS macht auch Anwendungen für die Parallelverarbeitung.
Da unten ist die Architektur eines Hadoop-Dateisystem.
HDFS folgt der Master-Slave-Architektur und es folgenden Elemente hat.
Die Namen Knoten ist die Wirtschaftsgut-Hardware, die das GNU / Linux Betriebssystem und die Namen Knoten Software enthält. Es ist eine Software, die auf Standard-Hardware ausgeführt werden kann. Das System mit dem Namen Knoten fungiert als Master-Server und es macht die folgenden Aufgaben:
Die DatenKnoten ist eine wirtschaftsgut-Hardware, haben die GNU / Linux-Betriebssystem und DatenKnoten Software. Für jeden Knoten (wirtschaftsgut-Hardware / System) in einem Cluster, da wird sein eine DatenKnoten. Diese Knoten Verwaltung der Datenspeicherung von ihr System.
Generell werden die Benutzerdaten in den Dateien des HDFS gespeichert. Die Datei in einem Dateisystem werden sein unterteilt in ein oder mehrere Segmente,und / oder in einzelnen Datenknoten gespeichert werden. Diese Dateisegmente werden als Blöcke bezeichnet. In anderen Worten, die minimale Menge an Daten, die HDFS lesen oder schreiben kann als Block bezeichnet. Die Standard-Blockgröße ist 64 MB, kann aber nach der Notwendigkeit, in HDFS Konfiguration ändern erhöht werden.
Fehlererkennung und Wiederherstellung: Seit HDFS umfasst eine große Anzahl von wirtschaftsgut-Hardware, ist häufige Versagen von Bauteilen. Daher, HDFS sollten haben Mechanismen für eine schnelle und automatische Fehlererkennung und Wiederherstellung.
Riesige Datensätze: HDFS sollte haben Hunderte von Knoten pro Cluster für die Verwaltung der Anwendungen mit Riesig Datensätze.
Hardware auf Daten: Die angeforderte Aufgabe effizient durchgeführt werden, wenn die Berechnung erfolgt in der Nähe von den Daten. Besonders dort, wo große Datenmengen betroffen sind, reduziert sie den Netzwerkverkehr und erhöht den Durchsatz.