Alle Hadoop Teilprojekte wie Hive, Pig und HBase Unterstützung Linux-Betriebssystem. Daher müssen Sie, um jede Linux aromatisierte OS installieren. Die folgenden einfachen Schritte werden für Hive Installation hinrichten:
Java muss auf Ihrem System vor der Installation von Hive installiert werden. Lassen Sie uns verifizieren, Java-Installation mit dem folgenden Befehl:
$ java –version
Wenn Java bereits auf Ihrem System installiert ist, erhalten Sie die folgende Antwort zu sehen:
java version "1.7.0_71" Java(TM) SE Runtime Environment (build 1.7.0_71-b13) Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)
Wenn Java nicht auf Ihrem System installiert, Sie dann gehen Sie folgendermaßen vor für die Installation von Java gegeben.
Herunterladen Java(JDK <latest version> - X64.tar.gz) indem Sie den Besuch den folgenden Link http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html.
Dann jdk-7u71-linux-x64.tar.gz werden auf das ihren System heruntergeladen werden.
Der Regel werden Sie zu finden die heruntergeladene Java-datei in heruntergeladene Ordner. Verifizieren Sie es und extrahieren Sie die JDK-7u71-linux-x64.gz Datei mitHilfe den folgenden Befehlen.
$ cd Downloads/ $ ls jdk-7u71-linux-x64.gz $ tar zxf jdk-7u71-linux-x64.gz $ ls jdk1.7.0_71 jdk-7u71-linux-x64.gz
Zu machen Java verfügbar für alle Benutzer verfügbar, müssen Sie sie auf den Standort "/ usr / local /" zu bewegen. Öffnen Sie root und die folgenden Befehle ein.
$ su password: # mv jdk1.7.0_71 /usr/local/ # exit
Für den Setzen oben von PATH und JAVA_HOME Variablen, fügen Sie die folgenden Befehle ein, um ~ / .bashrc-Datei.
export JAVA_HOME=/usr/local/jdk1.7.0_71 export PATH=PATH:$JAVA_HOME/bin
Nun verifizieren die Installation mit dem Befehl java -version aus dem Terminal, wie oben erklärt.
Hadoop muss auf Ihrem System vor der Installation von Hive installiert werden. Lassen Sie uns verifizieren die Hadoop-Installation mitHilfe dem folgenden Befehl:
$ hadoop version
Wenn Hadoop ist bereits auf Ihrem System installiert ist, dann erhalten Sie die folgende Antwort:
Hadoop 2.4.1 Subversion https://svn.apache.org/repos/asf/hadoop/common -r 1529768 Compiled by hortonmu on 2013-10-07T06:28Z Compiled with protoc 2.5.0 From source with checksum 79e53ce7994d1628b240f09af91e1af4
Wenn Hadoop ist nicht auf Ihrem System installiert ist, Sie dann vorgehen mit den folgenden Schritten:
Herunterladen und Extrakt Hadoop 2.4.1 von Apache Software Foundation mitHilfe den folgenden Befehlen.
$ su password: # cd /usr/local # wget http://apache.claz.org/hadoop/common/hadoop-2.4.1/ hadoop-2.4.1.tar.gz # tar xzf hadoop-2.4.1.tar.gz # mv hadoop-2.4.1/* to hadoop/ # exit
Die folgenden Schritte werden verwendet, um Hadoop 2.4.1 in pseudo verteilten Modus installieren.
Sie können setzen Hadoop Umgebungsvariablen durch Anhängen die folgenden Befehle ein, um ~/.bashrcDatei.
export HADOOP_HOME=/usr/local/hadoop export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
Nun anwenden alle Änderungen in die aktuelle laufende System.
$ source ~/.bashrc
Sie können zu finden alle Hadoop-Konfigurations dateien in der Lage "$ HADOOP_HOME / etc / Hadoop". Sie müssen machen geeignete Änderung in dieser Konfigurationsdateien entsprechend Ihren Hadoop-Infrastruktur.
$ cd $HADOOP_HOME/etc/hadoop
Um Hadoop-Programme mitHilfe Java zu entwickeln, Sie haben rücksetzen um die Java-Umgebungsvariablen in hadoop-env.sh Datei durch Ersetzen JAVA_HOME Wert mit der Lage der Java in Ihre System.
export JAVA_HOME=/usr/local/jdk1.7.0_71
Da unten sind die Liste der Dateien, die Sie bearbeiten die Konfiguration Hadoop haben.
core-site.xml
Die Core-site.xml Datei enthält Informationen wie beispielsweise die Portnummer verwendet für Hadoop-Instanz, Speicher zugeteilt für das Dateisystem , Speichergrenze zum Speichern der Daten und der Größe des lesen / schreiben Puffer.
Öffnen Sie die Kern-site.xml und hinzufügen die folgenden Eigenschaften in zwischen der<Konfiguration> und </Konfiguration> Schlagworte.
<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> </configuration>
hdfs-site.xml
Die HDFS-site.xml Datei enthält Informationen wie den Wert der Replikationsdaten, die namenode Pfad und der DataNode Pfad auf Ihres lokalen Dateisystemen. Es Mittel ist der platz wo Sie werden soll speichert die Hadoop Infra.
Nehmen wir an, die folgenden Daten.
dfs.replication (data replication value) = 1 (In the following path /hadoop/ is the user name. hadoopinfra/hdfs/namenode is the directory created by hdfs file system.) namenode path = //home/hadoop/hadoopinfra/hdfs/namenode (hadoopinfra/hdfs/datanode is the directory created by hdfs file system.) datanode path = //home/hadoop/hadoopinfra/hdfs/datanode
Öffnen Sie diese Datei und fügen Sie die folgenden Eigenschaften in zwischen der <Konfiguration>, </Konfiguration> Schlagworte in dieser Datei.
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.name.dir</name> <value>file:///home/hadoop/hadoopinfra/hdfs/namenode </value> </property> <property> <name>dfs.data.dir</name> <value>file:///home/hadoop/hadoopinfra/hdfs/datanode </value > </property> </configuration>
Hinweis: In der oben Datei sind alle Eigenschafts werte sind benutzerdefiniert und Sie können Änderungen nach Ihren Hadoop Infrastruktur machen.
yarn-site.xml
Diese Datei wird verwendet, um Garn in Hadoop konfigurieren. Öffnen Sie die Garn-Datei site.xml und fügen Sie die folgenden Eigenschaften in zwischen der <Konfiguration>, </Konfiguration> Schlagworte in dieser Datei.
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
mapred-site.xml
Diese Datei wird verwendet zu angeben um die MapReduce Framework wir sind verwenden. Standardmäßig Hadoop enthält eine Vorlage von Garn-site.xml. Zunächst ,Sie müssen kopieren die Datei von mapred site xml.template zu mapred-site.xml Datei mitHilfe den folgenden Befehl.
$ cp mapred-site.xml.template mapred-site.xml
Öffnen mapred- site.xml Datei und fügen Sie die folgenden Eigenschaften in zwischen der <Konfiguration>, </Konfiguration> Schlagworte in dieser Datei.
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
Die folgenden Schritte werden verwendet, um die Hadoop-Installation zu überprüfen.
Setzen oben die namenode mitHilfe dem Befehl “hdfs namenode -format” wie folgt ein.
$ cd ~ $ hdfs namenode -format
Das erwartete Ergebnis ist wie folgt.
10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG: /************************************************************ STARTUP_MSG: Starting NameNode STARTUP_MSG: host = localhost/192.168.1.11 STARTUP_MSG: args = [-format] STARTUP_MSG: version = 2.4.1 ... ... 10/24/14 21:30:56 INFO common.Storage: Storage directory /home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted. 10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to retain 1 images with txid >= 0 10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0 10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG: /************************************************************ SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11 ************************************************************/
Mit dem folgenden Befehl wird verwendet, um dfs starten. Die Ausführung dieses Befehls werden Ihre Hadoop-Dateisystem zu starten.
$ start-dfs.sh
Die erwartete Ausgang ist, wie folgt:
10/24/14 21:37:56 Starting namenodes on [localhost] localhost: starting namenode, logging to /home/hadoop/hadoop-2.4.1/logs/hadoop-hadoop-namenode-localhost.out localhost: starting datanode, logging to /home/hadoop/hadoop-2.4.1/logs/hadoop-hadoop-datanode-localhost.out Starting secondary namenodes [0.0.0.0]
Mit dem folgenden Befehl wird verwendet, um das Garn Skript zu starten. Die Ausführung dieses Befehls wird Ihre Garn Daemons zu starten.
$ start-yarn.sh
Die erwartete Ausgang ist, wie folgt:
starting yarn daemons starting resourcemanager, logging to /home/hadoop/hadoop-2.4.1/logs/yarn-hadoop-resourcemanager-localhost.out localhost: starting nodemanager, logging to /home/hadoop/hadoop-2.4.1/logs/yarn-hadoop-nodemanager-localhost.out
Die Standard-Portnummer zu zugreifen Hadoop ist 50070. Verwenden Sie die folgende URL, um Hadoop-Dienste auf Ihren Browser bekommen.
http://localhost:50070/
Die Standard-Portnummer Zugriff für alle Anwendungen des Clusters ist 8088. Verwenden Sie die folgende URL, um diesen Dienst zu besuchen.
http://localhost:8088/
Wir verwenden Ausgliederung 0.14.0 in diesem Tutorial. Sie können es, indem Sie den folgenden Link http://apache.petsads.us/hive/hive-0.14.0/. Nehmen wir an, es wird auf den / Downloads Verzeichnis heruntergeladen. Hier herunterladen wir Hive-Archiv mit dem Namen "Apache-hive-0.14.0-bin.tar.gz" für dieses Tutorial. Mit dem folgenden Befehl wird verwendet, um den Download zu überprüfen:
$ cd Downloads $ ls
Auf erfolgreichem Download, erhalten Sie die folgende Antwort zu sehen:
apache-hive-0.14.0-bin.tar.gz
Die folgenden Schritte sind für die Installation von Hive auf Ihrem System erforderlich. Nehmen wir an, das Hive-Archiv ist auf den / Downloads Verzeichnis heruntergeladen.
Mit dem folgenden Befehl wird verwendet, um den Herunterladen zu verifizieren, und extrahieren Sie die hive-Archiv:
$ tar zxvf apache-hive-0.14.0-bin.tar.gz $ ls
Auf dem erfolgreichen Herunterladen, erhalten Sie die folgende Antwort zu sehen:
apache-hive-0.14.0-bin apache-hive-0.14.0-bin.tar.gz
Wir müssen die Dateien aus dem Super-User kopieren "su -". Die folgenden Befehle werden verwendet, um die Dateien aus dem extrahierten Verzeichnis in das Verzeichnis / usr / local / hive "Verzeichnis kopieren.
$ su - passwd: # cd /home/user/Download # mv apache-hive-0.14.0-bin /usr/local/hive # exit
Sie können Setzen oben das Hive-Umgebung durch Anhängen die folgenden Zeilen in ~ / .bashrc Datei:
export HIVE_HOME=/usr/local/hive export PATH=$PATH:$HIVE_HOME/bin export CLASSPATH=$CLASSPATH:/usr/local/Hadoop/lib/*:. export CLASSPATH=$CLASSPATH:/usr/local/hive/lib/*:.
Mit dem folgenden Befehl wird verwendet, um die Datei ~ / .bashrc ausführen.
$ source ~/.bashrc
Zu konfigurieren Hive mit Hadoop , müssen Sie bearbeiten die hive-env.sh Datei, welche ist platziert in der $ HIVE_HOME / conf Verzeichnis . Die folgenden Befehle umzuleiten zu Hive config , Ordner und kopieren Sie die Vorlagendatei:
$ cd $HIVE_HOME/conf $ cp hive-env.sh.template hive-env.sh
Bearbeiten Sie die hive-env.sh Datei durch Anhängen der folgenden Zeile:
export HADOOP_HOME=/usr/local/hadoop
Hive Installation erfolgreich abgeschlossen. Jetzt eine externe Datenbankserver benötigen Sie konfigurieren Metastore. Wir verwenden Apache Derby-Datenbank.
Führen Sie die unten angegebenen Schritte, um herunterzuladen und zu installieren Apache Derby:
Mit dem folgenden Befehl wird verwendet, um Apache Derby herunterladen. Es dauert einige Zeit zum Download bereit.
$ cd ~ $ wget http://archive.apache.org/dist/db/derby/db-derby-10.4.2.0/db-derby-10.4.2.0-bin.tar.gz
Mit dem folgenden Befehl wird verwendet, um den Download zu überprüfen:
$ ls
Auf erfolgreichem Download, erhalten Sie die folgende Antwort zu sehen:
db-derby-10.4.2.0-bin.tar.gz
Die folgenden Befehle werden zum Extrahieren und Überprüfung der Derby-Archiv verwendet:
$ tar zxvf db-derby-10.4.2.0-bin.tar.gz $ ls
Auf erfolgreichem Download, erhalten Sie die folgende Antwort zu sehen:
db-derby-10.4.2.0-bin db-derby-10.4.2.0-bin.tar.gz
Wir müssen von der Super-User kopieren "su -". Die folgenden Befehle werden verwendet, um die Dateien aus dem extrahierten Verzeichnis in das Verzeichnis / usr / local / derby Verzeichnis kopieren:
$ su - passwd: # cd /home/user # mv db-derby-10.4.2.0-bin /usr/local/derby # exit
Sie können das Derby Umwelt durch Anhängen die folgenden Zeilen in ~ / .bashrc Datei:
export DERBY_HOME=/usr/local/derby export PATH=$PATH:$DERBY_HOME/bin Apache Hive 18 export CLASSPATH=$CLASSPATH:$DERBY_HOME/lib/derby.jar:$DERBY_HOME/lib/derbytools.jar
Mit dem folgenden Befehl wird verwendet, um ~ / .bashrc-Datei aus:
$ source ~/.bashrc
Erstellen Sie ein Verzeichnis genannt Daten in $ DERBY_HOME Verzeichnis zu speichern Metastore Daten.
$ mkdir $DERBY_HOME/data
Derby Installation und Umwelt Setup ist jetzt abgeschlossen.
Konfigurieren Metastore bedeutet Spezifizierung zu Hive wo die Datenbank gespeichert ist. Sie können dies,durch Redigieren die Bienenstock-site.xml-Datei, welche in der $ HIVE_HOME / conf Verzeichnis ist . Zunächst kopieren Sie die Vorlage-Datei mitHilfe dem folgenden Befehl:
$ cd $HIVE_HOME/conf $ cp hive-default.xml.template hive-site.xml
Bearbeiten hive-site.xml und fügen Sie die folgenden Zeilen zwischen der & lt; Aufbau & gt; und & lt; / Konfiguration & gt; Tags:
<property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:derby://localhost:1527/metastore_db;create=true </value> <description>JDBC connect string for a JDBC metastore </description> </property>
Erstellen Sie eine Datei mit dem Namen jpox.properties und fügen Sie folgende Zeilen hinein:
javax.jdo.PersistenceManagerFactoryClass = org.jpox.PersistenceManagerFactoryImpl org.jpox.autoCreateSchema = false org.jpox.validateTables = false org.jpox.validateColumns = false org.jpox.validateConstraints = false org.jpox.storeManagerType = rdbms org.jpox.autoCreateSchema = true org.jpox.autoStartMechanismMode = checked org.jpox.transactionIsolation = read_committed javax.jdo.option.DetachAllOnCommit = true javax.jdo.option.NontransactionalRead = true javax.jdo.option.ConnectionDriverName = org.apache.derby.jdbc.ClientDriver javax.jdo.option.ConnectionURL = jdbc:derby://hadoop1:1527/metastore_db;create = true javax.jdo.option.ConnectionUserName = APP javax.jdo.option.ConnectionPassword = mine
Bevor Sie Hive, müssen Sie den Ordner / tmp und einen separaten Ordner im Hive HDFS erstellen. Hier verwenden wir die / user / Nest / Lager Ordner . Sie müssen Schreibrechte für diese neu erstellten Ordner festgelegt wie folgt:
chmod g+w
Nun setzte sie an HDFS vor Überprüfung Hive. Verwenden Sie die folgenden Befehle ein:
$ $HADOOP_HOME/bin/hadoop fs -mkdir /tmp $ $HADOOP_HOME/bin/hadoop fs -mkdir /user/hive/warehouse $ $HADOOP_HOME/bin/hadoop fs -chmod g+w /tmp $ $HADOOP_HOME/bin/hadoop fs -chmod g+w /user/hive/warehouse
Die folgenden Befehle werden verwendet, um Hive Installation zu überprüfen:
$ cd $HIVE_HOME $ bin/hive
Auf erfolgreicher Installation des Hive, erhalten Sie die folgende Antwort zu sehen:
Logging initialized using configuration in jar:file:/home/hadoop/hive-0.9.0/lib/hive-common-0.9.0.jar!/hive-log4j.properties Hive history file=/tmp/hadoop/hive_job_log_hadoop_201312121621_1494929084.txt …………………. hive>
Der folgende Beispiel-Befehl ausgeführt wird, um alle Tabellen zu öffnen:
hive> show tables; OK Time taken: 2.798 seconds hive>