Todos Hadoop sub-proyectos como Hive, el cerdo, HBase y compatible con el sistema operativo Linux. Por lo tanto, es necesario instalar ningún sistema operativo Linux con sabor. Los siguientes pasos son ejecutados por Hive instalación:
Java debe estar instalado en el sistema antes de instalar Hive. Debemos verificar instalación de java utilizando el siguiente comando:
$ java –version
Si Java ya está instalado en el sistema, usted podrá ver la siguiente respuesta:
java version "1.7.0_71" Java(TM) SE Runtime Environment (build 1.7.0_71-b13) Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)
Si java no está instalado en el sistema, a continuación, siga los pasos que se indican a continuación para instalar java.
Descargar Java (JDK <latest version> - X64.tar.gz) visitando el siguiente enlace http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html.
A continuación, jdk-7u71-linux-x64.tar.gz se descargará en su sistema.
En general, encontrará el archivo descargado java en la carpeta de descargas. Verificar y extraer el jdk-7u71-linux-x64.gz usando los siguientes comandos.
$ cd Downloads/ $ ls jdk-7u71-linux-x64.gz $ tar zxf jdk-7u71-linux-x64.gz $ ls jdk1.7.0_71 jdk-7u71-linux-x64.gz
Para que java disponible para todos los usuarios, tiene que mover a la ubicación “/usr/local/”. Abrir root, y escriba los siguientes comandos.
$ su password: # mv jdk1.7.0_71 /usr/local/ # exit
Para la configuración de ruta de acceso y JAVA_HOME variables, agregar los siguientes comandos en el archivo ~/.bashrc.
export JAVA_HOME=/usr/local/jdk1.7.0_71 export PATH=PATH:$JAVA_HOME/bin
Ahora compruebe la instalación utilizando el comando java -version de la terminal como se ha explicado anteriormente.
Hadoop debe estar instalado en el sistema antes de instalar Hive. Deje que nosotros verificar la Hadoop instalación utilizando el siguiente comando:
$ hadoop version
Si Hadoop ya está instalado en el sistema, entonces se recibe la siguiente respuesta:
Hadoop 2.4.1 Subversion https://svn.apache.org/repos/asf/hadoop/common -r 1529768 Compiled by hortonmu on 2013-10-07T06:28Z Compiled with protoc 2.5.0 From source with checksum 79e53ce7994d1628b240f09af91e1af4
Si Hadoop no está instalada en su sistema, continúe con los siguientes pasos:
Descargar y extraer Hadoop 2.4.1 de Apache Software Foundation usando los siguientes comandos.
$ su password: # cd /usr/local # wget http://apache.claz.org/hadoop/common/hadoop-2.4.1/ hadoop-2.4.1.tar.gz # tar xzf hadoop-2.4.1.tar.gz # mv hadoop-2.4.1/* to hadoop/ # exit
Los siguientes pasos se usan para instalar Hadoop 2.4.1 en pseudo modo distribuido.
Puede establecer las variables de entorno Hadoop anexar los siguientes comandos para ~/.bashrc.
export HADOOP_HOME=/usr/local/hadoop export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
Ahora se aplican todos los cambios en el sistema actual.
$ source ~/.bashrc
Usted puede encontrar todos los archivos de configuración Hadoop en la ubicación "$HADOOP_HOME/etc/hadoop". Usted necesita hacer cambios en los archivos de configuración según su Hadoop infraestructura.
$ cd $HADOOP_HOME/etc/hadoop
Con el fin de desarrollar programas con Hadoop java, tiene que restablecer el entorno java variables de hadoop-env.sh archivo JAVA_HOME valor mediante la sustitución de la ubicación de java en su sistema.
export JAVA_HOME=/usr/local/jdk1.7.0_71
A continuación se presentan la lista de los archivos que tienes que modificar para configurar Hadoop.
Core-site.xml
Elcore-site.xmlcontiene información como el número de puerto que se usa para Hadoop ejemplo, memoria asignada para el sistema de archivos, límite de memoria para almacenar los datos, y el tamaño de lectura/escritura.
Abrir el core-site.xml y agregar las siguientes propiedades en entre el <configuration> y </configuration> etiquetas.
<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> </configuration>
Hdfs sitio.xml
La hdfs sitio.xml contiene información como el valor de los datos de réplica, el namenode ruta, y la datanode camino de los sistemas de archivos locales. Esto significa que el lugar donde se desea almacenar el Hadoop infra.
Supongamos los siguientes datos.
dfs.replication (data replication value) = 1 (In the following path /hadoop/ is the user name. hadoopinfra/hdfs/namenode is the directory created by hdfs file system.) namenode path = //home/hadoop/hadoopinfra/hdfs/namenode (hadoopinfra/hdfs/datanode is the directory created by hdfs file system.) datanode path = //home/hadoop/hadoopinfra/hdfs/datanode
Abra este archivo y agregar las siguientes propiedades en entre el <configuración>, </configuration> en el archivo.
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.name.dir</name> <value>file:///home/hadoop/hadoopinfra/hdfs/namenode </value> </property> <property> <name>dfs.data.dir</name> <value>file:///home/hadoop/hadoopinfra/hdfs/datanode </value > </property> </configuration>
Nota: En el archivo anterior, todos los valores de la propiedad son definidos por el usuario y puede realizar cambios en función de su infraestructura Hadoop.
yarn-site.xml
Este archivo se utiliza para configurarYarn en Hadoop. Abra el yarn-site.xml y añadir las siguientes propiedades de entre el <configuración>, </configuration> en el archivo.
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
Mapred sitio.xml
Este archivo se utiliza para especificar qué MapReduce framework que estamos usando. De forma predeterminada, Hadoop contiene una plantilla de Mapred sitio.xml En primer lugar, es necesario copiar el fichero de mapred-sitio, xml.template de mapred sitio.xml con el siguiente comando.
$ cp mapred-site.xml.template mapred-site.xml
Abrirmapred-site.xmly agregar las siguientes propiedades en entre el <configuración>, </configuration> en el archivo.
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
Los siguientes pasos se utilizan para verificar la instalación Hadoop.
Configurar el namenode usando el comando "hdfs namenode -format" de la siguiente manera.
$ cd ~ $ hdfs namenode -format
El resultado esperado es la siguiente.
10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG: /************************************************************ STARTUP_MSG: Starting NameNode STARTUP_MSG: host = localhost/192.168.1.11 STARTUP_MSG: args = [-format] STARTUP_MSG: version = 2.4.1 ... ... 10/24/14 21:30:56 INFO common.Storage: Storage directory /home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted. 10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to retain 1 images with txid >= 0 10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0 10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG: /************************************************************ SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11 ************************************************************/
El siguiente comando se utiliza para iniciar sle. Al ejecutar este comando, se iniciará la Hadoop sistema de archivos.
$ start-dfs.sh
El resultado esperado es la siguiente:
10/24/14 21:37:56 Starting namenodes on [localhost] localhost: starting namenode, logging to /home/hadoop/hadoop-2.4.1/logs/hadoop-hadoop-namenode-localhost.out localhost: starting datanode, logging to /home/hadoop/hadoop-2.4.1/logs/hadoop-hadoop-datanode-localhost.out Starting secondary namenodes [0.0.0.0]
El siguiente comando se utiliza para iniciar el Yarn script. Al ejecutar este comando se inicie el Yarn demonios.
$ start-yarn.sh
El resultado esperado es la siguiente:
starting yarn daemons starting resourcemanager, logging to /home/hadoop/hadoop-2.4.1/logs/yarn-hadoop-resourcemanager-localhost.out localhost: starting nodemanager, logging to /home/hadoop/hadoop-2.4.1/logs/yarn-hadoop-nodemanager-localhost.out
El número de puerto predeterminado para acceder a Hadoop es 50070. Utilice la siguiente dirección url para obtener servicios Hadoop en su navegador.
http://localhost:50070/
El número de puerto predeterminado para acceder a todas las aplicaciones de clúster es 8088. Utilice la siguiente dirección url para visitar este servicio.
http://localhost:8088/
Utilizamos separación de 0.14.0 en este tutorial. Se puede descargar de visitar el siguiente enlace http://apache.petsads.us/hive/hive-0.14.0/. Supongamos que se ha descargado en el directorio /downloads. En este sentido, descargar Subárbol archivo llamado "apache-Hive-0.14.0 -bin.tar.gz" de este tutorial. El siguiente comando se utiliza para verificar la descarga:
$ cd Downloads $ ls
En descarga exitosa, usted podrá ver la siguiente respuesta:
apache-hive-0.14.0-bin.tar.gz
Los siguientes pasos son necesarios para instalar Hives en el sistema. Supongamos que el archivo Hive es descargado en el directorio /downloads.
El siguiente comando se utiliza para verificar la descarga y extraer la Hive archivo:
$ tar zxvf apache-hive-0.14.0-bin.tar.gz $ ls
En descarga exitosa, usted podrá ver la siguiente respuesta:
apache-hive-0.14.0-bin apache-hive-0.14.0-bin.tar.gz
Tenemos que copiar los archivos desde el super usuario "su-". Los siguientes comandos se utilizan para copiar los archivos desde el directorio extraído al /usr/local/Hive" directory.
$ su - passwd: # cd /home/user/Download # mv apache-hive-0.14.0-bin /usr/local/hive # exit
Puede configurar la sección medio ambiente, añadiendo las siguientes líneas en el archivo ~/.bashrc:
export HIVE_HOME=/usr/local/hive export PATH=$PATH:$HIVE_HOME/bin export CLASSPATH=$CLASSPATH:/usr/local/Hadoop/lib/*:. export CLASSPATH=$CLASSPATH:/usr/local/hive/lib/*:.
El siguiente comando se utiliza para ejecutar ~/.bashrc.
$ source ~/.bashrc
Para configurar Hive con Hadoop, es necesario que edite la Hive-env.sh, que se coloca en un $HIVE_HOME/directorio conf. Los siguientes comandos redirección a Hiveconfig carpeta y copie el archivo de plantilla:
$ cd $HIVE_HOME/conf $ cp hive-env.sh.template hive-env.sh
Editar la Hive-env.sh archivo añadiendo la siguiente línea:
export HADOOP_HOME=/usr/local/hadoop
Hive instalación se completa correctamente. Ahora necesita un servidor de base de datos externa para configurar Metastore. Usamos Apache Derby base de datos.
Siga los pasos que se indican a continuación para descargar e instalar Apache Derby:
El siguiente comando se utiliza para descargar Apache Derby. Se necesita un cierto tiempo para descargar.
$ cd ~ $ wget http://archive.apache.org/dist/db/derby/db-derby-10.4.2.0/db-derby-10.4.2.0-bin.tar.gz
El siguiente comando se utiliza para verificar la descarga:
$ ls
En descarga exitosa, usted podrá ver la siguiente respuesta:
db-derby-10.4.2.0-bin.tar.gz
Los siguientes comandos se utilizan para la extracción y verificación de la Derby archivo:
$ tar zxvf db-derby-10.4.2.0-bin.tar.gz $ ls
En descarga exitosa, usted podrá ver la siguiente respuesta:
db-derby-10.4.2.0-bin db-derby-10.4.2.0-bin.tar.gz
Tenemos que copiar de los super usuario "su-". Los siguientes comandos se utilizan para copiar los archivos desde el directorio extraído al /usr/local/derby directorio:
$ su - passwd: # cd /home/user # mv db-derby-10.4.2.0-bin /usr/local/derby # exit
Puede configurar el Derby medio ambiente añadiendo las siguientes líneas en el archivo ~/.bashrc:
export DERBY_HOME=/usr/local/derby export PATH=$PATH:$DERBY_HOME/bin Apache Hive 18 export CLASSPATH=$CLASSPATH:$DERBY_HOME/lib/derby.jar:$DERBY_HOME/lib/derbytools.jar
El siguiente comando se utiliza para ejecutar ~/.bashrc:
$ source ~/.bashrc
Cree un directorio denominado datos en $DERBY_HOME Metastore directorio para almacenar los datos.
$ mkdir $DERBY_HOME/data
Derby instalación y el medio ambiente se ha completado la instalación.
Configuración Metastore significa especificar a Hive donde se encuentra almacenada la base de datos. Esto se puede hacer mediante la modificación de hive-site.xml file, el cual se encuentra en el $HIVE_HOME/directorio conf. En primer lugar, copiar el archivo de plantilla mediante el siguiente comando:
$ cd $HIVE_HOME/conf $ cp hive-default.xml.template hive-site.xml
Editarhive-site.xmly añadir las siguientes líneas entre <configuration> y </configuration> etiquetas:
<property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:derby://localhost:1527/metastore_db;create=true </value> <description>JDBC connect string for a JDBC metastore </description> </property>
Cree un archivo denominado jpox.properties y añadir las siguientes líneas en él:
javax.jdo.PersistenceManagerFactoryClass = org.jpox.PersistenceManagerFactoryImpl org.jpox.autoCreateSchema = false org.jpox.validateTables = false org.jpox.validateColumns = false org.jpox.validateConstraints = false org.jpox.storeManagerType = rdbms org.jpox.autoCreateSchema = true org.jpox.autoStartMechanismMode = checked org.jpox.transactionIsolation = read_committed javax.jdo.option.DetachAllOnCommit = true javax.jdo.option.NontransactionalRead = true javax.jdo.option.ConnectionDriverName = org.apache.derby.jdbc.ClientDriver javax.jdo.option.ConnectionURL = jdbc:derby://hadoop1:1527/metastore_db;create = true javax.jdo.option.ConnectionUserName = APP javax.jdo.option.ConnectionPassword = mine
Antes de ejecutar Hive, que necesita para crear latmp carpeta y una Hive en carpeta HDFS. En este caso, utilizamos el /user/Hive/carpeta de almacén. Es necesario configurar permisos de escritura para estas carpetas recién creadas como se muestra a continuación:
chmod g+w
Ahora HDFS en Hive antes de la verificación. Use los siguientes comandos:
$ $HADOOP_HOME/bin/hadoop fs -mkdir /tmp $ $HADOOP_HOME/bin/hadoop fs -mkdir /user/hive/warehouse $ $HADOOP_HOME/bin/hadoop fs -chmod g+w /tmp $ $HADOOP_HOME/bin/hadoop fs -chmod g+w /user/hive/warehouse
Los siguientes comandos se utiliza para verificar Hive instalación:
$ cd $HIVE_HOME $ bin/hive
El éxito de la instalación de Hive, que puedes ver la siguiente respuesta:
Logging initialized using configuration in jar:file:/home/hadoop/hive-0.9.0/lib/hive-common-0.9.0.jar!/hive-log4j.properties Hive history file=/tmp/hadoop/hive_job_log_hadoop_201312121621_1494929084.txt …………………. hive>
El ejemplo siguiente se ejecuta el comando para mostrar todas las tablas:
hive> show tables; OK Time taken: 2.798 seconds hive>