Apache Hadoop

O Apache Hadoop é um framework open-source escalável para processamento de grandes conjuntos de dados. Atualmente está na versão 2.2.0. Nós iremos abordar nesse tutorial como configurar um único nó, para versão clusterizada utilizar esse link.

Faça o download e descompacte em algum diretório. Exporte as variáveis HADOOP_INSTALL, HADOOP_HOME, HADOOP_COMMON_HOME, HADOOP_HDFS_HOME, HADOOP_MAPRED_HOME, HADOOP_YARN_HOME e atualize o PATH (Altere o HADOOP_INSTALL para o local de instalação na sua máquina):

export HADOOP_INSTALL=/development/db/hbase/hadoop-2.2.0
export HADOOP_HOME=$HADOOP_INSTALL/share/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME/common
export HADOOP_HDFS_HOME=$HADOOP_HOME/hdfs
export HADOOP_MAPRED_HOME=$HADOOP_HOME/mapreduce
export HADOOP_YARN_HOME=$HADOOP_HOME/yarn
export PATH=$HADOOP_INSTALL/bin:$PATH

dsa

Sobre: Thiago Galbiatti Vespa

Thiago Galbiatti Vespa é mestre em Ciências da Computação e Matemática Computacional pela USP e bacharel em Ciências da Computação pela UNESP. Coordenador de projetos do JavaNoroeste, membro do JCP (Java Community Process), consultor Oracle, arquiteto de software de empresas de médio e grande porte, palestrante de vários eventos e colaborador de projetos open source. Possui as certificações: Oracle Certified Master, Java EE 5 Enterprise Architect – Step 1, 2 and 3; Oracle WebCenter Portal 11g Certified Implementation Specialist; Oracle Service Oriented Architecture Infrastructure Implementation Certified Expert; Oracle Certified Professional, Java EE 5 Web Services Developer; Oracle Certified Expert, NetBeans Integrated Development Environment 6.1 Programmer; Oracle Certified Professional, Java Programmer; Oracle Certified Associate, Java SE 5/SE 6