此页面上的内容需要较新版本的 Adobe Flash Player。

获取 Adobe Flash Player

您现在的位置: 智可网 - 新技术 - Hadoop - 正文
Hadoop单机模式环境搭建关键步骤
教程录入:李隆权    责任编辑:quan 作者:佚名 文章来源:656463

Hadoop环境需要sshd服务一直开启,故,在服务器上需要按照ssh服务,以UbuntuLinux为例,按照ssh服务如下:

sudo apt-get install ssh

sudo apt-get install rsync

编辑HADOOP_HOME/conf/hadoop-env.sh文件,将JAVA_HOME设置为Java安装路径。

Hadoop的集群分为三种模式:

单机模式 
伪分布式模式 
完全分布式模式 
不管哪种模型,都需要系统能够免密码ssh设置: 
$ssh localhost 
看看是否需要登录本机需要密码,如果需要使用如下操作: 
$ssh -keygen -t dsp -P '' -f ~/.ssh/id_dsa 
$cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

执行: 
格式化一个新的分布式文件系统 
$bin/hadoop namenode -format 
启动Hadoop守护进程: 
$bin/start-all.sh

浏览NameNode和JobTracker的网络接口,默认地址分别为: 
NameNode http://localhost:50070 
JobTracker http://localhost:50030 
将输入文件copy到分布式文件系统: 
$bin/hadoop fs -put conf input 
运行示例程序; 
$bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+' 
查看输出文件: 
$bin/hadoop fs -get output output 
$cat output/* 
或者在分布式文件系统上查看输出文件: 
$bin/hadoop fs -cat output/*

停止Hadoop守护进程: 
$bin/stop-all.sh

完全分布式集群: 
通常选择集群中的一台机器作为NameNode,另外一台不同的机器作为JobTracker,这些被称为Master,余下的机器即作为DataNode,又作为TaskTracker,这些被称为Slaves。 
在conf/slaves文件中列出所有slaves的主机名称或者Ip地址,一行一个。

更具体的完全分布式环境搭建可以见经验总结文章: Hadoop环境搭建(http://www.linuxidc.com/Linux/2012-03/56692.htm)和 Hadoop搭建和Eclipse开发环境设置 (http://www.linuxidc.com/Linux/2012-01/52914.htm)

分享
打赏我
打开支付宝"扫一扫" 打开微信"扫一扫"
客户端
"扫一扫"下载智可网App
意见反馈
Hadoop单机模式环境搭建关键步骤
作者:佚名 来源:656463

Hadoop环境需要sshd服务一直开启,故,在服务器上需要按照ssh服务,以UbuntuLinux为例,按照ssh服务如下:

sudo apt-get install ssh

sudo apt-get install rsync

编辑HADOOP_HOME/conf/hadoop-env.sh文件,将JAVA_HOME设置为Java安装路径。

Hadoop的集群分为三种模式:

单机模式 
伪分布式模式 
完全分布式模式 
不管哪种模型,都需要系统能够免密码ssh设置: 
$ssh localhost 
看看是否需要登录本机需要密码,如果需要使用如下操作: 
$ssh -keygen -t dsp -P '' -f ~/.ssh/id_dsa 
$cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

执行: 
格式化一个新的分布式文件系统 
$bin/hadoop namenode -format 
启动Hadoop守护进程: 
$bin/start-all.sh

浏览NameNode和JobTracker的网络接口,默认地址分别为: 
NameNode http://localhost:50070 
JobTracker http://localhost:50030 
将输入文件copy到分布式文件系统: 
$bin/hadoop fs -put conf input 
运行示例程序; 
$bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+' 
查看输出文件: 
$bin/hadoop fs -get output output 
$cat output/* 
或者在分布式文件系统上查看输出文件: 
$bin/hadoop fs -cat output/*

停止Hadoop守护进程: 
$bin/stop-all.sh

完全分布式集群: 
通常选择集群中的一台机器作为NameNode,另外一台不同的机器作为JobTracker,这些被称为Master,余下的机器即作为DataNode,又作为TaskTracker,这些被称为Slaves。 
在conf/slaves文件中列出所有slaves的主机名称或者Ip地址,一行一个。

更具体的完全分布式环境搭建可以见经验总结文章: Hadoop环境搭建(http://www.linuxidc.com/Linux/2012-03/56692.htm)和 Hadoop搭建和Eclipse开发环境设置 (http://www.linuxidc.com/Linux/2012-01/52914.htm)