01 Hadoop安装手册(伪分布式).docx
在中,我们将深入探讨如何在Linux环境下安装Hadoop的伪分布式模式,主要关注点在于准备阶段、系统配置、SSH免密码连接、JDK安装以及Hadoop的安装和配置。以下是对每个环节的详细说明: 1. 版本选择与服务器准备: - Linux操作系统推荐使用CentOS 7。 - JDK应选用兼容Hadoop的版本,例如JDK 1.8。 - Hadoop版本为3.1.4。 2. 系统配置: -关闭防火墙:通过systemctl status firewalld.service
检查状态,然后用systemctl stop firewalld.service
停止服务,最后用systemctl disable firewalld.service
禁止开机启动。 -禁用SELinux:编辑/etc/selinux/config
文件,将SELINUX=enforcing
改为SELINUX=disabled
。 3. IP地址映射: -在/etc/hosts
文件中配置IP地址与主机名的映射,确保节点间的通信。 4. 配置SSH免密码连接: -使用ssh-keygen -t rsa
生成RSA密钥对。 -使用ssh-copy-id
命令将公钥分发到所有节点,例如ssh-copy-id -i ~/.ssh/id_rsa.pub root@node
。 -测试SSH免密登录,如ssh root@node
。 5. 安装JDK: -在/opt/app
目录下创建app
文件夹。 -通过winscp或其他FTP软件上传JDK压缩包,解压到/opt/app
。 -编辑/etc/profile
文件,添加JDK的环境变量,例如JAVA_HOME
和PATH
。 -使用source /etc/profile
命令使环境变量生效,并通过java -version
验证JDK安装。 6. 安装Hadoop: -解压缩Hadoop安装包到/opt/app
目录。 -在/etc/profile
文件中添加Hadoop的环境变量HADOOP_HOME
和PATH
。 -加载环境变量并验证Hadoop安装,使用source /etc/profile
和hadoop version
命令。 7. 创建Hadoop所需目录: -创建Hadoop的临时目录/opt/hadoop_path/tmp
。 -创建NameNode的元数据目录/opt/hadoop_path/dfs/name
。 -创建DataNode的数据目录/opt/hadoop_path/dfs/data
。 8. 配置Hadoop: -进入$HADOOP_HOME/etc/hadoop
配置目录。 -配置hadoop-env.sh
文件,设置JAVA_HOME
为JDK的实际路径。 -配置其他相关配置文件,如core-site.xml
、hdfs-site.xml
和yarn-site.xml
,以定义Hadoop集群的行为。 9. 格式化NameNode: -在首次启动Hadoop之前,需要对NameNode进行格式化,这会清除所有元数据信息,例如hdfs namenode -format
。 10. 启动Hadoop服务: -启动Hadoop的各个服务,如start-dfs.sh
和start-yarn.sh
。 11. 检查Hadoop运行状态: -使用jps
命令查看是否所有进程都已启动。 -访问Web UI来监控Hadoop集群的状态,例如NameNode的50070端口和ResourceManager的8088端口。以上是Hadoop在伪分布式模式下的基本安装和配置流程,每个步骤都需要细心操作,确保所有配置正确无误,以保证Hadoop集群的稳定运行。在实际环境中,可能还需要根据网络环境和具体需求进行调整。