如何在 Debian 12 上安装 Apache Hadoop

大数据是现代数据驱动型业务的支柱，Hadoop已成为处理和分析海量数据集的首选解决方案。如果你想在 Debian 12 系统上利用 Hadoop 的强大功能，那么你来对地方了。

在 Debian 12 书虫上安装 Apache Hadoop

第 1 步。在我们安装任何软件之前，通过在终端中运行以下命令来确保您的系统是最新的非常重要：apt

sudo apt update

此命令将刷新存储库，允许您安装最新版本的软件包。

第 2 步。安装 Java 开发工具包（JDK）。

Hadoop依赖于Java，所以请确保你安装了JDK：

sudo apt install openjdk-11-jdk

使用以下命令验证 Java 版本：

java --version

第 3 步。准备 Hadoop 环境

在深入研究 Hadoop 安装之前，最好为 Hadoop 创建一个专用用户并设置必要的目录：

sudo adduser hadoopuser

授予新用户 sudo 权限并将其添加到组中：users

sudo usermod -aG sudo hadoopuser
sudo usermod -aG users hadoopuser

第 4 步。在 Debian 12 上安装 Hadoop。

访问Apache Hadoop官方网站并下载适合您需求的Hadoop发行版。在本指南中，我们将使用 Hadoop 3.3.6：

wget https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.3.6/hadoop-3.3.6-src.tar.gz

通过验证 SHA-256 校验和确保下载未损坏：

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6-src.tar.gz.sha512
sha256sum -c hadoop-3.3.6-src.tar.gz.sha512

接下来，为 Hadoop 创建一个目录并提取下载的存档：

sudo mkdir /opt/hadoop
sudo tar -xzvf hadoop-3.3.6.tar.gz -C /opt/hadoop --strip-components=1

第5步。配置Hadoop。

Hadoop的配置对于其正常运行至关重要。让我们深入研究必要的配置。

A. 了解核心 Hadoop 配置文件

Hadoop 有几个 XML 配置文件，但我们主要关注四个：、和。core-site.xmlhdfs-site.xmlyarn-site.xmlmapred-site.xml

B. 编辑核心站点.xml

编辑核心站点.xml配置文件：

sudo nano /opt/hadoop/etc/hadoop/core-site.xml

将以下属性添加到标记：<configuration>

<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>

C. 编辑 hdfs 站点.xml

编辑配置文件：hdfs-site.xml

sudo nano /opt/hadoop/etc/hadoop/hdfs-site.xml

Add the following properties:

<property>
<name>dfs.replication</name>
<value>1</value>
</property>

D. 配置纱线站点.xml

编辑配置文件：yarn-site.xml

sudo nano /opt/hadoop/etc/hadoop/yarn-site.xml

添加以下属性：

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

E. 配置映射站点.xml

编辑配置文件：mapred-site.xml

sudo nano /opt/hadoop/etc/hadoop/mapred-site.xml

添加以下属性：

<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

第 6 步。设置 SSH 身份验证。

Hadoop依靠SSH来实现节点之间的安全通信。让我们设置 SSH 密钥。

为 Hadoop 用户生成 SSH 密钥：

sudo su - hadoopuser
ssh-keygen -t rsa -P ""

将公钥复制到文件：authorized_keys

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

测试与本地主机和其他节点的 SSH 连接：

ssh localhost

步骤 7.格式化 Hadoop 分布式文件系统（HDFS）。

在启动Hadoop服务之前，我们需要格式化Hadoop分布式文件系统（HDFS）。

初始化 NameNode：

hdfs namenode -format

为 HDFS 创建必要的目录：

hdfs dfs -mkdir -p /user/hadoopuser
hdfs dfs -chown hadoopuser:hadoopuser /user/hadoopuser

通过浏览位于的 NameNode Web 界面来验证 HDFS 状态。http://localhost:9870

第8步。启动 Hadoop 服务。

是时候启动Hadoop服务了。启动 Hadoop NameNode 和 DataNode：

start-dfs.sh

启动资源管理器和节点管理器：

start-yarn.sh

为确保一切顺利运行，请使用位于的资源管理器 Web 界面检查 Hadoop 集群的状态。http://localhost:8088

第9步。运行一个简单的 Hadoop 作业。

现在，让我们通过运行一个简单的MapReduce作业来测试我们的Hadoop设置。

A. 准备输入数据

创建输入目录并上传示例文本文件：

hdfs dfs -mkdir -p /input
hdfs dfs -put /path/to/your/inputfile.txt /input

B. 运行 MapReduce 作业

运行字数统计示例：

hadoop jar /opt/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /input /output

C. 监视作业进度

通过访问资源管理器 Web 界面来监视作业进度。

第10步。排查常见问题

虽然Hadoop功能强大，但它可能具有挑战性。以下是一些常见问题及其解决方案。

A. 诊断 Hadoop 启动问题

检查日志中的错误消息。/opt/hadoop/logs
确保正确编辑所有配置文件。

B. 调试 HDFS 问题

通过浏览 NameNode Web 界面来验证 HDFS 状态。
检查数据目录中的磁盘空间和权限问题。

C. 处理资源分配问题

调整纱线站点.xml文件中的资源分配。
在资源管理器 Web 界面中监视资源使用情况。

感谢您使用本教程在 Debian 12 Bookworm 上安装最新版本的 Apache Hadoop。有关其他帮助或有用信息，我们建议您查看Hadoop官方网站。

如何在 Debian 12 上安装 Apache Hadoop

在 Debian 12 书虫上安装 Apache Hadoop

相关文章

随机推荐