hadoop平台搭建（hadoop平台搭建与应用）

今天给各位分享hadoop平台搭建的知识，其中也会对hadoop平台搭建与应用进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！,hadoop平台搭建

本文目录一览：

1、HDFS系统的搭建（整理详细版）
2、hadoop pipeline 搭建
3、在docker上搭建hadoop平台有什么目的
4、hadoop集群搭建（Hadoop 3.1.3 /Hive 3.1.2/Spark 3.0.0）

HDFS系统的搭建（整理详细版）

首先我这里有5台虚拟机，1台NameNode,4台DataNode

master充当着NameNode的角色，其他的salve充当着DataNode的角色，并且在这5台虚拟机上我都修改了hosts文件，配置了他们的主机名尘游他们可以通过主机名进行互相的访问。

配置完成 wq 保存退出。

加入 export PATH=$PATH:/usr/local/hadoop-2.7.3/bin:/usr/local/hadoop-2.7.3/sbin

保存后输入命令让profile文件立即生效。

输入命令:hadoop

如果出现以下内容 Hadoop环境就配置成功了

在我的master机器上也就是我192.168.56.101这台机器，这台机器将会成为我的Hadoop集群NameNode节点。

进入master这台机器的的根目录

出现提示可以不理会直接按几次回车键就行了，出现以下界面说明生成私钥id_rsa和公钥id_rsa.pub

把生成的公钥id发送到 slave1、slave2、slave3、slave4机器上

slave1会要求你输入slave1这台机器上的密码

密码输入正确后你会看到以下界面，它说已经添加了密钥,它叫你尝试登陆一下

输入命令SSH免密登陆到slave1

你发现你已经从master不用输入密码登陆到slave1上了

添加其他的slave2、slave3、slave4 也是同样的操作。

在所有有的机器上历世的上core-site.xml、和hdfs-site.xml 文件

修改core-site.xml,在configuration标签内加入以下配置

修改hdfs-site.xml,在configuration标签内加入以下配置

创建文件夹Hadoop存放数据的文件夹

mkdir /home/hadoopData

master主机是我的NameNode节点，所以我在我肢兄肢的master主机上操作，也就是192.168.56.101这台主机。

在master主机的Hadoop目录下修改slaves文件，加入DataNode的节点

注意！注意！注意！

在我hosts文件中已经绑定了域名所以可以直接通过主机的名字访问(不明白看本文章中的节点的介绍)

slave1、slave2、slave3、slave4都是DataNode的节点我把它们加入到我的NanmeNode节点中

这样我就可以一个命令启动整个集群。

在我master这台主机上输入命令HDFS格式化命令

输入启动HDFS系统命令

检查是否启动成功

在游览器中输入：

默认你NameNode的IP+50070端口

当你见到以下界面说明你的集群已经起来了

再检查DataNode

我这里配了4个DataNode也起来了说明整个HDFS集群搭建完成了！

hadoop pipeline 搭建

在互联网公司做算法工程师，一般的工作流程是1.hadoop跑数据做线下调研，2 调研结果出来后，跟线上效果做对比，3 线下调研结果OK 将模型上线。一般来讲，训练数据都具有时效性，模型需要常常更新才能在线上获得稳定的效果，于是在模型上线后搭建一个自动化更新模型的pipeline就变得非常重要了。

pipeline的一般搭建流程如图一所示：

首先是日志挖掘，从线上日志利用hadoop挖掘原始数据；其次是从原始数据中清洗并且提取特征（可能这里还需要对数散启据进行采样，变换数据分布）；然后是重新自动训练一个新的模型，在测试集上自动评估后，以词典的方式上线。（深度学习的模型参数值保存为pb文件锋袜，可以通过上线词典的形式更新模型）。我将整体的pipeline 流程分为三段：

a.数据集生成，hadoop 日志挖掘与清洗

b.模型生成，模型自动训练

c.词典上线，评估结果并自动上线

在数据集生成阶段，其实可以分为三段： 1 日志挖掘原始数据；2 数据清洗与特征变换；3 数据抽样变换分布，用一个主shell处理数据集生成。

1 在这里每一个子任务都应该由一个shell脚本处理，在每一个子任务里都应该打印重要的参数信息，例如输入和输出以及其他的重要参数，方便脚本出错debug调试。每一个子任务都可能有很多需要控制的参数，这些参数不应该分开写在每个shell里，应该写在主shell里统一控制。

2 一个自动化的pipeline应该是全程自行的，不需要我们去管他。只有当遇到错误发生的时候需要提醒我们去处理。所以在每一个子shell里应当编写if语句发送邮件通知。

冲基如 if [ $? -ne 0 ];then

echo “dst M/R Job fails” | mail -s “check the hadoop shell” 邮箱名

exit 1

3 有的数据清洗与特征变换任务可以在hadoop上直接完成，有的可能由于一些特征原因需要在本地完成，这点需要工程师自行决定怎么才是最优选择。

4 对于数据抽样变换分布，我一般用蓄水池抽样，根据不同的分类，等概率抽取每个类别的样本数据

在docker上搭建hadoop平台有什么目的

在docker上搭建hadoop平台目的占用资源含兄掘少。根据查询相关公开资料得知想在一台电脑上尘简搭建一个多节点的Hadoop集群，传统的方式是使用多个虚拟机。但这种方式占用的资源比较多，一台笔记本能同时运行的虚拟机的数量是很有限的。这个时候我们可以使用Docker。Docker可以看做是一种轻量级的虚拟机，占用资源谈核少，用起来和传统的虚拟机很像，使用的时候可以类比VMware或VirtualBox。

hadoop集群搭建（Hadoop 3.1.3 /Hive 3.1.2/Spark 3.0.0）

完全分布式HA

服务器规划

技术栈包含

hdfs

hive on spark

presto

doris

superset

azkaban

kafka

fluent\flume

sqoop\kettle\flink-cdc

atlas

禁用swap/selinux

修改 IP/修改主机名/及主机名和 IP 地址的映射

时间同步/设置时区/自动时间同步

关闭防火墙

关闭SELINUX

新建用户

免密登录（先升级openssh）

发送密锋闹钥（dw01上执行）

授权

Tencent Kona v8.0.8-GA

腾讯开源的konaJDK，针对大数据场景下优化

解压并重命名至安装地址：/usr/local/java/

zookeeper-3.5.9

解压并重命名至安装地址：/usr/local/zookeeper

apache-hadoop-3.1.3 解压至安装地型基谈址：/usr/local/hadoop

修改环境变量

/usr/local/zookeeper/conf

启动zookeeper集群（每台执行）

三台服务器启动

格式卜碰化namenode（dw01执行）

启动namenode(dw01上执行)

在[nn2]和[nn3]上分别执行，同步 nn1 的元数据信息

启动nn2 nn3，分别执行

所有节点上启动datanode

将[nn1]切换为 Active

查看状态

配置yarn-site.xml

配置mapred-site.xml

分发配置文件，启动yarn(dw03 启动)

dw03节点

dw01节点

dw01执行

dw03执行

测试样例

启动脚本

HA切换namenode手动

修改yarn显示log的bug

hadoop平台搭建的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于hadoop平台搭建与应用、hadoop平台搭建的信息别忘了在本站进行查找喔。

版权声明 1 本网站名称：黑猫博客
2 本站永久网址：https://lt2.cc
3 本网站的文章所有内容可能来源于网络，为图片防止失效转存至博客服务器，仅供大家学习与参考。
4 本站一切资源不代表本站立场，并不代表本站授权赞同其观点和对其真实性负责。
5 本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6 本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。
7 本站所有内容皆为百度搜索转在，如有侵权，请联系站长 QQ85997338 进行删除处理。

THE END