hadoop平台搭建(hadoop平台搭建与应用)

今天给各位分享hadoop平台搭建的知识,其中也会对hadoop平台搭建与应用进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!,hadoop平台搭建

本文目录一览:

  • 1、HDFS系统的搭建(整理详细版)
  • 2、hadoop pipeline 搭建
  • 3、在docker上搭建hadoop平台有什么目的
  • 4、hadoop集群搭建(Hadoop 3.1.3 /Hive 3.1.2/Spark 3.0.0)

HDFS系统的搭建(整理详细版)

首先我这里有5台虚拟机,1台NameNode,4台DataNode

master充当着NameNode的角色,其他的salve充当着DataNode的角色,并且在这5台虚拟机上我都修改了hosts文件,配置了他们的主机名尘游他们可以通过主机名进行互相的访问。

配置完成 wq 保存退出。

加入 export PATH=$PATH:/usr/local/hadoop-2.7.3/bin:/usr/local/hadoop-2.7.3/sbin

保存后输入命令让profile文件立即生效。

输入命令:hadoop

如果出现以下内容 Hadoop环境就配置成功了

在我的master机器上也就是我192.168.56.101这台机器,这台机器将会成为我的Hadoop集群NameNode节点。

进入master这台机器的的根目录

出现提示可以不理会 直接按几次回车键就行了,出现以下界面说明生成私钥id_rsa和公钥id_rsa.pub

把生成的公钥id发送到 slave1、slave2、slave3、slave4机器上

slave1会要求你输入slave1这台机器上的密码

密码输入正确后你会看到以下界面,它说已经添加了密钥,它叫你尝试登陆一下

输入命令SSH免密登陆到slave1

你发现你已经从master不用输入密码登陆到slave1上了

添加其他的slave2、slave3、slave4 也是同样的操作。

在所有有的机器上历世的上core-site.xml、和hdfs-site.xml 文件

修改core-site.xml,在configuration标签内加入以下配置

修改hdfs-site.xml,在configuration标签内加入以下配置

创建文件夹Hadoop存放数据的文件夹

mkdir /home/hadoopData

master主机是我的NameNode节点,所以我在我肢兄肢的master主机上操作,也就是192.168.56.101这台主机。

在master主机的Hadoop目录下修改slaves文件,加入DataNode的节点

注意!注意!注意!

在我hosts文件中已经绑定了域名所以可以直接通过主机的名字访问(不明白看本文章中的节点的介绍)

slave1、slave2、slave3、slave4都是DataNode的节点我把它们加入到我的NanmeNode节点中

这样我就可以一个命令启动整个集群。

在我master这台主机上 输入命令HDFS格式化命令

输入启动HDFS系统命令

检查是否启动成功

在游览器中输入 :

默认 你NameNode的IP+50070端口

当你见到以下界面说明你的集群已经起来了

再检查DataNode

我这里配了4个DataNode也起来了 说明整个HDFS集群搭建完成了!

hadoop pipeline 搭建

    在互联网公司做算法工程师,一般的工作流程是1.hadoop跑数据做线下调研,2 调研结果出来后,跟线上效果做对比,3 线下调研结果OK 将模型上线。一般来讲,训练数据都具有时效性,模型需要常常更新才能在线上获得稳定的效果,于是在模型上线后搭建一个自动化更新模型的pipeline就变得非常重要了。

    pipeline的一般搭建流程如图一所示:

    

    首先是日志挖掘,从线上日志利用hadoop挖掘原始数据;其次是从原始数据中清洗并且提取特征(可能这里还需要对数散启据进行采样,变换数据分布);然后是重新自动训练一个新的模型,在测试集上自动评估后,以词典的方式上线。(深度学习的模型参数值保存为pb文件锋袜,可以通过上线词典的形式更新模型)。我将整体的pipeline 流程分为三段: 

        a.数据集生成,hadoop 日志挖掘与清洗

        b.模型生成,模型自动训练

        c.词典上线,评估结果并自动上线

    在数据集生成阶段,其实可以分为三段: 1 日志挖掘原始数据;2 数据清洗与特征变换;3 数据抽样变换分布,用一个主shell处理数据集生成。

    1 在这里每一个子任务都应该由一个shell脚本处理,在每一个子任务里都应该打印重要的参数信息,例如输入和输出以及其他的重要参数,方便脚本出错debug调试。每一个子任务都可能有很多需要控制的参数,这些参数不应该分开写在每个shell里,应该写在主shell里统一控制。

    2 一个自动化的pipeline应该是全程自行的,不需要我们去管他。只有当遇到错误发生的时候需要提醒我们去处理。所以在每一个子shell里应当编写if语句 发送邮件通知。

     冲基如       if [ $? -ne 0 ];then

                       echo “dst M/R Job  fails” | mail -s “check the hadoop shell”  邮箱名

                        exit 1

            fi

    3 有的数据清洗与特征变换任务可以在hadoop上直接完成,有的可能由于一些特征原因需要在本地完成,这点需要工程师自行决定怎么才是最优选择。

    4 对于数据抽样变换分布,我一般用蓄水池抽样,根据不同的分类,等概率抽取每个类别的样本数据

在docker上搭建hadoop平台有什么目的

在docker上搭建hadoop平台目的占用资源含兄掘少。根据查询相关公开资料得知想在一台电脑上尘简搭建一个多节点的Hadoop集群,传统的方式是使用多个虚拟机。但这种方式占用的资源比较多,一台笔记本能同时运行的虚拟机的数量是很有限的。这个时候我们可以使用Docker。Docker可以看做是一种轻量级的虚拟机,占用资源谈核少,用起来和传统的虚拟机很像,使用的时候可以类比VMware或VirtualBox。

hadoop平台搭建(hadoop平台搭建与应用)

hadoop集群搭建(Hadoop 3.1.3 /Hive 3.1.2/Spark 3.0.0)

完全分布式HA

服务器规划

技术栈包含

hdfs

hive on spark

presto

doris

superset

azkaban

kafka

fluent\flume

sqoop\kettle\flink-cdc

atlas

禁用swap/selinux

修改 IP/修改主机名/及主机名和 IP 地址的映射

时间同步/设置时区/自动时间同步

关闭防火墙

关闭SELINUX

新建用户

免密登录(先升级openssh)

发送密锋闹钥(dw01上执行)

授权

Tencent Kona v8.0.8-GA

腾讯开源的konaJDK,针对大数据场景下优化

解压并重命名至安装地址:/usr/local/java/

zookeeper-3.5.9

解压并重命名至安装地址:/usr/local/zookeeper

apache-hadoop-3.1.3 解压至安装地型基谈址:/usr/local/hadoop

修改环境变量

/usr/local/zookeeper/conf

启动zookeeper集群(每台执行)

三台服务器启动

格式卜碰化namenode(dw01执行)

启动namenode(dw01上执行)

在[nn2]和[nn3]上分别执行,同步 nn1 的元数据信息

启动nn2 nn3,分别执行

所有节点上启动datanode

将[nn1]切换为 Active

查看状态

配置yarn-site.xml

配置mapred-site.xml

分发配置文件,启动yarn(dw03 启动)

dw03节点

dw01节点

dw01执行

dw03执行

测试样例

启动脚本

HA切换namenode手动

修改yarn显示log的bug

hadoop平台搭建的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于hadoop平台搭建与应用、hadoop平台搭建的信息别忘了在本站进行查找喔。

© 版权声明
THE END
点赞13 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容