当前位置:首页 » 《休闲阅读》 » 正文

Hadoop环境的搭建(WordCount)_gqk666的博客

11 人参与  2022年02月07日 16:32  分类 : 《休闲阅读》  评论

点击全文阅读


linux系统安装hadoop环境

安装hadoop

首先需要通过xftp文件传输将hadoop的.tar.gz(hadoop-3.1.3.tar.gz)文件传输到linux的/opt/software的目录下面
在这里插入图片描述
解压hadoop-3.1.3.tar.gz文件到/opt/module这个目录下

[tedu@hadoop105 software]$ tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/

解压成功后会在/opt/module 目录下面看到以下信息
在这里插入图片描述
在这里插入图片描述
hadoop提供的命令不生效 原因是没有去配置hadoop对应的环境变量

配置hadoop的环境变量

配置三个
hadoop的家
path 对应的是hadoop家下面的/bin
path 对应的是hadoop家下面的/sbin

[tedu@hadoop105 profile.d]$ sudo vim /etc/profile.d/my_env.sh 

将以下命令输入进去

#HADOOP
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

配置成功后保存退出

:wq!

使配置文件立即生效

[tedu@hadoop105 profile.d]$ source /etc/profile

就可以测试hadoop的命令
查看hadoop的版本信息

hadoop version

在这里插入图片描述
以上界面出现说明成功了

hadoop的目录结构

找到hadoop安装目录 查看目录信息

[tedu@hadoop105 hadoop-3.1.3]$ pwd
/opt/module/hadoop-3.1.3
[tedu@hadoop105 hadoop-3.1.3]$ ll
总用量 176
drwxr-xr-x. 2 tedu tedu    183 9月  12 2019 bin
drwxr-xr-x. 3 tedu tedu     20 9月  12 2019 etc
drwxr-xr-x. 2 tedu tedu    106 9月  12 2019 include
drwxr-xr-x. 3 tedu tedu     20 9月  12 2019 lib
drwxr-xr-x. 4 tedu tedu    288 9月  12 2019 libexec
-rw-rw-r--. 1 tedu tedu 147145 9月   4 2019 LICENSE.txt
-rw-rw-r--. 1 tedu tedu  21867 9月   4 2019 NOTICE.txt
-rw-rw-r--. 1 tedu tedu   1366 9月   4 2019 README.txt
drwxr-xr-x. 3 tedu tedu   4096 9月  12 2019 sbin
drwxr-xr-x. 4 tedu tedu     31 9月  12 2019 share

目录详情

(1)bin 目录:存放对 Hadoop 相关服务(hdfs,yarn,mapred)进行操作的脚本
(2)etc 目录:Hadoop 的配置文件目录,存放 Hadoop 的配置文件
(3)lib 目录:存放 Hadoop 的本地库(对数据进行压缩解压缩功能)
(4)sbin 目录:存放启动或停止 Hadoop 相关服务的脚本
(5)share 目录:存放 Hadoop 的依赖 jar 包、文档、和官方案例
hadoop的官网
hadoop官网

Apache Hadoop
软件库是一个框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。该库本身不是依靠硬件来提供高可用性,而是设计用于检测和处理应用层的故障,因此在计算机集群之上提供高可用性服务,每台计算机都可能容易出现故障。

启动hadoop级群有三种模式

  • 本地(独立)模式
    官网提供的解释

默认情况下,Hadoop 配置为在非分布式模式下作为单个 Java 进程运行。这对于调试很有用。
以下示例复制解压后的 conf 目录以用作输入,然后查找并显示给定正则表达式的每个匹配项。输出写入给定的输出目录。

  $ mkdir input 
  $ cp etc/hadoop/*.xml input 
  $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar grep input output 'dfs[az.]+' 
  $ cat output/ *

本地版的wordcount的案例(统计单词数量)因为是本地版本的所以统计在linux服务器本机上面

在hadoop跟目录下面创建了一个wcinput的目录文件

[tedu@hadoop106 hadoop-3.1.3]$ mkdir wcinput

进入wcinput目录创建一个word.txt文件

[tedu@hadoop106 hadoop-3.1.3]$ cd wcinput
[tedu@hadoop106 wcinput]$ vim word.txt

写入测试数据

hadoop yarn
hadoop mapreduce
tedu
tedu
gqk
gqk
gqk
gqk
admin
admin
严加一

执行wordcount命令
在这里插入图片描述

[tedu@hadoop106 hadoop-3.1.3]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount wcinput/ ./wcoutput

查看结果在这里插入图片描述

[tedu@hadoop105 wcoutput]$ cat part-r-00000 
admin	2
gqk	4
hadoop	2
mapreduce	1
tedu	2
yarn	1
严加一	1

  • 伪分布式模式
  • 全分布式模式

点击全文阅读


本文链接:http://zhangshiyu.com/post/34357.html

目录  存放  分布式  
<< 上一篇 下一篇 >>

  • 评论(0)
  • 赞助本站

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

关于我们 | 我要投稿 | 免责申明

Copyright © 2020-2022 ZhangShiYu.com Rights Reserved.豫ICP备2022013469号-1