首页技术文章正文

MapReduce编程开发实例——词频统计过程

更新时间:2021-04-15 来源:黑马程序员 浏览量:

1577370495235_学IT就到黑马程序员.gif


对MapReduce的编程思想和模型有了了解以后,下面我们借助MapReduce编程的一个典型案例——词频统计, 来学习实现MapReduce编程开发。

假设我们有两个文本文件,这两个文本文件位于HDFS中,文件如1,2所示:

文件1 text1.txt

Hello World

Hello Hadoop

Hello itcast
文件2 text2.txt
Hadoop MapReduce

MapReduce Spark

根据MapReduce编程模型,那么单词计数的实现过程,如图1所示。

1618467795467_11.gif

图1 词频统计过程

在图1演示中,首先,MapReduce通过默认组件TextInputFormat将待处理的数据文件(如text1.txt和text2.txt),把每一行的数据都转变为<key,value>键值对(其中,对应key为偏移量,value为这一行的文本内容);其次,调用Map()方法,将单词进行切割并进行计数,输出键值对作为Reduce阶段的输入键值对;最后,调用Reduce()方法将单词汇总、排序后,通过TextOutputFormat组件输出到结果文件中。




猜你喜欢:

详解MapReduce编程的Map模型和Reduce模型

MapReduce程序如何设置本地运行模式?

MapReduce中Maper组件用法介绍【黑马程序员】    

黑马程序员大数据高级软件工程师培训

分享到:
在线咨询 我要报名
和我们在线交谈!