77范文网 - 专业文章范例文档资料分享平台

Hadoop那些事儿(四) - MapReduce编程实例(基础)

来源:网络收集 时间:2019-01-10 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:或QQ: 处理(尽可能给您提供完整文档),感谢您的支持与谅解。点击这里给我发消息

Hadoop那些事儿(四)---MapReduce

编程实例(基础)

1.数据检索

问题描述

假设有很多条数据,我们从中查找包含某个字符串的语句。

解决方案

这个问题比较简单,首先在Map中获取当前读取的文件的文件名作为key,将要解析的数据按句号分割,逐句判断,如果包含指定的字符串则作为value输出。在Reduce中对属于同一文件的语句进行合并,然后输出。

测试数据

输入: in1.txt:

浔阳江头夜送客,枫叶荻花秋瑟瑟。主人下马客在船,举酒欲饮无管弦。醉不成欢惨将别,别时茫茫江浸月。忽闻水上琵琶声,主人忘归客不发。寻声暗问弹者谁?琵琶声停欲语迟。移船相近邀相见,添酒回灯重开宴。千呼万唤始出来,犹抱琵琶半遮面。转轴拨弦三两声,未成曲调先有情。弦弦掩抑声声思,似诉平生不得志。低眉信手续续弹,说尽心中无限事。轻拢慢捻抹复挑,初为霓裳后六幺。大弦嘈嘈如急雨,小弦切切如私语。嘈嘈切切错杂弹,大珠小珠落玉盘。间关莺语花底滑,幽咽泉流冰下难。冰泉冷涩弦凝绝,凝绝不通声暂歇。别有幽愁暗恨生,此时无声胜有声。银瓶乍破水浆迸,铁骑突出刀枪鸣。曲终收拨当心画,四弦一声如裂帛。东船西舫悄无言,唯见江心秋月白。

沉吟放拨插弦中,整顿衣裳起敛容。自言本是京城女,家在虾蟆陵下住。十三学得琵琶成,名属教坊第一部。曲罢曾教善才服,妆成每被秋娘妒。五陵年少争缠头,一曲红绡不知数。钿头银篦击节碎,血色罗裙翻酒污。今年欢笑复明年,秋月春风等闲度。弟走从军阿姨死,暮去朝来颜色故。门前冷落鞍马稀,老大嫁作商人妇。商人重利轻别离,前月浮梁买茶去。去来江口守空船,绕船月明江水寒。夜深忽梦少年事,梦啼妆泪红阑干。

我闻琵琶已叹息,又闻此语重唧唧。同是天涯沦落人,相逢何必曾相识!我从去年辞帝京,谪居卧病浔阳城。浔阳地僻无音乐,终岁不闻丝竹声。住近湓江地低湿,黄芦苦竹绕宅生。其间旦暮闻何物?杜鹃啼血猿哀鸣。春江花朝秋月夜,往往取酒还独倾。岂无山歌与村笛?呕哑嘲哳难为听。今夜闻君琵琶语,如听仙乐耳暂明。莫辞更坐弹一曲,为君翻作《琵琶行》。感我此言良久立,却坐促弦弦转急。凄凄不似向前声,满座重闻皆掩泣。座中泣下谁最多?江州司马青衫湿。

in2.txt:

汉皇重色思倾国,御宇多年求不得。 杨家有女初长成,养在深闺人未识。 天生丽质难自弃,一朝选在君王侧。 回眸一笑百媚生,六宫粉黛无颜色。 春寒赐浴华清池,温泉水滑洗凝脂。 侍儿扶起娇无力,始是新承恩泽时。 云鬓花颜金步摇,芙蓉帐暖度春宵。 春宵苦短日高起,从此君王不早朝。 承欢侍宴无闲暇,春从春游夜专夜。 后宫佳丽三千人,三千宠爱在一身。 金屋妆成娇侍夜,玉楼宴罢醉和春。 姊妹弟兄皆列土,可怜光彩生门户。 遂令天下父母心,不重生男重生女。 骊宫高处入青云,仙乐风飘处处闻。 缓歌谩舞凝丝竹,尽日君王看不足。 渔阳鼙鼓动地来,惊破霓裳羽衣曲。 九重城阙烟尘生,千乘万骑西南行。 翠华摇摇行复止,西出都门百余里。 六军不发无奈何,宛转蛾眉马前死。 花钿委地无人收,翠翘金雀玉搔头。 君王掩面救不得,回看血泪相和流。 黄埃散漫风萧索,云栈萦纡登剑阁。 峨嵋山下少人行,旌旗无光日色薄。 蜀江水碧蜀山青,圣主朝朝暮暮情。 行宫见月伤心色,夜雨闻铃肠断声。 天旋地转回龙驭,到此踌躇不能去。 马嵬坡下泥土中,不见玉颜空死处。 君臣相顾尽沾衣,东望都门信马归。 归来池苑皆依旧,太液芙蓉未央柳。 芙蓉如面柳如眉,对此如何不泪垂。 春风桃李花开日,秋雨梧桐叶落时。 西宫南内多秋草,落叶满阶红不扫。 梨园弟子白发新,椒房阿监青娥老。 夕殿萤飞思悄然,孤灯挑尽未成眠。 迟迟钟鼓初长夜,耿耿星河欲曙天。 鸳鸯瓦冷霜华重,翡翠衾寒谁与共。 悠悠生死别经年,魂魄不曾来入梦。 临邛道士鸿都客,能以精诚致魂魄。 为感君王辗转思,遂教方士殷勤觅。 排空驭气奔如电,升天入地求之遍。 上穷碧落下黄泉,两处茫茫皆不见。 忽闻海上有仙山,山在虚无缥渺间。 楼阁玲珑五云起,其中绰约多仙子。 中有一人字太真,雪肤花貌参差是。

金阙西厢叩玉扃,转教小玉报双成。 闻道汉家天子使,九华帐里梦魂惊。 揽衣推枕起徘徊,珠箔银屏迤逦开。 云鬓半偏新睡觉,花冠不整下堂来。 风吹仙袂飘飘举,犹似霓裳羽衣舞。 玉容寂寞泪阑干,梨花一枝春带雨。 含情凝睇谢君王,一别音容两渺茫。 昭阳殿里恩爱绝,蓬莱宫中日月长。 回头下望人寰处,不见长安见尘雾。 惟将旧物表深情,钿合金钗寄将去。 钗留一股合一扇,钗擘黄金合分钿。 但教心似金钿坚,天上人间会相见。 临别殷勤重寄词,词中有誓两心知。 七月七日长生殿,夜半无人私语时。 在天愿作比翼鸟,在地愿为连理枝。 天长地久有时尽,此恨绵绵无绝期。

in3.txt:

春江潮水连海平,海上明月共潮生。 滟滟随波千万里,何处春江无月明! 江流宛转绕芳甸,月照花林皆似霰; 空里流霜不觉飞,汀上白沙看不见。 江天一色无纤尘,皎皎空中孤月轮。 江畔何人初见月?江月何年初照人? 人生代代无穷已,江月年年只相似。 不知江月待何人,但见长江送流水。 白云一片去悠悠,青枫浦上不胜愁。 谁家今夜扁舟子?何处相思明月楼? 可怜楼上月徘徊,应照离人妆镜台。 玉户帘中卷不去,捣衣砧上拂还来。 此时相望不相闻,愿逐月华流照君。 鸿雁长飞光不度,鱼龙潜跃水成文。 昨夜闲潭梦落花,可怜春半不还家。 江水流春去欲尽,江潭落月复西斜。 斜月沉沉藏海雾,碣石潇湘无限路。 不知乘月几人归,落月摇情满江树。

预期结果:

in1.txt 春江花朝秋月夜,往往取酒还独倾---|---去来江口守空船,绕船月明江水寒---|---商人重利轻别离,前月浮梁买茶去---|---今年欢笑复明年,秋月春风等闲度---|---东船西舫悄无言,唯见江心秋月白---|---醉不成欢惨将别,别时茫茫江浸月---|---

in2.txt 七月七日长生殿,夜半无人私语时---|---昭阳殿里恩爱绝,蓬莱宫中日月长---|---行宫

见月伤心色,夜雨闻铃肠断声---|---

in3.txt 不知乘月几人归,落月摇情满江树---|---斜月沉沉藏海雾,碣石潇湘无限路---|---江水流春去欲尽,江潭落月复西斜---|---此时相望不相闻,愿逐月华流照君---|---可怜楼上月徘徊,应照离人妆镜台---|---谁家今夜扁舟子?何处相思明月楼?---|---不知江月待何人,但见长江送流水---|---人生代代无穷已,江月年年只相似---|---江畔何人初见月?江月何年初照人?---|---江天一色无纤尘,皎皎空中孤月轮---|---江流宛转绕芳甸,月照花林皆似霰;---|---滟滟随波千万里,何处春江无月明!---|---春江潮水连海平,海上明月共潮生---|---

以上例子是检索文件中包含“月”字的诗句。

看图说话

通过下面的图来看具体的流程:

代码

package train;

import java.io.IOException; import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Mapper.Context; import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.input.FileSplit;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import org.apache.hadoop.util.GenericOptionsParser;

import train.InvertedIndex.Combine; import train.InvertedIndex.Map; import train.InvertedIndex.Reduce;

/**

* 查找包含指定字符串的句子 * @author hadoop * */

public class Search {

public static class Map extends Mapper{ private static final String word = \月\ private FileSplit fileSplit;

public void map(Object key,Text value,Context context) throws IOException, InterruptedException{

fileSplit = (FileSplit)context.getInputSplit();

String fileName = fileSplit.getPath().getName().toString(); //按句号分割

StringTokenizer st = new StringTokenizer(value.toString(),\。\ while(st.hasMoreTokens()){

String line = st.nextToken().toString(); if(line.indexOf(word)>=0){

context.write(new Text(fileName),new Text(line)); } } } }

public static class Reduce extends Reducer{

public void reduce(Text key,Iterable values,Context context) throws IOException, InterruptedException{

String lines = \

for(Text value:values){

lines += value.toString()+\ }

context.write(key, new Text(lines)); } }

public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

Configuration conf = new Configuration(); conf.set(\ args = new String[]{%utput/search_out\

//检查运行命令

百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库Hadoop那些事儿(四) - MapReduce编程实例(基础)在线全文阅读。

Hadoop那些事儿(四) - MapReduce编程实例(基础).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印 下载失败或者文档不完整,请联系客服人员解决!
本文链接:https://www.77cn.com.cn/wenku/zonghe/419241.html(转载请注明文章来源)
Copyright © 2008-2022 免费范文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ: 邮箱:tiandhx2@hotmail.com
苏ICP备16052595号-18
× 注册会员免费下载(下载后可以自由复制和排版)
注册会员下载
全站内容免费自由复制
注册会员下载
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: