MapReduce初级事例——单表相关（mapreduce简单例子）-大数据-知优网

“ 单表关联”这个实例要求从给出的数据中寻找所关心的数据，它是对原始数据所包含信息的挖掘。

MapReduce初级事例——单表相关（mapreduce简单例子）单表关联数据信息第1张

“ 单表相关”这个实例要求从给出的数据中寻觅所关怀的数据，它是对原始数据所包括信息的发掘。下面进入这个实例。

1 .实例描绘

实例中给出 child-parent(孩子——爸爸妈妈)表，要求输出 grandchild-grandparent(孙子——爷奶)表。

样例输入如下所示。

file：

MapReduce初级事例——单表相关（mapreduce简单例子）单表关联数据信息第2张

宗族树状联系谱：

MapReduce初级事例——单表相关（mapreduce简单例子）单表关联数据信息第3张

样例输出如下所示。

file：

MapReduce初级事例——单表相关（mapreduce简单例子）单表关联数据信息第4张

2 .规划思路

剖析这个实例，明显需求进行单表衔接，衔接的是左表的 parent 列和右表的 child 列，且左表和右表是同一个表。

衔接成果中除掉衔接的两列便是所需求的成果——“ grandchild–grandparent”表。要用MapReduce 处理这个实例，首要应该考虑怎么完结表的自衔接; 其次便是衔接列的设置;最终是成果的收拾。

考虑到 MapReduce 的 shuffle 进程会将相同的 key 会衔接在一起，所以能够将 map 成果的 key 设置成待衔接的列，然后列中相同的值就自然会衔接在一起了。再与最开端的剖析联系起来：

要衔接的是左表的 parent 列和右表的 child 列，且左表和右表是同一个表，所以在 map阶段将读入数据分割成 child 和 parent 之后，会将 parent 设置成 key， child 设置成 value进行输出，并作为左表;再将同一对 child 和 parent 中的 child 设置成 key， parent 设置成value 进行输出，作为右表。

为了区别输出中的左右表，需求在输出的 value 中再加上左右表的信息，比如在 value 的 String 最开端处加上字符 1 表明左表，加上字符 2 表明右表。

这样在 map 的成果中就形成了左表和右表，然后在 shuffle 进程中完结衔接。 reduce 接收到衔接的成果，其间每个 key 的 value-list 就包括了“ grandchild–grandparent”联系。

取出每个key 的 value-list 进行解析，将左表中的 child 放入一个数组，右表中的 parent 放入一个数组，然后对两个数组求笛卡尔积便是最终的成果了。

3 .程序代码

程序代码如下所示。

MapReduce初级事例——单表相关（mapreduce简单例子）单表关联数据信息第5张