fullbuild代码的一些认识

对于store的fullbuild代码解释:
store-ajoin-conf.xml配置文件的table表
属性path   /store/in/目录是用来放从数据库dump下来的数据(并且不用跑map-redurce)  /store/out/目录放着是跑map-redurce程序的产生的数据,还有可以放一些BI提供的数据      最终这两个目录的数据都会被join在一起
属性record_separator   为什么有些是\b\n,有些是\b       首先我们从数据库中dump下来的数据  字段以\0分割,行以\b分割      但是hadoop对dump下来的文件的分割是以\n分割的,所以我们公司对hadoop的源码进行了修改,以\b分割  
对于那些不用跑map-redurce的数据,他们本来就是以\0\b分割,所以在jion操作的时候就读取record_separator的属性值\b  所以对于这些数据是record_separator的属性值\b
对于那些跑map-redurce的程序,hadoop默认的输入一行一行的输入,输出是key-value,所以但是对于输出key或者value可以为空,key主要是用来排序等操作用,但是由于redurce操作速度很慢,所以我们一般在dump数据的时候就进行了排序。还有mapper每个输出都回默认加\n为分割,所以导致要jion的数据格式为\0\b\n  ,所以对于这些数据record_separator的属性值为\b\n

猜你喜欢

转载自guafei.iteye.com/blog/939331