Hadoop之RandomTextWriter说明

需求:

需要mock一批数据,基于数据做测试或者分析,RandomTextWriter可以满足需求,不过MRv1和MRv2的参数不是很一致。

详述:

MRv1:

<config>  
    <property>
      <name>test.randomtextwrite.min_words_key</name>
      <value>5</value>
    </property>
    <property>
      <name>test.randomtextwrite.max_words_key</name>
      <value>10</value>
    </property>
    <property>
      <name>test.randomtextwrite.min_words_value</name>
      <value>20</value>
    </property>
    <property>
      <name>test.randomtextwrite.max_words_value</name>
      <value>100</value>
    </property>
    <property>
      <name>test.randomtextwrite.total_bytes</name>
      <value>1099511627776</value>
    </property>
</config>

 在执行的时候要通过-D传入,还有一些其他的参数:

test.randomtextwrite.maps_per_host
test.randomtextwrite.bytes_per_map

MRv2:

<config>  
    <property>
      <name>mapreduce.randomtextwriter.minwordskey</name>
      <value>5</value>
    </property>
    <property>
      <name>mapreduce.randomtextwriter.maxwordskey</name>
      <value>10</value>
    </property>
    <property>
      <name>mapreduce.randomtextwriter.minwordsvalue</name>
      <value>20</value>
    </property>
    <property>
      <name>mapreduce.randomtextwriter.maxwordsvalue</name>
      <value>100</value>
    </property>
    <property>
      <name>mapreduce.randomtextwriter.totalbytes</name>
      <value>1099511627776</value>
    </property>
</config>

 在执行的时候要通过-D传入,还有一些其他的参数:

mapreduce.randomtextwriter.bytespermap
mapreduce.randomtextwriter.mapsperhost

猜你喜欢

转载自snv.iteye.com/blog/2046819