java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 1

hadoop中运行mapreduce出现PipeMapRed错误排查

在执行mapreduce过程中发现此错误后进行排查,一般都是因为代码出现错误导致的,之前有过几次经验,将错误可能出现的地方列举出来:

1. run.sh检查

run.sh,可能执行过程中mapper_func写成mapper_fun,找不到此方法,也可能执行命令本地没有white_list,偏偏加一句white_list执行,都会出现此问题

# Step 1.
$HADOOP_CMD jar $STREAM_JAR_PATH \
    -input $INPUT_FILE_PATH_1 \
    -output $OUTPUT_PATH \
    -mapper "python map.py mapper_fun white_list" \ #错误地方,正确做法,修改mapper_func
    -reducer "python red.py reduer_func" \
    -jobconf "mapred.reduce.tasks=3" \
    -file ./map.py \
    -file ./red.py \
    -file ./white_list    #可能出错误的地方,正确做法先看跑的任务,不需要时别乱添加

2. map.py和red.py检查
在执行map任务和red.py任务时,千万不要做打印语句,否则也会报类似错误

  for line in sys.stdin:
        ss = line.strip().split(' ')
        for s in ss:
           # time.sleep(100)
            print "===="   #可能出现错误的地方,正确做法注释
            word = s.strip()
            if word != "" and (word in word_set):
                #print s + "\t" + "1"
                #print '\t'.join([s, "1"])
                print "%s\t%s" % (s, 1)

3.配置文件
hadoop中的hdfs.site.xml中出现的错误,所以此错误很有可能是配置文件出现的,这个例子说的不只只是hdfs.site.xml,也指的是所有的配置文件,包括master,slave各个节点,以及jps所起得节点是否正常,是否ssh正常。

<configuration>
         <property>
                <name>dfs.namenode.secondary.http-address</name>
                <value>master:9001</value>
        </property>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:/usr/local/src/hadoop-2.6.0/dfs/name</value>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:/usr/local/src/hadoop-2.6.0/dfs/data</value>
        </property>
        <property>
                <name>dfs.repliction</name>   #正确:replication  错误:  repliction
                <value>2</value>
        </property>
</configuration>

4.ide编写问题
在用paycharm做mapreduce的过程中,写完代码后在终端执行,神奇的发现还报错,经过几个人测试时因为不合法字符导致的,所以还是乖乖用vim吧。

总结教训:出现此问题很可能是因为代码原因导致的,我们先逐个排查,当然最好是先看日志排查。
检查过程一般为,看日志 —检查代码及配置文件 — 文件权限 —– hadoop环境问题吧,
确定hadoop环境是否有问题,可以先跑一个能跑得mapreduce任务试试。

猜你喜欢

转载自blog.csdn.net/qq_17336559/article/details/80936050