怎么把 PASCAL VOC 2007 / 2012 数据集转换成LMDB格式

最近在做训练的时候遇到了做训练集的问题，所以总结一下自己做数据集的思路与操作。ubuntu16.04.

一、VOC数据集格式：做检测的时候会遇到，每一个图中可能有几个目标，每个目标都有一个位置信息保存到xml文件中，如果想将此类数据做成lmdb格式，首先就是要标记图像，得到每一个图中目标的位置信息，标记的程序可以网上找到，标记的工作量还是很大的，这里讲做好xml文件之后怎么做成lmdb。

1、首先在github上下载一个caffe-ssd，然后编译caffe-ssd，这个编译的方法网上有很多，这里就不多说了。编译好之后在./data中输入指令下载VOC0712数据集：【因为下面的两个脚本还调用了其他的Python文件，所以还要 make pycaffe】


      
      
       
       
        
        
         
         
        
        
        
        
         
         
          
          wget http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          wget http:
          
          //host.robots.ox.ac.uk/pascal/VOC/voc2007/VOCtrainval_06-Nov-2007.tar
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          wget http:
          
          //host.robots.ox.ac.uk/pascal/VOC/voc2007/VOCtest_06-Nov-2007.tar
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
          
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          tar -xvf VOCtrainval_11-May
          
          -2012.tar
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          tar -xvf VOCtrainval_06-Nov
          
          -2007.tar
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          tar -xvf VOCtest_06-Nov
          
          -2007.tar

解压之后如下图所示，在VOCdevkit文件夹内有两个文件夹，VOC2007和VOC2012，第一个文件夹是我生成的lmdb文件。

2、创建lmdb格式的数据集


      
      
       
       
        
        
         
         
        
        
        
        
         
         
          
          cd caffe
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          ./data/VOC0712/create_list.sh
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          ./data/VOC0712/create_data.sh

下面贴出来creat_list.sh的代码：


      
      
       
       
        
        
         
         
        
        
        
        
         
         
          
          #!/bin/bash
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
          
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          root_dir=####这里改到你数据集的路径
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          sub_dir=ImageSets/Main
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          bash_dir=
          
          "$(cd "$(dirname 
          
          "${BASH_SOURCE[0]}")
          
          " && pwd)"
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          for dataset in trainval test
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          do
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
            dst_file=$bash_dir/$dataset.txt
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
           
          
          if [ -f $dst_file ]
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
            then
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
              rm -f $dst_file
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
            fi
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
           
          
          for name in VOC2007 VOC2012
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
           
          
          do
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
             
          
          if [[ $dataset == 
          
          "test" && $name == 
          
          "VOC2012" ]]
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
              then
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
               
          
          continue
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
              fi
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
              echo 
          
          "Create list for $name $dataset..."
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
              dataset_file=$root_dir/$name/$sub_dir/$dataset.txt
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
          
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
              img_file=$bash_dir/$dataset
          
          "_img.txt"
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
              cp $dataset_file $img_file
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
              sed -i 
          
          "s/^/$name\/JPEGImages\//g" $img_file
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
              sed -i 
          
          "s/$/.jpg/g" $img_file
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
          
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
              label_file=$bash_dir/$dataset
          
          "_label.txt"
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
              cp $dataset_file $label_file
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
              sed -i 
          
          "s/^/$name\/Annotations\//g" $label_file
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
              sed -i 
          
          "s/$/.xml/g" $label_file
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
          
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
              paste -d' 
          
          ' $img_file $label_file >> $dst_file
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
              rm -f $label_file
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
              rm -f $img_file
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
            done
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
            # Generate image name and size infomation.
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
            if [ $dataset == "test" ]
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
            then
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
             ./caffe-ssd/build/tools/get_image_size $root_dir $dst_file $bash_dir/$dataset"_name_size.txt"#这个路径也要改下
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
            fi
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
            # Shuffle trainval file.
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
            if [ $dataset == "trainval" ]
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
            then
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
              rand_file=$dst_file.random
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
              cat $dst_file | perl -MList::Util=shuffle -e 'print shuffle(<STDIN>);
          
          ' > $rand_file
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
              mv $rand_file $dst_file
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
            fi
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          done

create_data.sh下面的这个代码就是要做成lmdb格式的数据集了。


      
      
       
       
        
        
         
         
        
        
        
        
         
         
          
          cur_dir=$(cd $( dirname ${BASH_SOURCE[0]} ) && pwd )
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          root_dir=./caffe-ssd###这里的路径改一下，
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
          
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          cd $root_dir
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
          
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          redo=
          
          1
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          data_root_dir=
          
          "./caffe-ssd/data/xuelang"
          
          ###这里的路径改一下，


      
      
       
       
        
        
         
         
        
        
        
        
         
         
          
          dataset_name="VOC0712"
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          mapfile=
          
          "./caffe-ssd/data/VOC0712/labelmap_xuelang.prototxt"
          
          ###这里的路径改一下，


      
      
       
       
        
        
         
         
        
        
        
        
         
         
          
          anno_type="detection"
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          db=
          
          "lmdb"
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          min_dim=
          
          0
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          max_dim=
          
          0
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          width=
          
          0
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          height=
          
          0
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
          
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          extra_cmd=
          
          "--encode-type=jpg --encoded"
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          if [ $redo ]
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          then
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
            extra_cmd=
          
          "$extra_cmd --redo"
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          fi
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          for subset in test trainval
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          do
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
            python $root_dir/scripts/create_annoset.py --anno-type=$anno_type --label-
          
          map-file=$mapfile --min-dim=$min_dim --max-dim=$max_dim --resize-width=$width --resize-height=$height --check-label $extra_cmd $data_root_dir $root_dir/data/$dataset_name/$subset.txt $data_root_dir/$dataset_name/$db/$dataset_name
          
          "_"$subset
          
          "_"$db examples/$dataset_name
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          done

然后就能看到lmdb格式的数据集就生成了。注意这里照着博主的改法就可以了，先执行create_list.sh脚本再执行create_data.sh脚本，数据集要提前准备好。

如果是自己的数据集的话要先用标记的程序标记目标位置，生成xml文件，然后按照voc数据集的格式去生成lmdb文件。

二、图片和label做成lmdb格式（用于图片分类）

扫描二维码关注公众号，回复： 4636651 查看本文章

1、首先将同一label的train数据集放到一个文件夹内，在该文件夹内打开terminal输入find -name "*.jpg*" > trainval.txt，这样就可以将该文件夹内所有的图片全部存到txt中；

2、生成的txt中，将jpg替换成jpg 1 （1是这些图片对应的label，中间有空格）

3、将所有的train。txt合在一起，图片也全部放到train文件夹中，将所有的test的txt和图片同样操作。

4、在examples/imagenet下找到create_imagenet.sh文件，如下，修改


      
      
       
       
        
        
         
         
        
        
        
        
         
         
          
          #!/usr/bin/env sh
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          # Create the imagenet lmdb inputs
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          # N.B. 
          
          set the path to the imagenet train + val data dirs
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          set -e
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
          
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          EXAMPLE=examples/imagenet
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          DATA=data/teeest#这里要改成上图的数据路径，
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          TOOLS=build/tools


      
      
       
       
        
        
         
         
        
        
        
        
         
         
          
          TRAIN_DATA_ROOT=./caffe-ssd/data/teeest/train/

VAL_DATA_ROOT=./caffe-ssd/data/teeest/val/


      
      
       
       
        
        
         
         
        
        
        
        
         
         
          
          
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
          
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          # Set RESIZE=
          
          true to resize the images to 
          
          256x256. Leave as 
          
          false 
          
          if images have
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          # already been resized 
          
          using another tool.
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          RESIZE=
          
          true ##是不是要resize
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          if $RESIZE; then
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
            RESIZE_HEIGHT=
          
          128
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
            RESIZE_WIDTH=
          
          128
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          else
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
            RESIZE_HEIGHT=
          
          0
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
            RESIZE_WIDTH=
          
          0
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          fi
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
          
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          if [ ! -d 
          
          "$TRAIN_DATA_ROOT" ]; then
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
            echo 
          
          "Error: TRAIN_DATA_ROOT is not a path to a directory: $TRAIN_DATA_ROOT"
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
            echo 
          
          "Set the TRAIN_DATA_ROOT variable in create_imagenet.sh to the path" \
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
                
          
          "where the ImageNet training data is stored."
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
           
          
          exit 
          
          1
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          fi
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
          
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          if [ ! -d 
          
          "$VAL_DATA_ROOT" ]; then
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
            echo 
          
          "Error: VAL_DATA_ROOT is not a path to a directory: $VAL_DATA_ROOT"
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
            echo 
          
          "Set the VAL_DATA_ROOT variable in create_imagenet.sh to the path" \
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
                
          
          "where the ImageNet validation data is stored."
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
           
          
          exit 
          
          1
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          fi
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
          
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          echo 
          
          "Creating train lmdb..."
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
          
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          GLOG_logtostderr=
          
          1 $TOOLS/convert_imageset \
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
              --resize_height=$RESIZE_HEIGHT \
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
              --resize_width=$RESIZE_WIDTH \
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
              --shuffle \
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
              $TRAIN_DATA_ROOT \
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
              $DATA/train.txt \
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
              $EXAMPLE/ilsvrc12_train_lmdb
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
          
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          echo 
          
          "Creating val lmdb..."
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
          
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          GLOG_logtostderr=
          
          1 $TOOLS/convert_imageset \
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
              --resize_height=$RESIZE_HEIGHT \
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
              --resize_width=$RESIZE_WIDTH \
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
              --shuffle \
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
              $VAL_DATA_ROOT \
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
              $DATA/val.txt \
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
              $EXAMPLE/ilsvrc12_val_lmdb#保存的路径和名字，需要的话可以更改
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
          
         
         
        
        
       
       
        
        
         
         
        
        
        
        
         
         
          
          echo 
          
          "Done."

5、运行这个sh文件，就可以生成lmdb文件了。

三、语义分割的数据集（按像素分类）待补充,暂时还没有用到，等用到的时候再更新吧