軽量YOLOv5をベースとした漢字検出・認識解析システムの開発・構築

漢字検出、文字検出、手書き数字検出、チベット語検出、甲骨碑文検出は以前の記事で実行しました。今日では、主に実際のプロジェクトのニーズのためです。以前の漢字検出モデルは比較的古く、 yolov3 時代に使用されていたモデル、検出精度、推論速度には大きな遅れがあります。ここでは、yolov5 軽量モデルに基づいて新しいバージョンのターゲット検出モデルを開発して構築する必要があります。まず、レンダリングを見てください。

次に、単純にデータセットを見てみましょう。

YOLO 形式のアノテーションファイルのスクリーンショットは次のとおりです。

アノテーションの例の内容は次のとおりです。

17 0.245192 0.617788 0.038462 0.038462
6 0.102163 0.830529 0.045673 0.045673
16 0.894231 0.096154 0.134615 0.134615
4 0.456731 0.524038 0.134615 0.134615
15 0.367788 0.317308 0.269231 0.269231

VOC 形式のデータアノテーションファイルのスクリーンショットは次のとおりです。

アノテーションの例の内容は次のとおりです。

<annotation>
    <folder>DATASET</folder>
    <filename>0ace8eaf-8e86-488b-9229-95255c69158c.jpg</filename>
    <source>
        <database>The DATASET Database</database>
        <annotation>DATASET</annotation>
        <image>DATASET</image>
    </source>
    <owner>
        <name>YMGZS</name>
    </owner>    
    <size>
        <width>416</width>
        <height>416</height>
        <depth>3</depth>
    </size>
    <segmented>0</segmented>
    
    <object>        
        <name>17</name>
        <pose>Unspecified</pose>
        <truncated>0</truncated>
        <difficult>0</difficult>
        <bndbox>
            <xmin>214</xmin>
            <ymin>302</ymin>
            <xmax>230</xmax>
            <ymax>318</ymax>
        </bndbox>
    </object>
    
    <object>        
        <name>16</name>
        <pose>Unspecified</pose>
        <truncated>0</truncated>
        <difficult>0</difficult>
        <bndbox>
            <xmin>210</xmin>
            <ymin>67</ymin>
            <xmax>229</xmax>
            <ymax>86</ymax>
        </bndbox>
    </object>
    
    <object>        
        <name>18</name>
        <pose>Unspecified</pose>
        <truncated>0</truncated>
        <difficult>0</difficult>
        <bndbox>
            <xmin>260</xmin>
            <ymin>7</ymin>
            <xmax>274</xmax>
            <ymax>21</ymax>
        </bndbox>
    </object>
    
    <object>        
        <name>10</name>
        <pose>Unspecified</pose>
        <truncated>0</truncated>
        <difficult>0</difficult>
        <bndbox>
            <xmin>121</xmin>
            <ymin>103</ymin>
            <xmax>143</xmax>
            <ymax>125</ymax>
        </bndbox>
    </object>
    
    <object>        
        <name>11</name>
        <pose>Unspecified</pose>
        <truncated>0</truncated>
        <difficult>0</difficult>
        <bndbox>
            <xmin>296</xmin>
            <ymin>289</ymin>
            <xmax>352</xmax>
            <ymax>345</ymax>
        </bndbox>
    </object>
    
    <object>        
        <name>0</name>
        <pose>Unspecified</pose>
        <truncated>0</truncated>
        <difficult>0</difficult>
        <bndbox>
            <xmin>56</xmin>
            <ymin>132</ymin>
            <xmax>196</xmax>
            <ymax>272</ymax>
        </bndbox>
    </object>
    
    <object>        
        <name>0</name>
        <pose>Unspecified</pose>
        <truncated>0</truncated>
        <difficult>0</difficult>
        <bndbox>
            <xmin>213</xmin>
            <ymin>142</ymin>
            <xmax>353</xmax>
            <ymax>282</ymax>
        </bndbox>
    </object>
    
</annotation>

メインの軽量ネットワークであるため、ここでは最も軽量な n シリーズモデルが選択されています。最終的なモデルのファイルサイズは 4MB 未満です。ネットワーク構造図は次のとおりです。