PaddleOCR/doc/doc_ch/tricks.md

4.6 KiB
Raw Blame History

中文OCR训练预测技巧

这里整理了一些中文OCR训练预测技巧持续更新中欢迎各位小伙伴贡献OCR炼丹秘籍

1、更换骨干网络

  • 问题描述

    目前PaddleOCR中使用的骨干网络有ResNet_vd系列和MobileNetV3系列更换骨干网络是否有助于效果提升更换时需要注意什么

  • 炼丹建议

    • 无论是文字检测还是文字识别骨干网络的选择是预测效果和预测效率的权衡。一般选择更大规模的骨干网络例如ResNet101_vd则检测或识别更准确但预测耗时相应也会增加。而选择更小规模的骨干网络例如MobileNetV3_small_x0_35则预测更快但检测或识别的准确率会大打折扣。幸运的是不同骨干网络的检测或识别效果与在ImageNet数据集图像1000分类任务效果正相关。飞桨图像分类套件PaddleClas汇总了ResNet_vd、Res2Net、HRNet、MobileNetV3、GhostNet等23种系列的分类网络结构在上述图像分类任务的top1识别准确率GPU(V100和T4)和CPU(骁龙855)的预测耗时以及相应的117个预训练模型下载地址
    • 文字检测骨干网络的替换主要是确定类似与ResNet的4个stages以方便集成后续的类似FPN的检测头。此外对于文字检测问题使用ImageNet训练的分类预训练模型可以加速收敛和效果提升。
    • 文字识别的骨干网络的替换需要注意网络宽高stride的下降位置。由于文本识别一般宽高比例很大因此高度下降频率少一些宽度下降频率多一些。可以参考PaddleOCR中MobileNetV3骨干网络的改动。

2、中文长文本识别

  • 问题描述

    中文识别模型训练时分辨率最大是[3,32,320],如果待识别的文本图像太长,如下图所示,该如何适配?

  • 炼丹建议

    在中文识别模型训练时,并不是采用直接将训练样本缩放到[3,32,320]进行训练而是先等比例缩放图像保证图像高度为32宽度不足320的部分补0宽高比大于10的样本直接丢弃。预测时如果是单张图像预测则按上述操作直接对图像缩放不做宽度320的限制。如果是多张图预测则采用batch方式预测每个batch的宽度动态变换采用这个batch中最长宽度。参考代码如下

      def resize_norm_img(self, img, max_wh_ratio):
          imgC, imgH, imgW = self.rec_image_shape
          assert imgC == img.shape[2]
          if self.character_type == "ch":
              imgW = int((32 * max_wh_ratio))
          h, w = img.shape[:2]
          ratio = w / float(h)
          if math.ceil(imgH * ratio) > imgW:
              resized_w = imgW
          else:
              resized_w = int(math.ceil(imgH * ratio))
          resized_image = cv2.resize(img, (resized_w, imgH))
          resized_image = resized_image.astype('float32')
          resized_image = resized_image.transpose((2, 0, 1)) / 255
          resized_image -= 0.5
          resized_image /= 0.5
          padding_im = np.zeros((imgC, imgH, imgW), dtype=np.float32)
          padding_im[:, :, 0:resized_w] = resized_image
          return padding_im  
    

3、空格识别

  • 问题描述

    如下图所示,对于中英文混合场景,为了便于阅读和使用识别结果,往往需要将单词之间的空格识别出来,这种情况如何适配?

  • 炼丹建议

    空格识别可以考虑以下两种方案:(1)优化文本检测算法。检测结果在空格处将文本断开。这种方案在检测数据标注时,需要将含有空格的文本行分成好多段。(2)优化文本识别算法。在识别字典里面引入空格字符然后在识别的训练数据中如果用空行进行标注。此外合成数据时通过拼接训练数据生成含有空格的文本。PaddleOCR目前采用的是第二种方案。