PaddleOCR/doc/doc_ch/FAQ.md

5.1 KiB
Raw Blame History

FAQ

  1. 预测报错got an unexpected keyword argument 'gradient_clip'
    安装的paddle版本不对目前本项目仅支持paddle1.7近期会适配到1.8。

  2. 转换attention识别模型时报错KeyError: 'predict'
    问题已解决,请更新到最新代码。

  3. 关于推理速度
    图片中的文字较多时,预测时间会增,可以使用--rec_batch_num设置更小预测batch num默认值为30可以改为10或其他数值。

  4. 服务部署与移动端部署
    预计6月中下旬会先后发布基于Serving的服务部署方案和基于Paddle Lite的移动端部署方案欢迎持续关注。

  5. 自研算法发布时间
    自研算法SAST、SRN、End2End-PSL都将在6-7月陆续发布敬请期待。

  6. 如何在Windows或Mac系统上运行
    PaddleOCR已完成Windows和Mac系统适配运行时注意两点1、在快速安装如果不想安装docker可跳过第一步直接从第二步安装paddle开始。2、inference模型下载时如果没有安装wget可直接点击模型链接或将链接地址复制到浏览器进行下载并解压放置到相应目录。

  7. 超轻量模型和通用OCR模型的区别
    目前PaddleOCR开源了2个中文模型分别是8.6M超轻量中文模型和通用中文OCR模型。两者对比信息如下

    • 相同点:两者使用相同的算法训练数据
    • 不同点:不同之处在于骨干网络通道参数超轻量模型使用MobileNetV3作为骨干网络通用模型使用Resnet50_vd作为检测模型backboneResnet34_vd作为识别模型backbone具体参数差异可对比两种模型训练的配置文件.
模型 骨干网络 检测训练配置 识别训练配置
8.6M超轻量中文OCR模型 MobileNetV3+MobileNetV3 det_mv3_db.yml rec_chinese_lite_train.yml
通用中文OCR模型 Resnet50_vd+Resnet34_vd det_r50_vd_db.yml rec_chinese_common_train.yml
  1. 是否有计划开源仅识别数字或仅识别英文+数字的模型
    暂不计划开源仅数字、仅数字+英文、或其他小垂类专用模型。PaddleOCR开源了多种检测、识别算法供用户自定义训练两种中文模型也是基于开源的算法库训练产出有小垂类需求的小伙伴可以按照教程准备好数据选择合适的配置文件自行训练相信能有不错的效果。训练有任何问题欢迎提issue或在交流群提问我们会及时解答。

  2. 开源模型使用的训练数据是什么,能否开源
    目前开源的模型,数据集和量级如下:

    • 检测:
      英文数据集ICDAR2015
      中文数据集LSVT街景数据集训练数据3w张图片
    • 识别:
      英文数据集MJSynth和SynthText合成数据数据量上千万。
      中文数据集LSVT街景数据集根据真值将图crop出来并进行位置校准总共30w张图像。此外基于LSVT的语料合成数据500w。

    其中,公开数据集都是开源的,用户可自行搜索下载,也可参考中文数据集,合成数据暂不开源,用户可使用开源合成工具自行合成,可参考的合成工具包括text_rendererSynthTextTextRecognitionDataGenerator等。

  3. 使用带TPS的识别模型预测报错
    报错信息Input(X) dims[3] and Input(Grid) dims[2] should be equal, but received X dimension3 != Grid dimension2
    原因TPS模块暂时无法支持变长的输入请设置 --rec_image_shape='3,32,100' --rec_char_type='en' 固定输入shape

  4. 自定义字典训练的模型,识别结果出现字典里没出现的字
    预测时没有设置采用的自定义字典路径。设置方法是在预测时通过增加输入参数rec_char_dict_path来设置。

  5. 服务器CPU预测时内存一直涨 主要有由于开启了MKL数学库和多线程加速导致的问题该问题我们已经在跟进修复。 临时解决方案有两种: 1注释掉数学库的使用但是速度慢一倍注释方法https://github.com/PaddlePaddle/PaddleOCR/blob/develop/tools/infer/utility.py 文件中注释掉9495行 image

2定期释放和初始化TextSystem这个类速度略微受影响。 可以参考如下代码,修改 https://github.com/PaddlePaddle/PaddleOCR/blob/develop/tools/infer/predict_system.py 中main函数代码

def main(args):
    image_file_list = get_image_file_list(args.image_dir)
    text_sys = TextSystem(args)
    is_visualize = True
    count = 0
    for image_file in image_file_list:
        img = cv2.imread(image_file)
        if img is None:
            logger.info("error in loading image:{}".format(image_file))
            continue
        count += 1
        if count % 10 == 0:
            text_sys = TextSystem(args)
        starttime = time.time()
        dt_boxes, rec_res = text_sys(img)
        elapse = time.time() - starttime