PaddleOCR/doc/doc_ch/distributed_training.md

2.7 KiB
Raw Blame History

分布式训练

简介

  • 分布式训练的高性能是飞桨的核心优势技术之一在分类任务上分布式训练可以达到几乎线性的加速比。OCR训练任务中往往包含大量训练数据以识别为例ppocrv2.0模型在训练时使用了1800W数据如果使用单机训练会非常耗时。因此PaddleOCR中使用分布式训练接口完成训练任务同时支持单机训练与多机训练。更多关于分布式训练的方法与文档可以参考分布式训练快速开始教程

使用方法

单机训练

  • 以识别为例,本地准备好数据之后,使用paddle.distributed.launch的接口启动训练任务即可。下面为运行代码示例。
python3 -m paddle.distributed.launch \
    --log_dir=./log/ \
    --gpus '0,1,2,3,4,5,6,7' \
    tools/train.py \
    -c configs/rec/rec_mv3_none_bilstm_ctc.yml

多机训练

  • 相比单机训练,多机训练时,只需要添加--ips的参数该参数表示需要参与分布式训练的机器的ip列表不同机器的ip用逗号隔开。下面为运行代码示例。
ip_list="192.168.0.1,192.168.0.2"
python3 -m paddle.distributed.launch \
    --log_dir=./log/ \
    --ips="${ip_list}" \
    --gpus="0,1,2,3,4,5,6,7" \
    tools/train.py \
    -c configs/rec/rec_mv3_none_bilstm_ctc.yml

注:

  • 不同机器的ip信息需要用逗号隔开可以通过ifconfig或者ipconfig查看。
  • 不同机器之间需要做免密设置且可以直接ping通否则无法完成通信。
  • 不同机器之间的代码、数据与运行命令或脚本需要保持一致,且所有的机器上都需要运行设置好的训练命令或者脚本。最终ip_list中的第一台机器的第一块设备是trainer0以此类推。

性能效果测试

  • 基于单机8卡P40和2机8卡P40在26W公开识别数据集(LSVT, RCTW, MTWI)上进行训练,最终耗时如下。
模型 配置文件 机器数量 每台机器的GPU数量 训练时间 识别Acc 加速比
CRNN configs/rec/ch_ppocr_v2.0/rec_chinese_lite_train_v2.0.yml 1 8 60h 66.7% -
CRNN configs/rec/ch_ppocr_v2.0/rec_chinese_lite_train_v2.0.yml 2 8 40h 67.0% 150%

可以看出精度没有下降的情况下训练时间由60h缩短为了40h加速比可以达到60h/40h=150%效率为60h/(40h*2)=75%。