PaddleOCR/doc/doc_ch/datasets.md

4.5 KiB
Raw Blame History

通用中英文OCR数据集

这里整理了常用中文数据集,持续更新中,欢迎各位小伙伴贡献数据集~

除了开源数据,用户还可使用合成工具自行合成,可参考数据合成工具

如果需要标注自己的数据,可参考数据标注工具

1、ICDAR2019-LSVT

2、ICDAR2017-RCTW-17

  • 数据来源https://rctw.vlrlab.net/
  • 数据简介共包含12,000+图像,大部分图片是通过手机摄像头在野外采集的。有些是截图。这些图片展示了各种各样的场景,包括街景、海报、菜单、室内场景和手机应用程序的截图。
  • 下载地址https://rctw.vlrlab.net/dataset/

3、中文街景文字识别

  • 数据来源https://aistudio.baidu.com/aistudio/competition/detail/8
  • 数据简介ICDAR2019-LSVT行识别任务共包括29万张图片其中21万张图片作为训练集带标注8万张作为测试集无标注。数据集采自中国街景并由街景图片中的文字行区域例如店铺标牌、地标等等截取出来而形成。所有图像都经过一些预处理将文字区域利用仿射变化等比映射为一张高为48像素的图片如图所示

    (a) 标注:魅派集成吊顶

    (b) 标注:母婴用品连锁
  • 下载地址 https://aistudio.baidu.com/aistudio/datasetdetail/8429

4、中文文档文字识别

5、ICDAR2019-ArT

参考文献

ICDAR 2019-LSVT Challenge

@article{sun2019icdar,
  title={ICDAR 2019 Competition on Large-scale Street View Text with Partial Labeling--RRC-LSVT},
  author={Sun, Yipeng and Ni, Zihan and Chng, Chee-Kheng and Liu, Yuliang and Luo, Canjie and Ng, Chun Chet and Han, Junyu and Ding, Errui and Liu, Jingtuo and Karatzas, Dimosthenis and others},
  journal={arXiv preprint arXiv:1909.07741},
  year={2019}
}

ICDAR 2019-ArT Challenge

@article{chng2019icdar2019,
  title={ICDAR2019 Robust Reading Challenge on Arbitrary-Shaped Text (RRC-ArT)},
  author={Chng, Chee-Kheng and Liu, Yuliang and Sun, Yipeng and Ng, Chun Chet and Luo, Canjie and Ni, Zihan and Fang, ChuanMing and Zhang, Shuaitao and Han, Junyu and Ding, Errui and others},
  journal={arXiv preprint arXiv:1909.07145},
  year={2019}
}