add datasets & FAQ doc
This commit is contained in:
parent
5df1f7e2e5
commit
16263e76cf
|
@ -2,11 +2,11 @@
|
|||
PaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库,助力使用者训练出更好的模型,并应用落地。
|
||||
|
||||
**近期更新**
|
||||
- 2020.6.8 添加[数据集](./doc/datasets.md),并保持持续更新
|
||||
- 2020.6.5 支持 `attetnion` 模型导出 `inference_model`
|
||||
- 2020.6.5 支持单独预测识别时,输出结果得分
|
||||
- 2020.5.30 提供超轻量级中文OCR在线体验
|
||||
- 2020.5.30 模型预测、训练支持Windows系统
|
||||
- 2020.5.30 开源通用中文OCR模型
|
||||
- [more](./doc/update.md)
|
||||
|
||||
## 特性
|
||||
|
|
|
@ -21,7 +21,8 @@ PaddleOCR已完成Windows和Mac系统适配,运行时注意两点:1、在[
|
|||
7. **超轻量模型和通用OCR模型的区别**
|
||||
目前PaddleOCR开源了2个中文模型,分别是8.6M超轻量中文模型和通用中文OCR模型。两者对比信息如下:
|
||||
- 相同点:两者使用相同的**算法**和**训练数据**;
|
||||
- 不同点:不同之处在于**骨干网络**和**通道参数**,超轻量模型使用MobileNetV3作为骨干网络,通用模型使用Resnet50_vd作为检测模型backbone,Resnet34_vd作为识别模型backbone,具体参数差异可对比两种模型训练的配置文件。
|
||||
- 不同点:不同之处在于**骨干网络**和**通道参数**,超轻量模型使用MobileNetV3作为骨干网络,通用模型使用Resnet50_vd作为检测模型backbone,Resnet34_vd作为识别模型backbone,具体参数差异可对比两种模型训练的配置文件.
|
||||
|
||||
|模型|骨干网络|检测训练配置|识别训练配置|
|
||||
|-|-|-|-|
|
||||
|8.6M超轻量中文OCR模型|MobileNetV3+MobileNetV3|det_mv3_db.yml|rec_chinese_lite_train.yml|
|
||||
|
|
|
@ -45,7 +45,6 @@ https://aistudio.baidu.com/aistudio/datasetdetail/8429
|
|||
- 包含汉字、英文字母、数字和标点共5990个字符(字符集合:https://github.com/YCG09/chinese_ocr/blob/master/train/char_std_5990.txt )
|
||||
- 每个样本固定10个字符,字符随机截取自语料库中的句子
|
||||
- 图片分辨率统一为280x32
|
||||
|
||||
![](datasets/ch_doc1.jpg)
|
||||
![](datasets/ch_doc2.jpg)
|
||||
![](datasets/ch_doc3.jpg)
|
||||
|
|
Loading…
Reference in New Issue