Merge pull request #746 from tink2123/languages

Support more languages
2020-09-19 15:18:38 +08:00 · 2020-09-19 15:18:38 +08:00 · aafa88db70
parent a6ccaa513e 289bf76067
commit aafa88db70
17 changed files with 8644 additions and 4 deletions
--- a/configs/rec/multi_languages/rec_en_lite_train.yml
+++ b/configs/rec/multi_languages/rec_en_lite_train.yml
@ -0,0 +1,53 @@
+Global:
+  algorithm: CRNN
+  use_gpu: true
+  epoch_num: 500
+  log_smooth_window: 20
+  print_batch_step: 10
+  save_model_dir: ./output/en_number
+  save_epoch_step: 3
+  eval_batch_step: 2000
+  train_batch_size_per_card: 256
+  test_batch_size_per_card: 256
+  image_shape: [3, 32, 320]
+  max_text_length: 30
+  character_type: ch
+  character_dict_path: ./ppocr/utils/ic15_dict.txt
+  loss_type: ctc
+  distort: false
+  use_space_char: false
+  reader_yml: ./configs/rec/rec_en_reader.yml
+  pretrain_weights:
+  checkpoints:
+  save_inference_dir:
+  infer_img:
+
+Architecture:
+  function: ppocr.modeling.architectures.rec_model,RecModel
+
+Backbone:
+  function: ppocr.modeling.backbones.rec_mobilenet_v3,MobileNetV3
+  scale: 0.5
+  model_name: small
+  small_stride: [1, 2, 2, 2]
+
+Head:
+  function: ppocr.modeling.heads.rec_ctc_head,CTCPredict
+  encoder_type: rnn
+  SeqRNN:
+    hidden_size: 48
+    
+Loss:
+  function: ppocr.modeling.losses.rec_ctc_loss,CTCLoss
+
+Optimizer:
+  function: ppocr.optimizer,AdamDecay
+  l2_decay: 0.00001
+  base_lr: 0.001
+  beta1: 0.9
+  beta2: 0.999
+  decay:
+    function: cosine_decay_warmup
+    warmup_minibatch: 1000
+    step_each_epoch: 6530
+    total_epoch: 500
--- a/configs/rec/multi_languages/rec_en_reader.yml
+++ b/configs/rec/multi_languages/rec_en_reader.yml
@ -0,0 +1,13 @@
+TrainReader:
+  reader_function: ppocr.data.rec.dataset_traversal,SimpleReader
+  num_workers: 8
+  img_set_dir: ./train_data
+  label_file_path: ./train_data/en_train.txt
+  
+EvalReader:
+  reader_function: ppocr.data.rec.dataset_traversal,SimpleReader
+  img_set_dir: ./train_data
+  label_file_path: ./train_data/en_eval.txt
+
+TestReader:
+  reader_function: ppocr.data.rec.dataset_traversal,SimpleReader
--- a/configs/rec/multi_languages/rec_french_lite_train.yml
+++ b/configs/rec/multi_languages/rec_french_lite_train.yml
@ -0,0 +1,52 @@
+Global:
+  algorithm: CRNN
+  use_gpu: true
+  epoch_num: 500
+  log_smooth_window: 20
+  print_batch_step: 10
+  save_model_dir: ./output/rec_french
+  save_epoch_step: 1
+  eval_batch_step: 2000
+  train_batch_size_per_card: 256
+  test_batch_size_per_card: 256
+  image_shape: [3, 32, 320]
+  max_text_length: 25
+  character_type: french
+  character_dict_path: ./ppocr/utils/french_dict.txt
+  loss_type: ctc
+  distort: true
+  use_space_char: false
+  reader_yml: ./configs/rec/rec_french_reader.yml
+  pretrain_weights:
+  checkpoints:
+  save_inference_dir:
+  infer_img:
+
+Architecture:
+  function: ppocr.modeling.architectures.rec_model,RecModel
+
+Backbone:
+  function: ppocr.modeling.backbones.rec_mobilenet_v3,MobileNetV3
+  scale: 0.5
+  model_name: small
+  small_stride: [1, 2, 2, 2]
+
+Head:
+  function: ppocr.modeling.heads.rec_ctc_head,CTCPredict
+  encoder_type: rnn
+  SeqRNN:
+    hidden_size: 48
+    
+Loss:
+  function: ppocr.modeling.losses.rec_ctc_loss,CTCLoss
+
+Optimizer:
+  function: ppocr.optimizer,AdamDecay
+  l2_decay: 0.00001
+  base_lr: 0.001
+  beta1: 0.9
+  beta2: 0.999
+  decay:
+    function: cosine_decay
+    step_each_epoch: 254
+    total_epoch: 500
--- a/configs/rec/multi_languages/rec_french_reader.yml
+++ b/configs/rec/multi_languages/rec_french_reader.yml
@ -0,0 +1,13 @@
+TrainReader:
+  reader_function: ppocr.data.rec.dataset_traversal,SimpleReader
+  num_workers: 8
+  img_set_dir: ./train_data
+  label_file_path: ./train_data/french_train.txt
+  
+EvalReader:
+  reader_function: ppocr.data.rec.dataset_traversal,SimpleReader
+  img_set_dir: ./train_data
+  label_file_path: ./train_data/french_eval.txt
+
+TestReader:
+  reader_function: ppocr.data.rec.dataset_traversal,SimpleReader
--- a/configs/rec/multi_languages/rec_ger_lite_train.yml
+++ b/configs/rec/multi_languages/rec_ger_lite_train.yml
@ -0,0 +1,52 @@
+Global:
+  algorithm: CRNN
+  use_gpu: true
+  epoch_num: 500
+  log_smooth_window: 20
+  print_batch_step: 10
+  save_model_dir: ./output/rec_german
+  save_epoch_step: 1
+  eval_batch_step: 2000
+  train_batch_size_per_card: 256
+  test_batch_size_per_card: 256
+  image_shape: [3, 32, 320]
+  max_text_length: 25
+  character_type: german
+  character_dict_path: ./ppocr/utils/german_dict.txt
+  loss_type: ctc
+  distort: true
+  use_space_char: false
+  reader_yml: ./configs/rec/rec_ger_reader.yml
+  pretrain_weights:
+  checkpoints:
+  save_inference_dir:
+  infer_img:
+
+Architecture:
+  function: ppocr.modeling.architectures.rec_model,RecModel
+
+Backbone:
+  function: ppocr.modeling.backbones.rec_mobilenet_v3,MobileNetV3
+  scale: 0.5
+  model_name: small
+  small_stride: [1, 2, 2, 2]
+
+Head:
+  function: ppocr.modeling.heads.rec_ctc_head,CTCPredict
+  encoder_type: rnn
+  SeqRNN:
+    hidden_size: 48
+    
+Loss:
+  function: ppocr.modeling.losses.rec_ctc_loss,CTCLoss
+
+Optimizer:
+  function: ppocr.optimizer,AdamDecay
+  l2_decay: 0.00001
+  base_lr: 0.001
+  beta1: 0.9
+  beta2: 0.999
+  decay:
+    function: cosine_decay
+    step_each_epoch: 254
+    total_epoch: 500
--- a/configs/rec/multi_languages/rec_ger_reader.yml
+++ b/configs/rec/multi_languages/rec_ger_reader.yml
@ -0,0 +1,13 @@
+TrainReader:
+  reader_function: ppocr.data.rec.dataset_traversal,SimpleReader
+  num_workers: 8
+  img_set_dir: ./train_data
+  label_file_path: ./train_data/de_train.txt
+  
+EvalReader:
+  reader_function: ppocr.data.rec.dataset_traversal,SimpleReader
+  img_set_dir: ./train_data
+  label_file_path: ./train_data/de_eval.txt
+
+TestReader:
+      reader_function: ppocr.data.rec.dataset_traversal,SimpleReader
--- a/configs/rec/multi_languages/rec_japan_lite_train.yml
+++ b/configs/rec/multi_languages/rec_japan_lite_train.yml
@ -0,0 +1,52 @@
+Global:
+  algorithm: CRNN
+  use_gpu: true
+  epoch_num: 500
+  log_smooth_window: 20
+  print_batch_step: 10
+  save_model_dir: ./output/rec_japan
+  save_epoch_step: 1
+  eval_batch_step: 2000
+  train_batch_size_per_card: 256
+  test_batch_size_per_card: 256
+  image_shape: [3, 32, 320]
+  max_text_length: 25
+  character_type: japan
+  character_dict_path: ./ppocr/utils/japan_dict.txt
+  loss_type: ctc
+  distort: true
+  use_space_char: false
+  reader_yml: ./configs/rec/rec_japan_reader.yml
+  pretrain_weights:
+  checkpoints:
+  save_inference_dir:
+  infer_img:
+
+Architecture:
+  function: ppocr.modeling.architectures.rec_model,RecModel
+
+Backbone:
+  function: ppocr.modeling.backbones.rec_mobilenet_v3,MobileNetV3
+  scale: 0.5
+  model_name: small
+  small_stride: [1, 2, 2, 2]
+
+Head:
+  function: ppocr.modeling.heads.rec_ctc_head,CTCPredict
+  encoder_type: rnn
+  SeqRNN:
+    hidden_size: 48
+    
+Loss:
+  function: ppocr.modeling.losses.rec_ctc_loss,CTCLoss
+
+Optimizer:
+  function: ppocr.optimizer,AdamDecay
+  l2_decay: 0.00001
+  base_lr: 0.001
+  beta1: 0.9
+  beta2: 0.999
+  decay:
+    function: cosine_decay
+    step_each_epoch: 254
+    total_epoch: 500
--- a/configs/rec/multi_languages/rec_japan_reader.yml
+++ b/configs/rec/multi_languages/rec_japan_reader.yml
@ -0,0 +1,13 @@
+TrainReader:
+  reader_function: ppocr.data.rec.dataset_traversal,SimpleReader
+  num_workers: 8
+  img_set_dir: ./train_data
+  label_file_path: ./train_data/japan_train.txt
+  
+EvalReader:
+  reader_function: ppocr.data.rec.dataset_traversal,SimpleReader
+  img_set_dir: ./train_data
+  label_file_path: ./train_data/japan_eval.txt
+
+TestReader:
+      reader_function: ppocr.data.rec.dataset_traversal,SimpleReader
--- a/configs/rec/multi_languages/rec_korean_lite_train.yml
+++ b/configs/rec/multi_languages/rec_korean_lite_train.yml
@ -0,0 +1,52 @@
+Global:
+  algorithm: CRNN
+  use_gpu: true
+  epoch_num: 500
+  log_smooth_window: 20
+  print_batch_step: 10
+  save_model_dir: ./output/rec_korean
+  save_epoch_step: 1
+  eval_batch_step: 2000
+  train_batch_size_per_card: 256
+  test_batch_size_per_card: 256
+  image_shape: [3, 32, 320]
+  max_text_length: 25
+  character_type: korean
+  character_dict_path: ./ppocr/utils/korean_dict.txt
+  loss_type: ctc
+  distort: true
+  use_space_char: false
+  reader_yml: ./configs/rec/rec_korean_reader.yml
+  pretrain_weights:
+  checkpoints:
+  save_inference_dir:
+  infer_img:
+
+Architecture:
+  function: ppocr.modeling.architectures.rec_model,RecModel
+
+Backbone:
+  function: ppocr.modeling.backbones.rec_mobilenet_v3,MobileNetV3
+  scale: 0.5
+  model_name: small
+  small_stride: [1, 2, 2, 2]
+
+Head:
+  function: ppocr.modeling.heads.rec_ctc_head,CTCPredict
+  encoder_type: rnn
+  SeqRNN:
+    hidden_size: 48
+    
+Loss:
+  function: ppocr.modeling.losses.rec_ctc_loss,CTCLoss
+
+Optimizer:
+  function: ppocr.optimizer,AdamDecay
+  l2_decay: 0.00001
+  base_lr: 0.001
+  beta1: 0.9
+  beta2: 0.999
+  decay:
+    function: cosine_decay
+    step_each_epoch: 254
+    total_epoch: 500
--- a/configs/rec/multi_languages/rec_korean_reader.yml
+++ b/configs/rec/multi_languages/rec_korean_reader.yml
@ -0,0 +1,13 @@
+TrainReader:
+  reader_function: ppocr.data.rec.dataset_traversal,SimpleReader
+  num_workers: 8
+  img_set_dir: ./train_data
+  label_file_path: ./train_data/korean_train.txt
+  
+EvalReader:
+  reader_function: ppocr.data.rec.dataset_traversal,SimpleReader
+  img_set_dir: ./train_data
+  label_file_path: ./train_data/korean_eval.txt
+
+TestReader:
+      reader_function: ppocr.data.rec.dataset_traversal,SimpleReader
--- a/ppocr/utils/character.py
+++ b/ppocr/utils/character.py
@ -29,7 +29,9 @@ class CharacterOps(object):
        if self.character_type == "en":
            self.character_str = "0123456789abcdefghijklmnopqrstuvwxyz"
            dict_character = list(self.character_str)
-        elif self.character_type == "ch":
+        elif self.character_type in [
+                "ch", 'japan', 'korean', 'french', 'german'
+        ]:
            character_dict_path = config['character_dict_path']
            add_space = False
            if 'use_space_char' in config:
@ -166,7 +168,7 @@ def cal_predicts_accuracy_srn(char_ops,
        cur_label = []
        cur_pred = []
        for j in range(max_text_len):
-            if labels[j + i * max_text_len] != int(char_num-1):  #0
+            if labels[j + i * max_text_len] != int(char_num - 1):  #0
                cur_label.append(labels[j + i * max_text_len][0])
            else:
                break
@ -178,7 +180,8 @@ def cal_predicts_accuracy_srn(char_ops,
            elif j == len(cur_label) and j == max_text_len:
                acc_num += 1
                break
-            elif j == len(cur_label) and preds[j + i * max_text_len][0] == int(char_num-1):
+            elif j == len(cur_label) and preds[j + i * max_text_len][0] == int(
+                    char_num - 1):
                acc_num += 1
                break
    acc = acc_num * 1.0 / img_num
--- a/ppocr/utils/french_dict.txt
+++ b/ppocr/utils/french_dict.txt
@ -0,0 +1,118 @@
+!
+"
+%
+&
+'
+(
+)
+
+,
+-
+.
+/
+0
+1
+2
+3
+4
+5
+6
+7
+8
+9
+:
+;
+?
+A
+B
+C
+D
+E
+F
+G
+H
+I
+J
+K
+L
+M
+N
+O
+P
+Q
+R
+S
+T
+U
+V
+W
+X
+Y
+Z
+[
+]
+a
+b
+c
+d
+e
+f
+g
+h
+i
+j
+k
+l
+m
+n
+o
+p
+q
+r
+s
+t
+u
+v
+w
+x
+y
+z
+«
+³
+µ
+º
+»
+À
+Á
+Â
+Å
+É
+Ê
+Î
+Ö
+ß
+à
+á
+â
+ä
+å
+æ
+ç
+è
+é
+ê
+ë
+í
+î
+ï
+ñ
+ò
+ó
+ô
+ö
+ø
+ù
+ú
+û
+ü
+ 
--- a/ppocr/utils/german_dict.txt
+++ b/ppocr/utils/german_dict.txt
@ -0,0 +1,131 @@
+!
+"
+$
+%
+&
+'
+(
+)
+
+,
+-
+.
+/
+0
+1
+2
+3
+4
+5
+6
+7
+8
+9
+:
+;
+>
+?
+A
+B
+C
+D
+E
+F
+G
+H
+I
+J
+K
+L
+M
+N
+O
+P
+Q
+R
+S
+T
+U
+V
+W
+X
+Y
+Z
+[
+]
+a
+b
+c
+d
+e
+f
+g
+h
+i
+j
+k
+l
+m
+n
+o
+p
+q
+r
+s
+t
+u
+v
+w
+x
+y
+z
+£
+§
+
+²
+´
+µ
+·
+º
+¼
+½
+¿
+À
+Á
+Ä
+Å
+Ç
+É
+Í
+Ï
+Ô
+Ö
+Ø
+Ù
+Ü
+ß
+à
+á
+â
+ã
+ä
+å
+æ
+ç
+è
+é
+ê
+ë
+í
+ï
+ñ
+ò
+ó
+ô
+ö
+ø
+ù
+ú
+û
+ü
+ 
--- a/ppocr/utils/ic15_dict.txt
+++ b/ppocr/utils/ic15_dict.txt
@ -34,3 +34,30 @@ w
 x
 y
 z
+A
+B
+C
+D
+E
+F
+G
+H
+I
+J
+K
+L
+M
+N
+O
+P
+Q
+R
+S
+T
+U
+V
+W
+X
+Y
+Z
+ 
--- a/ppocr/utils/japan_dict.txt
+++ b/ppocr/utils/japan_dict.txt
--- a/ppocr/utils/korean_dict.txt
+++ b/ppocr/utils/korean_dict.txt
--- a/tools/infer/utility.py
+++ b/tools/infer/utility.py
@ -70,7 +70,7 @@ def parse_args():
        "--rec_char_dict_path",
        type=str,
        default="./ppocr/utils/ppocr_keys_v1.txt")
-    parser.add_argument("--use_space_char", type=bool, default=True)
+    parser.add_argument("--use_space_char", type=str2bool, default=True)

    # params for text classifier
    parser.add_argument("--use_angle_cls", type=str2bool, default=False)