PaddleOCR/ppocr/data/imaug/label_ops.py

# copyright (c) 2020 PaddlePaddle Authors. All Rights Reserve.
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#    http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

from __future__ import absolute_import
from __future__ import division
from __future__ import print_function
from __future__ import unicode_literals

import numpy as np
import string


class ClsLabelEncode(object):
    def __init__(self, label_list, **kwargs):
        self.label_list = label_list

    def __call__(self, data):
        label = data['label']
        if label not in self.label_list:
            return None
        label = self.label_list.index(label)
        data['label'] = label
        return data


class DetLabelEncode(object):
    def __init__(self, **kwargs):
        pass

    def __call__(self, data):
        import json
        label = data['label']
        label = json.loads(label)
        nBox = len(label)
        boxes, txts, txt_tags = [], [], []
        for bno in range(0, nBox):
            box = label[bno]['points']
            txt = label[bno]['transcription']
            boxes.append(box)
            txts.append(txt)
            if txt in ['*', '###']:
                txt_tags.append(True)
            else:
                txt_tags.append(False)
        boxes = self.expand_points_num(boxes)
        boxes = np.array(boxes, dtype=np.float32)
        txt_tags = np.array(txt_tags, dtype=np.bool)

        data['polys'] = boxes
        data['texts'] = txts
        data['ignore_tags'] = txt_tags
        return data

    def order_points_clockwise(self, pts):
        rect = np.zeros((4, 2), dtype="float32")
        s = pts.sum(axis=1)
        rect[0] = pts[np.argmin(s)]
        rect[2] = pts[np.argmax(s)]
        diff = np.diff(pts, axis=1)
        rect[1] = pts[np.argmin(diff)]
        rect[3] = pts[np.argmax(diff)]
        return rect

    def expand_points_num(self, boxes):
        max_points_num = 0
        for box in boxes:
            if len(box) > max_points_num:
                max_points_num = len(box)
        ex_boxes = []
        for box in boxes:
            ex_box = box + [box[-1]] * (max_points_num - len(box))
            ex_boxes.append(ex_box)
        return ex_boxes


class BaseRecLabelEncode(object):
    """ Convert between text-label and text-index """

    def __init__(self,
                 max_text_length,
                 character_dict_path=None,
                 character_type='ch',
                 use_space_char=False):
        support_character_type = [
            'ch', 'en', 'EN_symbol', 'french', 'german', 'japan', 'korean',
            'EN', 'it', 'xi', 'pu', 'ru', 'ar', 'ta', 'ug', 'fa', 'ur', 'rs',
            'oc', 'rsc', 'bg', 'uk', 'be', 'te', 'ka', 'chinese_cht', 'hi',
            'mr', 'ne'
        ]
        assert character_type in support_character_type, "Only {} are supported now but get {}".format(
            support_character_type, character_type)

        self.max_text_len = max_text_length
        self.beg_str = "sos"
        self.end_str = "eos"
        if character_type == "en":
            self.character_str = "0123456789abcdefghijklmnopqrstuvwxyz"
            dict_character = list(self.character_str)
        elif character_type == "EN_symbol":
            # same with ASTER setting (use 94 char).
            self.character_str = string.printable[:-6]
            dict_character = list(self.character_str)
        elif character_type in support_character_type:
            self.character_str = ""
            assert character_dict_path is not None, "character_dict_path should not be None when character_type is {}".format(
                character_type)
            with open(character_dict_path, "rb") as fin:
                lines = fin.readlines()
                for line in lines:
                    line = line.decode('utf-8').strip("\n").strip("\r\n")
                    self.character_str += line
            if use_space_char:
                self.character_str += " "
            dict_character = list(self.character_str)
        self.character_type = character_type
        dict_character = self.add_special_char(dict_character)
        self.dict = {}
        for i, char in enumerate(dict_character):
            self.dict[char] = i
        self.character = dict_character

    def add_special_char(self, dict_character):
        return dict_character

    def encode(self, text):
        """convert text-label into text-index.
        input:
            text: text labels of each image. [batch_size]

        output:
            text: concatenated text index for CTCLoss.
                    [sum(text_lengths)] = [text_index_0 + text_index_1 + ... + text_index_(n - 1)]
            length: length of each text. [batch_size]
        """
        if len(text) == 0 or len(text) > self.max_text_len:
            return None
        if self.character_type == "en":
            text = text.lower()
        text_list = []
        for char in text:
            if char not in self.dict:
                # logger = get_logger()
                # logger.warning('{} is not in dict'.format(char))
                continue
            text_list.append(self.dict[char])
        if len(text_list) == 0:
            return None
        return text_list


class CTCLabelEncode(BaseRecLabelEncode):
    """ Convert between text-label and text-index """

    def __init__(self,
                 max_text_length,
                 character_dict_path=None,
                 character_type='ch',
                 use_space_char=False,
                 **kwargs):
        super(CTCLabelEncode,
              self).__init__(max_text_length, character_dict_path,
                             character_type, use_space_char)

    def __call__(self, data):
        text = data['label']
        text = self.encode(text)
        if text is None:
            return None
        data['length'] = np.array(len(text))
        text = text + [0] * (self.max_text_len - len(text))
        data['label'] = np.array(text)
        return data

    def add_special_char(self, dict_character):
        dict_character = ['blank'] + dict_character
        return dict_character


class AttnLabelEncode(BaseRecLabelEncode):
    """ Convert between text-label and text-index """

    def __init__(self,
                 max_text_length,
                 character_dict_path=None,
                 character_type='ch',
                 use_space_char=False,
                 **kwargs):
        super(AttnLabelEncode,
              self).__init__(max_text_length, character_dict_path,
                             character_type, use_space_char)

    def add_special_char(self, dict_character):
        self.beg_str = "sos"
        self.end_str = "eos"
        dict_character = [self.beg_str] + dict_character + [self.end_str]
        return dict_character

    def __call__(self, data):
        text = data['label']
        text = self.encode(text)
        if text is None:
            return None
        if len(text) >= self.max_text_len:
            return None
        data['length'] = np.array(len(text))
        text = [0] + text + [len(self.character) - 1] + [0] * (self.max_text_len
                                                               - len(text) - 1)
        data['label'] = np.array(text)
        return data

    def get_ignored_tokens(self):
        beg_idx = self.get_beg_end_flag_idx("beg")
        end_idx = self.get_beg_end_flag_idx("end")
        return [beg_idx, end_idx]

    def get_beg_end_flag_idx(self, beg_or_end):
        if beg_or_end == "beg":
            idx = np.array(self.dict[self.beg_str])
        elif beg_or_end == "end":
            idx = np.array(self.dict[self.end_str])
        else:
            assert False, "Unsupport type %s in get_beg_end_flag_idx" \
                          % beg_or_end
        return idx


class SRNLabelEncode(BaseRecLabelEncode):
    """ Convert between text-label and text-index """

    def __init__(self,
                 max_text_length=25,
                 character_dict_path=None,
                 character_type='en',
                 use_space_char=False,
                 **kwargs):
        super(SRNLabelEncode,
              self).__init__(max_text_length, character_dict_path,
                             character_type, use_space_char)

    def add_special_char(self, dict_character):
        dict_character = dict_character + [self.beg_str, self.end_str]
        return dict_character

    def __call__(self, data):
        text = data['label']
        text = self.encode(text)
        char_num = len(self.character)
        if text is None:
            return None
        if len(text) > self.max_text_len:
            return None
        data['length'] = np.array(len(text))
        text = text + [char_num] * (self.max_text_len - len(text))
        data['label'] = np.array(text)
        return data

    def get_ignored_tokens(self):
        beg_idx = self.get_beg_end_flag_idx("beg")
        end_idx = self.get_beg_end_flag_idx("end")
        return [beg_idx, end_idx]

    def get_beg_end_flag_idx(self, beg_or_end):
        if beg_or_end == "beg":
            idx = np.array(self.dict[self.beg_str])
        elif beg_or_end == "end":
            idx = np.array(self.dict[self.end_str])
        else:
            assert False, "Unsupport type %s in get_beg_end_flag_idx" \
                          % beg_or_end
        return idx
dygraph first commit 2020-10-13 17:13:33 +08:00			`# copyright (c) 2020 PaddlePaddle Authors. All Rights Reserve.`
			`#`
			`# Licensed under the Apache License, Version 2.0 (the "License");`
			`# you may not use this file except in compliance with the License.`
			`# You may obtain a copy of the License at`
			`#`
			`# http://www.apache.org/licenses/LICENSE-2.0`
			`#`
			`# Unless required by applicable law or agreed to in writing, software`
			`# distributed under the License is distributed on an "AS IS" BASIS,`
			`# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.`
			`# See the License for the specific language governing permissions and`
			`# limitations under the License.`

			`from __future__ import absolute_import`
			`from __future__ import division`
			`from __future__ import print_function`
			`from __future__ import unicode_literals`

			`import numpy as np`
rename en_sensitive EN_symbol 2021-01-26 15:53:49 +08:00			`import string`
添加方向分类器 2020-11-17 12:54:24 +08:00

			`class ClsLabelEncode(object):`
			`def __init__(self, label_list, **kwargs):`
			`self.label_list = label_list`

			`def __call__(self, data):`
			`label = data['label']`
			`if label not in self.label_list:`
			`return None`
			`label = self.label_list.index(label)`
			`data['label'] = label`
			`return data`
dygraph first commit 2020-10-13 17:13:33 +08:00

			`class DetLabelEncode(object):`
			`def __init__(self, **kwargs):`
			`pass`

			`def __call__(self, data):`
			`import json`
			`label = data['label']`
			`label = json.loads(label)`
			`nBox = len(label)`
			`boxes, txts, txt_tags = [], [], []`
			`for bno in range(0, nBox):`
			`box = label[bno]['points']`
			`txt = label[bno]['transcription']`
			`boxes.append(box)`
			`txts.append(txt)`
			`if txt in ['*', '###']:`
			`txt_tags.append(True)`
			`else:`
			`txt_tags.append(False)`
add east & sast 2020-12-09 14:45:25 +08:00			`boxes = self.expand_points_num(boxes)`
dygraph first commit 2020-10-13 17:13:33 +08:00			`boxes = np.array(boxes, dtype=np.float32)`
			`txt_tags = np.array(txt_tags, dtype=np.bool)`

			`data['polys'] = boxes`
			`data['texts'] = txts`
			`data['ignore_tags'] = txt_tags`
			`return data`

			`def order_points_clockwise(self, pts):`
			`rect = np.zeros((4, 2), dtype="float32")`
			`s = pts.sum(axis=1)`
			`rect[0] = pts[np.argmin(s)]`
			`rect[2] = pts[np.argmax(s)]`
			`diff = np.diff(pts, axis=1)`
			`rect[1] = pts[np.argmin(diff)]`
			`rect[3] = pts[np.argmax(diff)]`
			`return rect`

add east & sast 2020-12-09 14:45:25 +08:00			`def expand_points_num(self, boxes):`
			`max_points_num = 0`
			`for box in boxes:`
			`if len(box) > max_points_num:`
			`max_points_num = len(box)`
			`ex_boxes = []`
			`for box in boxes:`
			`ex_box = box + [box[-1]] * (max_points_num - len(box))`
			`ex_boxes.append(ex_box)`
			`return ex_boxes`

dygraph first commit 2020-10-13 17:13:33 +08:00
			`class BaseRecLabelEncode(object):`
			`""" Convert between text-label and text-index """`

			`def __init__(self,`
			`max_text_length,`
			`character_dict_path=None,`
			`character_type='ch',`
			`use_space_char=False):`
add east & sast 2020-12-09 14:45:25 +08:00			`support_character_type = [`
rename en_sensitive EN_symbol 2021-01-26 15:53:49 +08:00			`'ch', 'en', 'EN_symbol', 'french', 'german', 'japan', 'korean',`
			`'EN', 'it', 'xi', 'pu', 'ru', 'ar', 'ta', 'ug', 'fa', 'ur', 'rs',`
polish code 2021-01-26 15:24:13 +08:00			`'oc', 'rsc', 'bg', 'uk', 'be', 'te', 'ka', 'chinese_cht', 'hi',`
			`'mr', 'ne'`
add east & sast 2020-12-09 14:45:25 +08:00			`]`
dygraph first commit 2020-10-13 17:13:33 +08:00			`assert character_type in support_character_type, "Only {} are supported now but get {}".format(`
fix character_type 2020-12-09 16:48:27 +08:00			`support_character_type, character_type)`
dygraph first commit 2020-10-13 17:13:33 +08:00
			`self.max_text_len = max_text_length`
add srn for dygraph 2020-12-30 16:15:49 +08:00			`self.beg_str = "sos"`
			`self.end_str = "eos"`
dygraph first commit 2020-10-13 17:13:33 +08:00			`if character_type == "en":`
			`self.character_str = "0123456789abcdefghijklmnopqrstuvwxyz"`
			`dict_character = list(self.character_str)`
rename en_sensitive EN_symbol 2021-01-26 15:53:49 +08:00			`elif character_type == "EN_symbol":`
polish code 2021-01-26 15:24:13 +08:00			`# same with ASTER setting (use 94 char).`
			`self.character_str = string.printable[:-6]`
			`dict_character = list(self.character_str)`
			`elif character_type in support_character_type:`
dygraph first commit 2020-10-13 17:13:33 +08:00			`self.character_str = ""`
polish code 2021-01-26 15:24:13 +08:00			`assert character_dict_path is not None, "character_dict_path should not be None when character_type is {}".format(`
			`character_type)`
dygraph first commit 2020-10-13 17:13:33 +08:00			`with open(character_dict_path, "rb") as fin:`
			`lines = fin.readlines()`
			`for line in lines:`
			`line = line.decode('utf-8').strip("\n").strip("\r\n")`
			`self.character_str += line`
			`if use_space_char:`
			`self.character_str += " "`
			`dict_character = list(self.character_str)`
			`self.character_type = character_type`
			`dict_character = self.add_special_char(dict_character)`
			`self.dict = {}`
			`for i, char in enumerate(dict_character):`
			`self.dict[char] = i`
			`self.character = dict_character`

			`def add_special_char(self, dict_character):`
			`return dict_character`

			`def encode(self, text):`
			`"""convert text-label into text-index.`
			`input:`
			`text: text labels of each image. [batch_size]`

			`output:`
			`text: concatenated text index for CTCLoss.`
			`[sum(text_lengths)] = [text_index_0 + text_index_1 + ... + text_index_(n - 1)]`
			`length: length of each text. [batch_size]`
			`"""`
Remove redundant functions 2020-11-27 15:30:31 +08:00			`if len(text) == 0 or len(text) > self.max_text_len:`
dygraph first commit 2020-10-13 17:13:33 +08:00			`return None`
			`if self.character_type == "en":`
			`text = text.lower()`
			`text_list = []`
			`for char in text:`
			`if char not in self.dict:`
			`# logger = get_logger()`
			`# logger.warning('{} is not in dict'.format(char))`
			`continue`
			`text_list.append(self.dict[char])`
			`if len(text_list) == 0:`
			`return None`
			`return text_list`


			`class CTCLabelEncode(BaseRecLabelEncode):`
			`""" Convert between text-label and text-index """`

			`def __init__(self,`
			`max_text_length,`
			`character_dict_path=None,`
			`character_type='ch',`
			`use_space_char=False,`
			`**kwargs):`
			`super(CTCLabelEncode,`
			`self).__init__(max_text_length, character_dict_path,`
			`character_type, use_space_char)`

			`def __call__(self, data):`
			`text = data['label']`
			`text = self.encode(text)`
			`if text is None:`
			`return None`
			`data['length'] = np.array(len(text))`
			`text = text + [0] * (self.max_text_len - len(text))`
			`data['label'] = np.array(text)`
			`return data`

			`def add_special_char(self, dict_character):`
			`dict_character = ['blank'] + dict_character`
			`return dict_character`


			`class AttnLabelEncode(BaseRecLabelEncode):`
			`""" Convert between text-label and text-index """`

			`def __init__(self,`
			`max_text_length,`
			`character_dict_path=None,`
			`character_type='ch',`
			`use_space_char=False,`
			`**kwargs):`
			`super(AttnLabelEncode,`
			`self).__init__(max_text_length, character_dict_path,`
			`character_type, use_space_char)`

			`def add_special_char(self, dict_character):`
upload rare code 2021-01-29 11:15:03 +08:00			`self.beg_str = "sos"`
			`self.end_str = "eos"`
			`dict_character = [self.beg_str] + dict_character + [self.end_str]`
dygraph first commit 2020-10-13 17:13:33 +08:00			`return dict_character`

upload rare code 2021-01-29 11:15:03 +08:00			`def __call__(self, data):`
			`text = data['label']`
dygraph first commit 2020-10-13 17:13:33 +08:00			`text = self.encode(text)`
upload rare code 2021-01-29 11:15:03 +08:00			`if text is None:`
			`return None`
fix comment 2021-02-01 14:44:04 +08:00			`if len(text) >= self.max_text_len:`
upload rare code 2021-01-29 11:15:03 +08:00			`return None`
			`data['length'] = np.array(len(text))`
			`text = [0] + text + [len(self.character) - 1] + [0] * (self.max_text_len`
			`- len(text) - 1)`
			`data['label'] = np.array(text)`
			`return data`

			`def get_ignored_tokens(self):`
			`beg_idx = self.get_beg_end_flag_idx("beg")`
			`end_idx = self.get_beg_end_flag_idx("end")`
			`return [beg_idx, end_idx]`
dygraph first commit 2020-10-13 17:13:33 +08:00
			`def get_beg_end_flag_idx(self, beg_or_end):`
			`if beg_or_end == "beg":`
			`idx = np.array(self.dict[self.beg_str])`
			`elif beg_or_end == "end":`
			`idx = np.array(self.dict[self.end_str])`
			`else:`
			`assert False, "Unsupport type %s in get_beg_end_flag_idx" \`
			`% beg_or_end`
			`return idx`
add srn for dygraph 2020-12-30 16:15:49 +08:00

			`class SRNLabelEncode(BaseRecLabelEncode):`
			`""" Convert between text-label and text-index """`

			`def __init__(self,`
			`max_text_length=25,`
			`character_dict_path=None,`
			`character_type='en',`
			`use_space_char=False,`
			`**kwargs):`
			`super(SRNLabelEncode,`
			`self).__init__(max_text_length, character_dict_path,`
			`character_type, use_space_char)`

			`def add_special_char(self, dict_character):`
			`dict_character = dict_character + [self.beg_str, self.end_str]`
			`return dict_character`

			`def __call__(self, data):`
			`text = data['label']`
			`text = self.encode(text)`
fix typo 2021-02-03 16:26:46 +08:00			`char_num = len(self.character)`
add srn for dygraph 2020-12-30 16:15:49 +08:00			`if text is None:`
			`return None`
			`if len(text) > self.max_text_len:`
			`return None`
			`data['length'] = np.array(len(text))`
			`text = text + [char_num] * (self.max_text_len - len(text))`
			`data['label'] = np.array(text)`
			`return data`

			`def get_ignored_tokens(self):`
			`beg_idx = self.get_beg_end_flag_idx("beg")`
			`end_idx = self.get_beg_end_flag_idx("end")`
			`return [beg_idx, end_idx]`

			`def get_beg_end_flag_idx(self, beg_or_end):`
			`if beg_or_end == "beg":`
			`idx = np.array(self.dict[self.beg_str])`
			`elif beg_or_end == "end":`
			`idx = np.array(self.dict[self.end_str])`
			`else:`
			`assert False, "Unsupport type %s in get_beg_end_flag_idx" \`
			`% beg_or_end`
			`return idx`