# 是否需要预处理数据 # 当数据处理参数没有变换时,不需要重新预处理 preprocess: True # 原始数据存放位置 data_path: 'data/origin' # 预处理后存放文件位置 out_path: 'data/out' # 是否需要分词 chinese_split: True # 是否需要使用实体类型替换实体词语 replace_entity_with_type: True # 是否需要使用三元组头尾标记替换实体词语 replace_entity_with_scope: True # vocab 构建时的最低词频控制 min_freq: 3 # 句长限制: 指句子中词语相对entity的position限制 # 如:[-30, 30],embed 时整体+31,变成[1, 61] # 则一共62个pos token,0 留给 pad pos_limit: 30