deepke/conf/preprocess.yaml

26 lines
665 B
YAML
Raw Normal View History

2019-12-03 18:47:25 +08:00
# 是否需要预处理数据
# 当数据处理参数没有变换时,不需要重新预处理
preprocess: True
# 原始数据存放位置
data_path: 'data/origin'
# 预处理后存放文件位置
out_path: 'data/out'
# 是否需要分词
chinese_split: True
# 是否需要使用实体类型替换实体词语
replace_entity_with_type: True
# 是否需要使用三元组头尾标记替换实体词语
replace_entity_with_scope: True
# vocab 构建时的最低词频控制
min_freq: 3
# 句长限制: 指句子中词语相对entity的position限制
# 如:[-30, 30]embed 时整体+31变成[1, 61]
# 则一共62个pos token0 留给 pad
pos_limit: 30