26 lines
665 B
YAML
26 lines
665 B
YAML
# 是否需要预处理数据
|
||
# 当数据处理参数没有变换时,不需要重新预处理
|
||
preprocess: True
|
||
|
||
# 原始数据存放位置
|
||
data_path: 'data/origin'
|
||
|
||
# 预处理后存放文件位置
|
||
out_path: 'data/out'
|
||
|
||
# 是否需要分词
|
||
chinese_split: True
|
||
|
||
# 是否需要使用实体类型替换实体词语
|
||
replace_entity_with_type: True
|
||
|
||
# 是否需要使用三元组头尾标记替换实体词语
|
||
replace_entity_with_scope: True
|
||
|
||
# vocab 构建时的最低词频控制
|
||
min_freq: 3
|
||
|
||
# 句长限制: 指句子中词语相对entity的position限制
|
||
# 如:[-30, 30],embed 时整体+31,变成[1, 61]
|
||
# 则一共62个pos token,0 留给 pad
|
||
pos_limit: 30 |