Go to file
leo de01dad9e3 Update .gitignore 2019-08-20 21:36:40 +08:00
.github init 2019-08-20 21:25:34 +08:00
data init 2019-08-20 21:25:34 +08:00
deepke init 2019-08-20 21:25:34 +08:00
images init 2019-08-20 21:25:34 +08:00
.gitignore Update .gitignore 2019-08-20 21:36:40 +08:00
LICENSE init 2019-08-20 21:25:34 +08:00
README.md init 2019-08-20 21:25:34 +08:00
main.py init 2019-08-20 21:25:34 +08:00
requirements.txt init 2019-08-20 21:25:34 +08:00

README.md

Deepke

deepke 是基于 Pytorch 的中文关系抽取处理套件。

环境依赖:

  • python >= 3.6
  • torch >=1.0
  • jieba >= 0.39
  • scikit_learn >= 0.21
  • pytorch_transformers>=1.0

主要目录

├── checkpoints          # 保存训练后的模型参数
├── data                 # 数据目录
│ ├── origin             # 训练使用的原始数据集
│   ├── train.csv        # 训练数据集
│   ├── test.csv         # 测试数据集
│   ├── relation.txt     # 关系种类
├── model                # 模型目录
│ ├── __init__.py
│ ├── BasicModule.py     # 模型基本配置
│ ├── Embedding.py       # Embeddding 模块
│ ├── CNN.py             # CNN & PCNN 模型
│ ├── BiLSTM.py          # BiLSTM 模型
│ ├── Transformer.py     # Transformer 模型
│ ├── Capsule.py         # Capsule 模型
│ ├── Bert.py            # 语言预训练 模型
├── src
│ ├── config.py          # 配置文件
│ ├── vocab.py           # 词汇表构建函数
│ ├── process.py         # 训练前预处理数据
│ ├── dataset.py         # 训练时批处理输入数据
│ ├── trainer.py         # 训练迭代函数
│ ├── utils.py           # 工具函数
├── main.py              # 主入口文件
├── README.md            # read me 文件

快速开始

数据为 csv 文件,样式范例为:

sentence relation head head_type head_offset tail tail_type tail_offset
谢万松字树人湖北省武汉市人武汉钢铁集团公司联合焦化公司退体职工生于1940年 出生地 谢万松 人物 0 湖北省武汉市 地点 8
《娘家的故事第二部》是张玲执导,林在培、何赛飞等主演的电视剧 导演 娘家的故事第二部 影视作品 1 张玲 人物 11
九玄珠是在纵横中文网连载的一部小说,作者是龙马 连载网站 九玄珠 网络小说 0 纵横中文网 网站 5
个人简介梁信强2010年广州亚运会中国澳门代表团成员 国籍 梁信强 人物 4 中国 国家 20
  • 安装依赖: pip install -r requirements.txt

  • 存放数据:在 data/origin 文件夹下存放训练数据。训练文件主要有三个文件。

    • train.csv:存放训练数据集

    • valid.csv:存放验证数据集

    • relation.txt:存放关系种类

  • 开始训练python main.py

  • 每次训练的结果会保存在 checkpoints 文件夹下,格式为:{model_name}_{epoch}_{time}.pth

具体介绍

wiki