95 KiB
1. Common
1.11AddUUIDStop
增加UUID列
1.1.1 port
Inport:默认端口
outport:默认端口
1.1.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
column | Column | “uuid” | 无 | 是 | 你想要添加的uuid的列名 | uuid |
1.2 ConvertSchema
更换字段名称
1.2.1 Port
inport:默认端口
outport:默认端口
1.2.2 Properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
schema | Schema | “” | 无 | 是 | 需要修改的字段名称,多个列名之间用逗号隔开 | id->uuid, name-> authorname(箭头之前是旧字段,箭头之后是新字段) |
1.3 Distinct
基于指定的列名或所有列名去重
1.3.1 Port
Inport:默认端口
outport:默认端口
1.3.2 Properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
columnNames |
ColumnNames | “” | 无 | 是 | 填写要去重的列名,多个列名之间用逗号分隔,否则将删除所有列 | id,name |
1.4 DropField
删除一列或多列
1.4.1 port
Inport:默认端口
outport:默认端口
1.4.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
columnNames |
ColumnNames | “” | 有 | 是 | 填写要删除的列,多个列名之间用逗号分隔 | id,name |
1.5 ExecuteSQLStop
创建临时视图表以执行sql
1.5.1 port
Inport:默认端口
outport:默认端口
1.5.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
sql | Sql | “” | 无 | 是 | 执行的sql语句 | Select * from temp |
Viewname | ViewName | “temp” | 有 | 否 | 临时视图表的名称 | temp |
1.7 Filter
通过条件过滤
1.7.1 port
Inport:默认端口
outport:默认端口
1.7.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
condition | Condition | “” | 有 | 是 | 想要过滤的条件 | name==’zhangsan’ (name是过滤的条件字段,zhangsan是过滤的条件) |
1.8 Fork
将数据分流给不同的stop
1.8.1 port
Inport:默认端口
outport:任意端口
1.8.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
outports | OutPorts | “” | 无 | 是 | 输出端口,多端口用逗号分隔 | out1,out2,... |
1.9 Join
表连接包括完全连接、左连接、右连接和内部连接
1.9.1 port
Inport:左端口,右端口
DefaultPort:默认端口
1.9.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
joinMode | JoinMode | “” | 有 | 是 | 对于表关联,可以选择inner,left,right,full |
left |
correlationField | CorrelationField | “” | 有 | 是 | 与表关联的列(如果多个列用逗号分隔) | id,name(表之间相关联的列的名称) |
1.10 Merge
将数据合并到一个stop
1.10.1 port
Inport:任何端口
DefaultPort:默认端口
1.10.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
inports | Inports | “” | 无 | 是 | 输入端口,多端口用逗号分隔 | in1,in2,... |
1.11 MockData
模拟测试数据
1.11.1 Port
Inport:默认端口
outport:默认端口
1.11.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
schema | Schema | “” | 无 | 是 | 模拟数据的schema,schema的格式为column:columnType:isNullable。columnType可以是String/Int/Long/Float/Double/Boolean。isNullable可以为空,默认值为false | name:String,age:Int,isStudent:Boolean |
count | Count | “” | 无 | 是 | 测试数据的数量 | 10 |
1.12 Route
按自定义属性路由数据,键是端口,值是筛选器
1.12.1 port
Inport:默认端口
RoutePort:路由端口
1.12.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
1.13 SelectField
选择需要的数据列
1.13.1 port
Inport:默认端口
outport:默认端口
1.13.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
columnNames |
ColumnNames | “” | 无 | 是 | 选择所需的列,多个列用逗号分隔 | id,name |
1.14 Subtract
去除两表重复项
1.14.1 port
Inport:左端口,右端口
outport:默认端口
1.14.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
2. Data Clean
2.1 EmailClean
邮箱号清洗
2.1.1 port
Inport:默认端口
outport:默认端口
2.1.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
columName | Column Name | “” | 无 | 是 | 需要清洗的字段名,多列以逗号分隔 |
2.2 IdentityNumberClean
身份证号清洗
2.2.1 port
Inport:默认端口
outport:默认端口
2.2.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
columName | Column Name | “” | 无 | 是 | 需要清洗的字段名,多列以逗号分隔 | IdCard |
2.3 PhoneNumberClean
手机号清洗
2.3.1 port
Inport:默认端口
outport:默认端口
2.3.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
columName | COLUM_NAME | “” | 无 | 是 | 需要清洗的字段名 | phoneNumber |
2.4 TitleClean
标题清洗
2.4.1 port
Inport:默认端口
outport:默认端口
2.4.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
columName | Column Name | “” | 无 | 是 | 需要清洗的字段名,多列以逗号分隔 | Title |
2.4 ProvinceClean
省份清洗
2.4.1 port
Inport:默认端口
outport:默认端口
2.4.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
columName | Column Name | “” | 无 | 是 | 需要清洗的字段名,多列以逗号分隔 | province |
3. CSV
3.1 CsvParser
解析csv文件或文件夹
3.1.1port
inport:默认端口
outport:默认端口
3.1.2properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
csvPath | CsvPath | “” | 无 | 是 | 文件地址 | hdfs://master:9000/test/ |
header | Header | “” | 无 | 是 | 是否包含文件头信息 | true(表示有头信息,false表示没有头信息) |
delimiter | Delimiter | “” | 无 | 是 | 文件分割符号 | “,” |
schame | Schame | “” | 无 | 否 | 字段描述信息 | Id,name,... |
3.2 CsvSave
保存到csv文件
3.2.1port
inport:默认端口
outport:默认端口
3.2.2properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
csvSavePath | CsvSavePath | “” | 无 | 是 | 文件保存路径 | hdfs://master:9000/test/ |
header | Header | “” | 无 | 是 | 是否包含文件头信息 | true(表示有头信息,false表示没有头信息) |
delimiter | Delimiter | “” | 无 | 是 | 文件分割符号 | “,” |
saveMode | saveMode | “append” | 有 | 是 | 保存csv文件的模式 | append:追加 overwrite:覆盖 Ignore:如果存在则忽略 ErrorIfExists:如果已经存在数据,则将引发异常。 |
3.3 CsvStringParser
解析csv字符串
3.3.1port
inport:默认端口
outport:默认端口
3.3.2properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
str | String | “” | 无 | 是 | Csv字符串 | 1,zs 2,ls ... |
schema | Schema | “” | 无 | 否 | 字段描述信息 | Id,name |
delimiter | Delimiter | “” | 无 | 是 | 文件分割符号 | “,” |
4.ElasticSearch
4.1 PutElasticSearch
写入 ElasticSearch
4.1.1 Port
inport:默认端口
outport:默认端口
4.1.2 properties
4.2 QueryElasticSearch
从ElasticSearch 查询数据
4.2.1 Port
inport:默认端口
outport:默认端口
4.2.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
es_nodes | Es_Nodes | “” | 无 | 是 | Es的ip,多个用逗号分隔 | 127.0.0.1 |
es_port | Es_Port | 9200 | 无 | 是 | 端口号 | 9200 |
es_index | Es_Index | “” | 无 | 是 | 索引 | testdb(类比关系型数据库里的DB) |
es_type | Es_Type | “” | 无 | 是 | 类型 | user(类比关系数据库里的Table) |
jsonDSL | JsonDSL | “” | 无 | 是 | 查询语句 | {"query":{"match_all":{}}} |
5.File
5.1 GetFile
从hdfs获取文件到本地
5.1.1 port
Inport:默认端口
outport:默认端口
5.1.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
ip | IP | “” | 无 | 是 | 本地文件所在的服务器IP | master |
user | User | 无 | 是 | 本地文件所在的服务器用户 | root | |
passWord |
PassWord | 无 | 是 | 本地文件所在服务器的密码 | 123456 | |
hdfsFile |
HdfsFile | 无 | 是 | hdfs上的文件路径 | /work/test.csv | |
localPath |
LocalPath |
无 | 是 | 本地路径 | /opt/ |
5.2 PutFile
上传本地文件到hdfs
5.2.1 port
Inport:默认端口
outport:默认端口
5.2.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
ip | IP | “” | 无 | 是 | 本地文件所在的服务器IP | master |
user | User | 无 | 是 | 本地文件所在的服务器用户 | root | |
PassWord |
PassWord | 无 | 是 | 本地文件所在服务器的密码 | 123456 | |
hdfsFile |
HdfsFile | 无 | 是 | hdfs上的文件路径 | /work/test.csv | |
localPath |
LocalPath |
无 | 是 | 本地路径 | /opt/ |
5.3 RegexTextProcess
用正则表达式替换或者过滤指定列的每一个值
5.3.1 port
Inport:默认端口
outport:默认端口
5.3.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
regex | Regex | “” | 无 | 是 | 正则表达式 | 0001 |
columnName | Column_Name | 无 | 是 | 需要处理的字段名 | id | |
replaceStr | Replace_Str | 无 | 是 | 替换字符串 | 1111 |
6. ftp
6.1 loadFromFtpUrl
下载ftp服务器文件保存到 hdfs 上
6.1.1 Port
inport:默认端口
outport:默认端口
6.1.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
ftp_url | Ftp_Url | 是 | ftp的IP地址 | 128.136.0.1 | ||
port | Port | 否 | ftp的端口 | |||
username | UserName | 否 | 用户名 | |||
password | Password | 否 | 密码 | |||
ftpFile | FtpFile | 是 | ftp文件路径 | |||
HDFSUrl | HDFSUrl | 是 | Hdfs的url地址 | |||
HDFSPath | HDFSPath | / | 是 | 文件保存路径 | ||
isFile | IsFile | 是 | 是否是单个文件,如果为true,则仅下载由路径指定的单个文件。如果为false,则递归下载文件夹中的所有文件 | |||
filterByName | FilterByName | 否 | 如果选择下载整个目录,则可以使用此参数筛选需要下载的文件。 这里需要填写一个标准的Java正则表达式。例如,您需要下载以/A/目录结尾的所有文件,您可以在这里填写.*.gz。如果有多个过滤器,它们需要用逗号分隔 |
6.2 UpLoadToFtp
向ftp服务器上上传文件
6.2.1 Port
inport:默认端口
outport:默认端口
6.2.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
url_str | Url_Str | 是 | ftp的ip地址 | ||
port | Port | 是 | ftp的端口 | ||
username | UserName | 是 | 用户名 | ||
password | Password | 是 | 密码 | ||
ftpFile | FtpFile | 是 | ftp文件路径 | ||
localPath | LocalPath | / | 是 | 本地文件路径 |
7. HBase
7.1 GetHbase
从Hbase读取数据
7.2 PutHbase
将数据写入 hbase
8. Hdfs
8.1 PutHdfs
将dataFrame的数据写入 hdfs
8.1.1 Port
inport:默认端口
outport:默认端口
8.1.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
hdfsUrl | HdfsUrl | 是 | Hdfs的Url地址 | hdfs://master:8020 | ||
hdfsPath | HdfsPath | / | 是 | Hdfs的路径 | /work/test/ | |
partition | Partition | 3 | 是 | 分区,写成几个文件 | 2 | |
types | Types | csv | json,scv,parquet | 是 | 保存文件类型:Json,csv,parquet | csv |
8.2 GetHdfs
获取hdfs的数据
8.2.1 Port
inport:默认端口
outport:默认端口
8.2.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
hdfsUrl | HdfsUrl | 是 | Hdfs的Url地址 | hdfs://master:8020 | ||
hdfsPath | HdfsPath | 是 | Hdfs的路径 | /work/test/ | ||
types | Types | csv | json,scv,parquet,txt | 是 | 下载的文件类型 | csv |
8.3 ListHdfs
从hdfs检索文件列表
8.3.1 Port
inport:默认端口
outport:默认端口
8.3.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
hdfsUrl | HdfsUrl | 是 | Hdfs的Url地址 | hdfs://master:8020 | ||
hdfsPath | HdfsPath | 是 | Hdfs的路径 | /work/ |
8.4 DeleteHdfs
删除hdfs指定文件或者文件夹
8.4.1 Port
inport:默认端口
outport:默认端口
8.4.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
hdfsUrl | HdfsUrl | 无 | 是 | Hdfs的Url地址 | hdfs://master:8020 | |
hdfsPath | hdfsPath | 无 | 是 | Hdfs的路径 | /work/test/ | |
isCustomize |
IsCustomize | true | 有 | 否 | 是否自定义压缩文件路径,如果为true,则必须指定压缩文件所在的路径。如果为false,则从上游端口自动查找文件路径数据 | true |
8.5 SelectFileByName
根据名字选择文件
8.5.1 Port
inport:默认端口
outport:默认端口
8.5.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
hdfsUrl | HdfsUrl | 无 | 是 | Hdfs的Url地址 | hdfs://master:8020 | |
Hdfspath | Hdfspath | 无 | 是 | Hdfs的路径 | /work/ | |
SelectionConditions | SelectionConditions | 无 | 是 | 要选择条件,需要用java填充正则表达式 | .*.csv |
8.6 UnzipFilesOnHDFS
解压文件
8.6.1 Port
inport:默认端口
outport:默认端口
7.6.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
hdfsUrl | HdfsUrl | “” | 无 | 是 | Hdfs的Url地址 | hdfs://master:8020 |
savePath | SavePath | “” | 无 | 是 | 此参数可以指定解压文件的位置,可以选择不填写,程序默认将解压文件保存在源文件所在的文件夹中。如果填写,可以指定文件夹 | /work/test/ |
isCustomize | IsCustomize | 否 | 是否自定义压缩文件路径,如果为true,则必须指定压缩文件所在的路径。如果为false,它将自动从上游端口找到文件路径数据 | true | ||
filePath | FilePath | 否 | Hdfs的文件路径 | /work/test/test.tar.gz |
8.7FileDownHdfs
将数据从url下载到HDFS
8.6.1 Port
inport:默认端口
outport:默认端口
8.6.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
hdfsUrl | HdfsUrl | “” | 无 | 是 | Hdfs的Url地址 | hdfs://master:8020 |
hdfsPath | HdfsPath | “” | 无 | 是 | hdfs路径 | /work/dblp/dblp.xml.gz |
url_str | Url_Str | “” | 无 | 否 | 文件的网络地址 | https://dblp.dagstuhl.de/xml/dblp.xml.gz |
8.8 SaveToHdfs
将数据放到HDFS
8.8.1 Port
inport:默认端口
outport:默认端口
8.8.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
hdfsUrl | HdfsUrl | “” | 无 | 是 | Hdfs的Url地址 | hdfs://master:8020 |
hdfsDirPath | HdfsDirPath | “” | 无 | 是 | hdfs路径 | /work/test/ |
fileName |
FileName | “” | 无 | 否 | 文件的网络地址 | test.csv |
types |
Types | csv | 有 | 是 | 想要写入的格式有json,csv,parquet | csv |
delimiter |
Delimiter | “,” | 无 | 是 | 设置csv文件类型的分隔符 | “,” |
header |
Header | true | 无 | 是 | Csv文件是否带表头 | true |
9. Hive
9.1 PutHiveQL
执行hiveQL文件
9.1.1port
inport:默认端口
outport: 默认端口
9.1.2properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
HiveQL_Path | HiveQL_Path | “” | 无 | 是 | Hiveql文件路径 | hdfs://master:8020/test/Puthive.hql |
Database | Database | ““ | 无 | 是 | hiveQL将在其上执行的数据库名称 | test |
9.2 PutHiveStreaming
写数据到Hive表
9.2.1 port
inport:默认端口
outport:默认端口
9.2.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
Database | Database | ““ | 无 | 是 | 数据库名称 | test |
Table | Table | ““ | 无 | 是 | 数据库表名 | user |
9.3 PutHiveMode
保存数据到hive的模式
9.3.1 port
inport: 默认端口
outport: 默认端口
9.3.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
Database | Database | ““ | 无 | 是 | 数据库名称 | test |
Table | Table | ““ | 无 | 是 | 数据库表名 | user |
saveMode | SaveMode | “append” | 有 | 是 | 保存数据的模式 | append:追加 overwrite:覆盖 Ignore:如果存在则忽略 ErrorIfExists:如果已经存在数据,则将引发异常。 |
9.4 SelectHiveQL
执行Hive的select语句
9.4.1 port
inport: 默认端口
outport: 默认端口
9.4.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
HiveQL | HiveQL | ““ | 无 | 是 | Hive语句 | Select * from test.user |
9.5 SelectHiveQLByJDBC
某些hive只能通过jdbc实现,此stop是为此而设计的
9.5.1 port
inport: 默认端口
outport: 默认端口
9.5.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
hiveUser | HiveUser | ““ | 无 | 是 | 连接Hive的用户 | root |
hivePassword |
HivePassword | “” | 无 | 是 | 连接Hive的用户密码 | 123456 |
jdbcUrl |
JdbcUrl | “” | 无 | 是 | 通过JDBC连接hive的Url | jdbc:hive2://master:10000 |
sql |
Sql | “” | 无 | 是 | Sql查询语句 | Select * from test.user |
10. Http
10.3 GetUrl
Get请求方式获取url的数据,写入dataframe
10.3.1 Port
inport:默认端口
outport:默认端口
10.3.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
url | Url | “” | 是 | HTTP请求的url 地址 | https://api.elsevier.com/content/search/scopus?query=TITLE('title')&apiKey=555637gxd |
|
httpAcceptTypes | HttpAcceptTypes | “json” | Json,xml | 是 | 接收的url 数据类型 | json |
label | label | “” | Xml 必填 | 要解析的xml标签 | id,name | |
schema | Schema | “” | Xml 必填 | 保存的schema类型 | pid,authorname |
10.4 PostUrl
Post请求方式发送数据到 url
10.4.1 Port
inport:默认端口
outport:默认端口
10.4.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
url | Url | “” | 是 | HTTP请求的url 地址 | http://10.0.86.98:8002/flow/start |
|
jsonPath | JsonPath | 是 | 发送的json数据hdfs路径 | hdfs://master:9000/yg/flow.json |
11.Neo4J
11.1 HiveToNeo4
写入数据到neo4j
11.1.1 port
Inport:默认端口
outport:默认端口
11.1.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
hiveQL | HiveQL | “” | 无 | 是 | Hive保存到neo4j的sql语句 | Select * from test.user |
hdfsDirPath | HdfsDirPath | “” | 无 | 是 | 保存到hdfs 的路径 | /test/ |
hdfsUrl | HdfsUrl | “” | 无 | 是 | Hdfs的url | hdfs://master:8020 |
fileName | FileName | “” | 无 | 是 | 保存到hdfs的文件名 | user.csv |
delimiter | Delimiter | “” | 无 | 是 | Csv文件的分隔符 | “,” |
header | Header | “true” | 有 | 是 | Csv文件的表头 | true |
neo4j_Url | Neo4j_Url | “” | 无 | 是 | Neo4J的url地址 | bolt://192.168.3.141:7687 |
userName | UserName | “” | 无 | 是 | Neo4j的用户名 | Neo4j |
password | Password | “” | 无 | 是 | Neo4j的密码 | 123456 |
cypher | Cypher | “” | “” | 是 | 导入csv文件的cypher语句 | LOAD CSV WITH HEADERS FROM 'http://master:50070//test/user.csv?op=OPEN' AS line FIELDTERMINATOR ',' CREATE (n:user{userid:line.id,username:line.name,userscore:line.score,userschool:line.school,userclass:line.class}) |
11.2 PutNeo4
写入数据到neo4j
11.2.1 port
Inport:默认端口
outport:无
11.2.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
Url | Url | “” | 无 | 是 | Neo4j地址 |
userName | userName | “” | 无 | 是 | 用户名 |
password | password | “” | 无 | 是 | 密码 |
labelName | labelName | “” | 无 | 是 | 表名 |
11.3 RunCypher
执行Cypher语句
11.3.1 port
Inport:默认端口
outport:无
11.3.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
Url | Url | “” | 无 | 是 | Neo4j的url地址 | bolt://192.168.3.141:7687 |
userName | UserName | “” | 无 | 是 | 用户名 | Neo4j |
password | Password | “” | 无 | 是 | 密码 | 123456 |
cql | Cql | “” | 无 | 是 | Cql语句 | match(n:user) where n.userid ='11' set n.userclass =null |
12.InternetWorm
12.1 Spider
爬取网络数据
12.1.1port
inport:
outport:默认端口
12.1.2properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
rootUrl | rootUrl | “” | 无 | 是 | 网站域名地址 |
fistUrl | fistUrl | “” | 无 | 是 | 爬取开始的页面 |
makeupField | makeupField | “” | 无 | 是 | 数据标记字段名称(key) |
jumpDependence | jumpDependence | “” | 无 | 是 | 页面跳转的依赖标签 |
fileMap | fileMap | “” | 无 | 是 | 字段名称,及对应的标签路径 |
downPath | downPath | “” | 无 | 否 | 文件下载路径 |
13.JDBC
13.1 MysqlRead
Jdbc读取mysql数据
13.1.1port
inport:默认端口
outport:默认端口
13.1.2properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
url | Url | “” | 无 | 是 | 连接mysql的Url地址 | jdbc:mysql://192.168.3.141:3306/test_db |
user | User | “” | 无 | 是 | 连接mysql的用户 | root |
password | Password | “” | 无 | 是 | 连接mysql的用户密码 | 123456 |
sql | Sql | “” | 无 | 是 | 查询的sql语句 | Select * from user |
13.2 MysqlReadIncremental
Jdbc读取mysql数据
13.2.1port
inport:默认端口
outport:默认端口
13.2.2properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
url | Url | “” | 无 | 是 | 连接mysql的Url地址 | jdbc:mysql://192.168.3.141:3306/test_db |
user | User | “” | 无 | 是 | 连接mysql的用户 | root |
password | Password | “” | 无 | 是 | 连接mysql的用户密码 | 123456 |
sql | Sql | “” | 无 | 是 | 查询的sql语句 | Select * from user |
incrementalField |
IncrementalField | “” | 无 | 是 | 增加的列的名字 | update_date |
incrementalStart |
IncrementalStart | “” | 无 | 是 | 增加的列起始值 | 2020-04-08 |
13.3 jdbcReadFromOracle
读取oracle数据
13.3.1port
inport:
outport:默认端口
13.3.2properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
url | url | “” | 无 | 是 | 连接地址 | |
user | user | “” | 无 | 是 | 用户 | |
password | password | “” | 无 | 是 | 密码 | |
sql | sql | “” | 无 | 是 | 查询的sql语句 | |
schame | schame | “” | 无 | 是 | 查询结果的字段描述信息 |
13.4 MysqlWrite
Jdbc写入mysql数据库
13.4.1 port
inport:默认端口
outport:默认端口
13.4.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
url | Url | “” | 无 | 是 | 连接mysql的Url地址 | jdbc:mysql://192.168.3.141:3306/test_db |
user | User | “” | 无 | 是 | 连接mysql的用户 | root |
password | Password | “” | 无 | 是 | 连接mysql的用户密码 | 123456 |
table | Table | “” | 无 | 是 | 表名 | test |
13.5 OracleRead
从oracle中读取数据
13.5.1port
inport:默认端口
outport:默认端口
13.5.2properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
url | Url | “” | 无 | 是 | 连接oracle的Url地址 | jdbc:oracle:thin:@(DESCRIPTION =(ADDRESS_LIST =(ADDRESS=(PROTOCOL=TCP)(HOST=192.168.2.237)(PORT=1521)))(CONNECT_DATA=(SERVICE_NAME=RACDB_STANDBY))) |
user | User | “” | 无 | 是 | 连接oracle的用户 | oracle |
password | Password | “” | 无 | 是 | 连接oracle的用户密码 | 123456 |
sql | Sql | “” | 无 | 是 | sql查询语句 | Select * from test |
13.6 OracleReadByPartition
从oracle中分区读取数据
13.6.1port
inport:默认端口
outport:默认端口
13.6.2properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
url | Url | “” | 无 | 是 | 连接oracle的Url地址 | jdbc:oracle:thin:@(DESCRIPTION =(ADDRESS_LIST =(ADDRESS=(PROTOCOL=TCP)(HOST=192.168.2.237)(PORT=1521)))(CONNECT_DATA=(SERVICE_NAME=RACDB_STANDBY))) |
user | User | “” | 无 | 是 | 连接oracle的用户 | oracle |
password | Password | “” | 无 | 是 | 连接oracle的用户密码 | 123456 |
sql | Sql | “” | 无 | 是 | Sql查询语句 | Select * from test |
partitionColumn | PartitionColumn | “” | 无 | 否 | 分区的列 | id |
lowerBound | LowerBound | “” | 无 | 否 | 分区列的下限 | 1 |
upperBound | UpperBound | “” | 无 | 否 | 分区列的上限 | 100 |
numPartitions | NumPartitions | “” | 无 | 否 | 分区的数量 | 20 |
13.7 OracleWrite
写入数据到oracle数据库
13.7.1port
inport:默认端口
outport:默认端口
13.7.2properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
url | Url | “” | 无 | 是 | 连接oracle的Url地址 | jdbc:oracle:thin:@(DESCRIPTION =(ADDRESS_LIST =(ADDRESS=(PROTOCOL=TCP)(HOST=192.168.2.237)(PORT=1521)))(CONNECT_DATA=(SERVICE_NAME=RACDB_STANDBY))) |
user | User | “” | 无 | 是 | 连接oracle的用户 | oracle |
password | Password | “” | 无 | 是 | 连接oracle的用户密码 | 123456 |
table | Table | “” | 无 | 是 | 表名 | test |
13.8 SelectImpala
查询impala数据
13.8.1port
inport:
outport:默认端口
13.8.2properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
url | Url | “” | 无 | 是 | Impala连接路径 | |
user | User | “” | 无 | 否 | Impala用户 | |
password | Password | “” | 无 | 否 | 用户密码 | |
sql | Sql | “” | 无 | 是 | 查询的sql语句 | |
schameString | SchameString | “” | 无 | 是 | 查询结果的字段描述信息 |
14.Json
14.1 jsonParser
Json文件解析
14.1.1 port
inport:默认端口
outport:默认端口
14.1.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
jsonPath | JsonPath | “” | 无 | 是 | Json文件地址 | hdfs://master:8020/work/json/test/example.json |
tag | Tag | “” | 无 | 是 | 需要解析的标签,多个以逗号分隔 | name,province_name |
14.3 FolderJsonPath
Json文件夹解析
14.3.1 port
inport:默认端口
outport:默认端口
14.3.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
folderPath | FolderPath | “” | 无 | 是 | 文件夹地址 | hdfs://master:8020/work/json/test/ |
tag | Tag | “” | 无 | 是 | 需要解析的标签 | name,province_name,如果要打开数组字段,必须这样写:links_name(MasterField_ChildField) |
14.4 JsonStringParser
Json字符串解析
14.4.1 port
inport:默认端口
outport:默认端口
14.4.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
jsonString | JsonString | “” | 无 | 是 | Json字符串 | {\"id\":\"13\",\"name\":\"13\",\"score\":\"13\",\"school\":\"13\",\"class\":\"13\"} |
14.5 JsonSave
保存为Json文件
14.5.1 port
inport:默认端口
outport:默认端口
14.5.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
jsonSavePath | JsonSavePath | “” | 无 | 是 | Json文件保存地址 | hdfs://master:8020/work/testJson/test/ |
15.Message Queue
15.1 ReadFromKafka
从kafka读数据
15.1.1 port
Inport:NonePort
outport:默认端口
15.1.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
kafka_host | KAFKA_STR | “” | 无 | 是 | Kafka地址 |
topic | TOPIC | 无 | 是 | 读取主题 | |
schema | SCHEMA | 无 | 是 | 生成DataFrame的schema |
15.2 WriteToKafka
向kafka写数据
15.2.1 port
Inport:默认端口
outport:NonePort
15.2.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
kafka_host | KAFKA_STR | “” | 无 | 是 | Kafka地址 |
topic | TOPIC | 无 | 是 | 写入主题 |
16.Memcache
16.1 PutMemcache
写入memcache
16.1.1port
inport:默认端口
outport:
16.1.2properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
servers | servers | “” | 无 | 是 | Memcache的服务地址 |
keyFile | keyFile | “” | 无 | 是 | 作为key字段的名称 |
weights | weights | “” | 无 | 否 | |
maxIdle | maxIdle | “” | 无 | 否 | 最大处理时间 |
maintSleep | maintSleep | “” | 无 | 否 | 主线程睡眠时间 |
nagle | nagle | “” | 无 | 否 | TCP参数 |
socketTO | socketTO | “” | 无 | 否 | 连接超时时间 |
socketConnectTO | socketConnectTO | “” | 无 | 否 | 连接次数 |
16.2 GetMemcache
读取memcache
16.2.1port
inport:默认端口
outport:默认端口
16.2.2properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
servers | servers | “” | 无 | 是 | Memcache的服务地址 |
keyFile | keyFile | “” | 无 | 是 | 作为key字段的名称 |
weights | weights | “” | 无 | 否 | |
maxIdle | maxIdle | “” | 无 | 否 | 最大处理时间 |
maintSleep | maintSleep | “” | 无 | 否 | 主线程睡眠时间 |
nagle | nagle | “” | 无 | 否 | TCP参数 |
socketTO | socketTO | “” | 无 | 否 | 连接超时时间 |
socketConnectTO | socketConnectTO | “” | 无 | 否 | 连接次数 |
schame | schame | “” | 无 | 是 | 字段描述细信息 |
16.3 ComplementByMemcache
读取memcache,补充原表
16.3.1port
inport:默认端口
outport:默认端口
16.3.2properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
servers | servers | “” | 无 | 是 | Memcache的服务地址 |
keyFile | keyFile | “” | 无 | 是 | 作为key字段的名称 |
weights | weights | “” | 无 | 否 | |
maxIdle | maxIdle | “” | 无 | 否 | 最大处理时间 |
maintSleep | maintSleep | “” | 无 | 否 | 主线程睡眠时间 |
nagle | nagle | “” | 无 | 否 | TCP参数 |
socketTO | socketTO | “” | 无 | 否 | 连接超时时间 |
socketConnectTO | socketConnectTO | “” | 无 | 否 | 连接次数 |
replaceField | replaceField | “” | 无 | 是 | 你希望补充的字段 |
17.Microorganism
17.1 BioprojectData
解析Bioproject数据
17.1.1 Port
inport:默认端口
outport:默认端口
17.1.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
cachePath | cachePath | “” | 是 | 缓存路径 |
17.2 BioSample
解析biosample数据
17.2.1 Port
inport:默认端口
outport:默认端口
17.2.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
cachePath | cachePath | “” | 是 | 缓存路径 |
17.3 EmblData
解析embl数据
17.3.1 Port
inport:默认端口
outport:默认端口
17.3.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
cachePath | cachePath | “” | 是 | 缓存路径 |
17.4 Ensembl
解析Ensembl_gff3数据
17.4.1 Port
inport:默认端口
outport:默认端口
17.4.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
cachePath | cachePath | “” | 是 | 缓存路径 |
17.5 GenbankData
解析genbank数据
17.5.1 Port
inport:默认端口
outport:默认端口
17.5.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
cachePath | cachePath | “” | 是 | 缓存路径 |
17.6 Gene
解析gene数据
17.6.1 Port
inport:默认端口
outport:默认端口
17.6.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
cachePath | cachePath | “” | 是 | 缓存路径 |
17.7 GoData
解析go数据
17.7.1 Port
inport:默认端口
outport:默认端口
17.7.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
cachePath | cachePath | “” | 是 | 缓存路径 |
17.8 GoldData
解析golddata数据
17.8.1 Port
inport:默认端口
outport:默认端口
17.8.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
cachePath | cachePath | “” | 是 | 缓存路径 |
17.9 InterproData
解析interpro数据
17.9.1 Port
inport:默认端口
outport:默认端口
17.9.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
cachePath | cachePath | “” | 是 | 缓存路径 |
17.10. MicrobeGEnomeData
解析 MicrobeGEnome数据
17.10.1 Port
inport:默认端口
outport:默认端口
17.10.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
cachePath | cachePath | “” | 是 | 缓存路径 |
17.11 PDBData
解析 pdb数据
17.11.1 Port
inport:默认端口
outport:默认端口
17.11.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
cachePath | cachePath | “” | 是 | 缓存路径 |
17.12 PfamData
解析 pfam数据
17.12.1 Port
inport:默认端口
outport:默认端口
17.12.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
cachePath | cachePath | “” | 是 | 缓存路径 |
17.13 RefseqData
解析 refSeq数据
17.13.1 Port
inport:默认端口
outport:默认端口
17.13.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
cachePath | cachePath | “” | 是 | 缓存路径 |
17.14 SwissprotData
解析 swiss数据
17.14.1 Port
inport:默认端口
outport:默认端口
17.14.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
cachePath | cachePath | “” | 是 | 缓存路径 |
17.15 TaxonomyData
解析 TaxonomyParse数据
17.15.1 Port
inport:默认端口
outport:默认端口
17.15.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
cachePath | cachePath | “” | 是 | 缓存路径 |
17.16 Pathway
解析 KeggPathwayParse数据
17.16.1 Port
inport:默认端口
outport:默认端口
17.16.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
cachePath | cachePath | “” | 是 | 缓存路径 |
17.17 MedlineData
解析 TaxonomyParse数据
17.17.1 Port
inport:默认端口
outport:默认端口
17.17.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
cachePath | cachePath | “” | 是 | 缓存路径 |
10.MechineLearning Classification
18.1DecisionTreeTraining
决策树分类模型训练
18.1.1 port
Inport:NonePort
outport:默认端口
18.1.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
training_data_path | TRAINING_DATA_PATH | “” | 无 | 是 | 训练数据路径 |
model_save_path | MODEL_SAVE_PATH | 无 | 是 | 模型保存路径 | |
maxBins | MAX_BINS | 无 | 是 | 连续属性分裂最大数目 | |
maxDepth | MAX_DEPTH | 无 | 是 | 树的最大深度 | |
minInfoGain | MIN_INFO_GAIN | 无 | 是 | 能作为分裂属性的最小信息增益 | |
minInstancePerNode | MIN_INSTANCE_PER_NODE | 无 | 是 | 每个节点的最小节点数目 | |
impurity | IMPURITY | 无 | 是 | 分裂准则,如信息增益或者基尼系数 |
18.2 DecisionTreePrediction
决策树分类预测
18.2.1 port
Inport:默认端口
outport:NonePort
18.2.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
test_data_path | TEST_DATA_PATH | “” | 无 | 是 | 测试数据路径 |
model_path | MODEL_PATH | 无 | 是 | 模型加载路径 |
18.3 GBTTraining
GBT模型训练
18.3.1 port
Inport:NonePort
outport:默认端口
18.3.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
training_data_path | TRAINING_DATA_PATH | “” | 无 | 是 | 训练数据路径 |
model_save_path | MODEL_SAVE_PATH | 无 | 是 | 模型保存路径 | |
maxBins | MAX_BINS | 无 | 否 | 连续属性分裂最大数目 | |
maxDepth | MAX_DEPTH | 无 | 否 | 树的最大深度 | |
minInfoGain | MIN_INFO_GAIN | 无 | 否 | 能作为分裂属性的最小信息增益 | |
minInstancePerNode | MIN_INSTANCE_PER_NODE | 无 | 否 | 每个节点的最小节点数目 | |
impurity | IMPURITY | 无 | 否 | 分裂准则,如信息增益或者基尼系数 | |
subSamplingRate | SUB_SAMPLING_RATE | 无 | 否 | 每棵子树的数据采样率 | |
lossType | LOSS_TYPE | 无 | 否 | 损失函数 | |
stepSize | STEP_SIZE | 无 | 否 | 步长(学习率) |
18.4 GBTPrediction
GBT预测
18.4.1 port
Inport:默认端口
outport:NonePort
18.4.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
test_data_path | TEST_DATA_PATH | “” | 无 | 是 | 测试数据路径 |
model_path | MODEL_PATH | 无 | 是 | 模型加载路径 |
18.5LogisticRegressionTraining
LogisticRegression模型训练
18.5.1 port
Inport:NonePort
outport:默认端口
18.5.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
training_data_path | TRAINING_DATA_PATH | “” | 无 | 是 | 训练数据路径 |
model_save_path | MODEL_SAVE_PATH | 无 | 是 | 模型保存路径 | |
maxIter | MAX_ITER | 无 | 否 | 最大迭代次数 | |
minTol | MIN_TOL | 无 | 否 | 迭代收敛容差 | |
regParam | REG_PARAM | 无 | 否 | 正则化 | |
elasticNetParam | ELASTIC_NET_PARAM | 无 | 否 | ||
threshold | THRESHOLD | 无 | 否 | 分类 | |
family | FAMILY |
18.6 LogisticRegressionPrediction
LogisticRegression分类预测
18.6.1 port
Inport:默认端口
outport:NonePort
18.6.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
test_data_path | TEST_DATA_PATH | “” | 无 | 是 | 测试数据路径 |
model_path | MODEL_PATH | 无 | 是 | 模型加载路径 |
18.7MultilayerPerceptronTraining
多层神经网络模型训练
18.7.1 port
Inport:NonePort
outport:默认端口
18.7.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
training_data_path | TRAINING_DATA_PATH | “” | 无 | 是 | 训练数据路径 |
model_save_path | MODEL_SAVE_PATH | 无 | 是 | 模型保存路径 | |
maxIter | MAX_ITER | 无 | 否 | 最大迭代次数 | |
minTol | MIN_TOL | 无 | 否 | 迭代收敛容差 | |
layers | LAYERS | 无 | 是 | 输出层和输入层层数 | |
threshold | THRESHOLD | 无 | 是 | 分类概率数组 | |
stepSize | STEP_SIZE | 无 | 否 | 步长(学习率) |
18.8 MultilayerPerceptronPrediction
多层神经网络分类预测
18.8.1 port
Inport:默认端口
outport:NonePort
18.8.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
test_data_path | TEST_DATA_PATH | “” | 无 | 是 | 测试数据路径 |
model_path | MODEL_PATH | 无 | 是 | 模型加载路径 |
18.9NavieBayesTraining
朴素贝叶斯模型训练
18.9.1 port
Inport:NonePort
outport:默认端口
18.9.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
training_data_path | TRAINING_DATA_PATH | “” | 无 | 是 | 训练数据路径 |
model_save_path | MODEL_SAVE_PATH | 无 | 是 | 模型保存路径 | |
smooth_value | SMOOTH_VALUE | 无 | 否 | 平滑因子 |
18.10 NavieBayesPrediction
决策树分类预测
18.10.1 port
Inport:默认端口
outport:NonePort
18.10.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
test_data_path | TEST_DATA_PATH | “” | 无 | 是 | 测试数据路径 |
model_path | MODEL_PATH | 无 | 是 | 模型加载路径 |
18.11RandomForestTraining
随机森林分类模型训练
18.11.1 port
Inport:NonePort
outport:默认端口
18.11.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
training_data_path | TRAINING_DATA_PATH | “” | 无 | 是 | 训练数据路径 |
model_save_path | MODEL_SAVE_PATH | 无 | 是 | 模型保存路径 | |
maxBins | MAX_BINS | 无 | 否 | 连续属性分裂最大数目 | |
maxDepth | MAX_DEPTH | 无 | 否 | 树的最大深度 | |
minInfoGain | MIN_INFO_GAIN | 无 | 否 | 能作为分裂属性的最小信息增益 | |
minInstancePerNode | MIN_INSTANCE_PER_NODE | 无 | 否 | 每个节点的最小节点数目 | |
impurity | IMPURITY | 无 | 否 | 分裂准则,如信息增益或者基尼系数 | |
subSamplingRate | SUB_SAMPLING_RATE | 无 | 否 | 每棵子树的数据采样率 | |
featureSubsetStrategy | FEATURE_SUBSET_STRATEGY | 无 | 否 | 属性选择策略 | |
numTrees | NUM_TREES | 无 | 否 | 训练子树数目 |
18.12 RandomForestPrediction
随机森林分类预测
18.12.1 port
Inport:默认端口
outport:NonePort
18.12.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
test_data_path | TEST_DATA_PATH | “” | 无 | 是 | 测试数据路径 |
model_path | MODEL_PATH | 无 | 是 | 模型加载路径 |
11.MechineLearning Clustering
19.1BisetingKmeansTraining
BisetingKmeans模型训练
19.1.1 port
Inport:NonePort
outport:默认端口
19.1.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
training_data_path | TRAINING_DATA_PATH | “” | 无 | 是 | 训练数据路径 |
model_save_path | MODEL_SAVE_PATH | 无 | 是 | 模型保存路径 | |
maxIters | MAX_ITERS | 无 | 否 | 最大迭代次数 | |
k | K | 无 | 是 | 聚类簇数目 |
19.2 BisetingKmeansPrediction
BisetingKmeans预测
19.2.1 port
Inport:默认端口
outport:NonePort
19.2.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
test_data_path | TEST_DATA_PATH | “” | 无 | 是 | 测试数据路径 |
model_path | MODEL_PATH | 无 | 是 | 模型加载路径 |
19.3GaussianMixtureTraining
混合高斯模型训练
19.3.1 port
Inport:NonePort
outport:默认端口
19.3.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
training_data_path | TRAINING_DATA_PATH | “” | 无 | 是 | 训练数据路径 |
model_save_path | MODEL_SAVE_PATH | 无 | 是 | 模型保存路径 | |
maxIters | MAX_ITERS | 无 | 否 | 最大迭代次数 | |
k | K | 无 | 是 | 聚类簇数目 | |
tol | TOL | 无 | 否 | 迭代收敛误差 |
19.4 GaussianMixturePrediction
混合高斯预测
19.4.1 port
Inport:默认端口
outport:NonePort
19.4.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
test_data_path | TEST_DATA_PATH | “” | 无 | 是 | 测试数据路径 |
model_path | MODEL_PATH | 无 | 是 | 模型加载路径 |
19.5KmeansTraining
Kmeans模型训练
19.5.1 port
Inport:NonePort
outport:默认端口
19.5.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
training_data_path | TRAINING_DATA_PATH | “” | 无 | 是 | 训练数据路径 |
model_save_path | MODEL_SAVE_PATH | 无 | 是 | 模型保存路径 | |
maxIters | MAX_ITERS | 无 | 否 | 最大迭代次数 | |
k | K | 无 | 是 | 聚类簇数目 | |
minTol | MIN_TOL | 无 | 否 | 迭代收敛误差 |
19.6 KmeansPrediction
Kmeans聚类预测
19.6.1 port
Inport:默认端口
outport:NonePort
19.6.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
test_data_path | TEST_DATA_PATH | “” | 无 | 是 | 测试数据路径 |
model_path | MODEL_PATH | 无 | 是 | 模型加载路径 |
19.7LDATraining
LDA主题模型训练
19.7.1 port
Inport:NonePort
outport:默认端口
19.7.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
training_data_path | TRAINING_DATA_PATH | “” | 无 | 是 | 训练数据路径 |
model_save_path | MODEL_SAVE_PATH | 无 | 是 | 模型保存路径 | |
maxIters | MAX_ITERS | 无 | 否 | 最大迭代次数 | |
k | K | 无 | 是 | 聚类簇数目 | |
docConcertration | DOC_CONCERTRATION | 无 | 否 | ||
topiccConcertration | TOPIC_CCONCERTRATION | 无 | 否 | ||
checkpointInterval | CHECKPOINT_INTERVAL | 无 | 是 | ||
optimizer | OPTIMIZER | 无 | 否 |
19.8 LDAPrediction
LDA聚类预测
19.8.1 port
Inport:默认端口
outport:NonePort
19.8.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
test_data_path | TEST_DATA_PATH | “” | 无 | 是 | 测试数据路径 |
model_path | MODEL_PATH | 无 | 是 | 模型加载路径 |
12.MechineLearning Feature
20.1 WordToVec
WordToVec文本向量生成
20.1.1 port
Inport:默认
outport:默认端口
20.2.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
colName | COL_NAME | “” | 无 | 是 | 要处理的字段名 |
outputCol | OUTPUT_COL | 无 | 是 | 输出DataFrame文本向量字段名 | |
maxIter | MAX_ITER | 无 | 否 | 最大迭代次数 | |
maxSentenceLength | MAX_SENTENCE_LENGTH | 无 | 否 | 单个句子的最大长度 | |
minCount | MIN_COUNT | 无 | 否 | 最小词频 | |
numPartitions | NUM_PARTITIONS | 无 | 否 | ||
stepSize | STEP_SIZE | 无 | 否 | 步长(学习率) | |
vectorSize | VECTOR_SIZE | 无 | 否 | 文本向量纬度数目 |
13.MongoDB
21.1 GetMomgo
读取mongo
21.1.1port
inport:
outport:默认端口
21.1.2properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
addresses | addresses | “” | 无 | 是 | Mongo地址 |
credentials | credentials | “” | 无 | 否 | 连接池信息 |
dataBase | dataBase | “” | 无 | 是 | 数据库 |
collection | collection | “” | 无 | 是 | 表名 |
sql | sql | “” | 无 | 否 | 查询的sql语句 |
21.2 PutMomgo
写入mongo
21.2.1port
inport:默认端口
outport:
21.2.2properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
addresses | addresses | “” | 无 | 是 | Mongo地址 |
credentials | credentials | “” | 无 | 否 | 连接池信息 |
dataBase | dataBase | “” | 无 | 是 | 数据库 |
collection | collection | “” | 无 | 是 | 表名 |
14.RDF
22.1 RDF2DF
将数据分流
22.1.1 port
inport:默认端口
outport:任意端口
22.1.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
fileName | file name | default | 无 | 否 | File containing all arguments, used as an alternative to supplying all arguments on the command line directly.Each argument can be on a separate line or multiple arguments per line separated by space.Arguments containing spaces needs to be quoted.Supplying other arguments in addition to this file argument is not supported. |
storeDir | store directory | /data/neo4j-db/database/graph.db | 无 | 是 | Database directory to import into. Must not contain existing database. |
22.2 CsvToNeo4J
this stop use linux shell & neo4j-import command to lead CSV file data create/into a database**. T**he neo4j version is 3.0+"
22.2.1 port
inport:无端口
outport:无端口
22.2.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
filePath | inputHDFSFilePath | “” | 无 | 是 | The path of the input rdf file |
filePath | isFromFront | FALSE | true,false | 是 | identify the file path source(should have same schema) |
propertyRegex | property regex | <(?http:\/\/[^>]+\/)(?[^\/][-A-Za-z0-9._#%^&*!@~]+)> <(?<pprefix>http:\\/\\/[^>]+\\/)(?<name>[^\\/][-A-Za-z0-9._# %^&*!@~]+)> "(?.+)" \. |
无 | 是 | define the propertyRegex to parse the n3 file's property line "this regex string should be fully named and regula "you need to SPECIFIC five value's name "1.prefix 2.id 3.pprefix 4.name 5.value" + |
relationshipRegex | relationship regex | <(?http:\/\/[^>]+\/)(?[^\/][-A-Za-z0-9.#%^&*!@~]+)> <(?<tprefix>http:\\/\\/[^>]+\\/)(?<type>[^\\/][-A-Za-z0-9._# %^&*!@~]+)(?<!#type)> <(?http:\/\/[^>]+\/)(?[^\/][-A-Za-z0-9.#$%^&*!@~]+)> \. |
无 | 是 | "the form should be like this : "(?...?... ?...? ?... "check the default value carefully to knowledge the right structure |
entityRegex | entity regex | (<(?http:\/\/[^>]+\/)(?[^\/][-A-Za-z0-9.#%^&*!@~]+)> <(?:http:\\/\\/[^>]+\\/)(?:[^\\/][-A-Za-z0-9._# %^&*!@~]+)(?:#type)> <(?http:\/\/[^>]+\/)(?#$%^&*!@~]+)> \. |
无 | 是 | "the form should be like this : "(?...?... ?...? ?...? "check the default value carefully to knowledge the right structure |
relationshipSchema | relationship's schema | ENTITY_ID:START_ID,role,ENTITY_ID:END_ID,RELATION_TYPE:TYPE | 无 | 是 | "the form should be like this : "(?...?... ... ?...? |
entityIdName | entity's id | ENTITY_ID:ID | 无 | 是 | define the id of entity, as a user, "you should ponder the style like 'id' + :I "make sure your schema looks like the default value |
entityLabelName | entity's label | ENTITY_TYPE:LABEL | 无 | 是 | define the label of entity, as a user, "you should ponder the style like 'label' + :LABE "make sure your schema looks like the default value |
15.Redis
23.1 ReadFromRedis
从Redis读数据
23.1.1 port
Inport:默认端口
outport:默认端口
23.1.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
redis_host | Redis_Host | “” | 无 | 是 | Redis地址 | master |
Port | Port | 是 | 连接redis的端口号 | 7000 | ||
password | Password | 无 | 是 | 连接redis的密码 | 123456 | |
schema | Schema | 无 | 是 | 要基于key从redis获取的字段 | age | |
Column_name | Column_Name | 是 | 此列是从redis获取数据的key | id |
23.2 WriteToRedis
向redis写数据
23.2.1 port
Inport:默认端口
outport:默认端口
23.2.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
redis_host | Redis_Host | “” | 无 | 是 | Redis地址 | master |
port | Port | 是 | 连接reids的端口号 | 7000 | ||
password | Password | 无 | 是 | Redis的密码 | 123456 | |
Column_Name | Column_Name | 是 | Schema中用作key的字段,必须唯一 | id |
16.Script
24.1 ExecutorShell
执行shell脚本
24.1.1port
inport: 默认端口
outport:默认端口
24.1.2properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
IP | IP | “” | 无 | 是 | 本地文件所在的服务器IP | 127.0.0.1 |
User | User | “” | 无 | 是 | 本地文件所在的服务器用户 | root |
PassWord | PassWord | “” | 无 | 是 | 本地文件所在的服务器密码 | 123456 |
shellString | ShellString | “” | 无 | 是 | Shell脚本,多个脚本以###分隔 | mkdir /work/###cp /opt/1.29.3.tar.gz /work/ |
24.2 DataFrameRowParser
根据schema构造DataFrame
24.1.1port
inport: 默认端口
outport:默认端口
24.1.2properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
Schema | Schema | “” | 无 | 是 | 数据的结构 |
Separator | Separator | “” | 无 | 是 | Schema的分隔符 |
17.Solr
25.1 GetSolr
读取solr数据
25.1.1 port
inport:默认端口
outport:默认端口
25.1.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
solrURL | solrURL | “” | 无 | 是 | solr地址 | http://mastet:8886/solr |
SolrCollection | SolrCollection | “” | 无 | 是 | Collection名称 | test |
q | Q | “” | 无 | 否 | 查询字符串 | : |
start | Qtart | “” | 无 | 否 | 结果返回的开始位置 | 1 |
rows | Rows | “” | 无 | 否 | 返回的结果数 | 10 |
sortBy | SortBy | “” | 无 | 否 | 排序的字段 | id |
DescentOrAscend | DescentOrAscend | “” | 无 | 否 | 升序或降序 | Ascend(升序) Descend(降序) |
fl | FL | “” | 无 | 否 | 指定返回字段 | id,name |
fq | FQ | “” | 无 | 否 | 过滤条件 | id:[1 To 40] |
df | DF | “” | 无 | 否 | 默认查询字段 | name |
indent | Indent | “” | 无 | 否 | 是否缩进 | true|on(此方式默认数据格式化,不填则显示数据在一行) |
25.2 PutSolr
写入Solr
25.2.1 port
inport:默认端口
outport:默认端口
25.2.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
solrURL | SolrURL | “” | 无 | 是 | solr地址 | http://mastet:8886/solr |
SolrCollection | SolrCollection | “” | 无 | 是 | Collection名称 | test |
18.XML
26.1 XmlParser
解析xml文件
26.1.1 port
inport:默认端口
outport:默认端口
26.1.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
xmlpath | Xmlpath | “” | 无 | 是 | Xml文件路径 | hdfs://master:8020/work/test/xml.xml |
rowTag | RowTag | “” | 无 | 是 | 解析的xml文件标签 | name |
26.2 XmlParserColumns
解析上游数据中列中的xml数据,写入DateFrame
26.2.1port
inport:默认端口
outport:默认端口
26.2.2properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
xmlColumns |
XmlColumns |
“” | 无 | 是 | 解析包含xml的列 | test_xml |
26.3 XmlParserFolder
解析xml文件夹
26.3.1 port
inport:默认端口
outport:默认端口
26.3.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
xmlpath | Xmlpath | “” | 无 | 是 | Xml文件夹路径 | hdfs://master:8020/work/test/xml/ |
rowTag | RowTag | “” | 无 | 是 | 解析xml文件的标签 | id,name |
26.4 XmlStringParser
解析xml字符串
26.4.1port
inport:默认端口
outport:默认端口
26.4.2properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
xmlString | XmlString | “” | 无 | 是 | Xml字符串 | <sites>\n <site>\n <name>菜鸟教程</name>\n <url>www.runoob.com</url>\n </site>\n <site>\n <name>Google</name>\n <url>www.google.com</url>\n </site>\n <site>\n <name>淘宝</name>\n <url>www.taobao.com</url>\n </site>\n</sites> |
label | Label | “” | 无 | 是 | 标签路径 | sites,site |
schema | Schema | “” | 无 | 是 | 解析的标签名 | name,url |
26.5 XmlSave
保存xml文件
26.5.1port
inport:默认端口
outport:默认端口
26.5.2properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 | 例子 |
---|---|---|---|---|---|---|
xmlSavePath | XmlSavePath | “” | 无 | 是 | Xml文件保存路径 | hdfs://master:8020/work/test/test.xm |
19.Streaming
28.1 FlumeStream
获取flume的实时流数据
28.1.1port
inport:
outport:默认端口
28.1.2properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
hostname | hostname | “” | 无 | 是 | Avro 主机host名 |
Port | Port | “” | 无 | 是 | Avro主机端口 |
batchDuration | batchDuration | “” | 无 | 否 | 获取数据的时间间隔 |
28.2 KafkaStream
获取kafka的实时流数据
28.2.1port
inport:
outport:默认端口
28.2.2properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
Brokers | Brokers | “” | 无 | 是 | Kafka brokers,以逗号分隔 |
groupId | Port | “” | 无 | 是 | Kafka consumer group |
Topics | Topics | “” | 无 | 否 | Kafka topic名,以逗号分割 |
batchDuration | batchDuration | “” | 无 | 否 | 获取数据的时间间隔 |
28.3 SocketTextStream
获取sokcet的实时流数据
28.3.1port
inport:
outport:默认端口
28.3.2properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
hostname | hostname | “” | 无 | 是 | socket 主机host名 |
Port | Port | “” | 无 | 是 | socket主机端口 |
batchDuration | batchDuration | “” | 无 | 否 | 获取数据的时间间隔 |
28.4 SocketTextStreamByWindow
获取sokcet的实时窗口流数据
28.3.1port
inport:
outport:默认端口
28.3.2properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
hostname | hostname | “” | 无 | 是 | socket 主机host名 |
Port | Port | “” | 无 | 是 | socket主机端口 |
batchDuration | batchDuration | “” | 无 | 否 | 获取数据的时间间隔 |
windowDuration | windowDuration | “” | 无 | 是 | 窗口时间 |
SlideDuration | SlideDuration | “” | 无 | 是 | 滑动窗口 |
28.5 TextFileStream
获取text file的实时流数据
28.5.1port
inport:
outport:默认端口
28.5.2properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
Directory | Directory | “” | 无 | 是 | 文件夹路径 |
batchDuration | batchDuration | “” | 无 | 否 | 获取数据的时间间隔 |
28 Excel
28.1 excelParse
解析excel (xls ,xlsx)数据
28.1.1 port
inport:默认端口
outport:默认端口
28.1.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
CachePath | CachePath | 无 | 是 | Json 保存路径 |
28 graphx
28.1 LabelPropagation
计算子图
28.1.1 port
inport:默认端口
outport:默认端口
28.1.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
maxIter | maxIter | 无 | 是 |
28.2 LoadGraph
构建图
28.1.1 port
inport:默认端口
outport:默认端口
28.1.2 properties
名称 | 展示名称 | 默认值 | 允许值 | 是否必填 | 描述 |
---|---|---|---|---|---|
dataPath | dataPath | 无 | 是 |