This commit is contained in:
Ulric Qin 2020-09-30 11:07:11 +08:00
parent 87ebbcd7ec
commit cfd81a91fc
1 changed files with 25 additions and 0 deletions

View File

@ -114,5 +114,30 @@ cd /home/n9e
setenforce 0
```
# 子系统简介
夜莺拆成了四个子系统分别是用户资源中心RDB、资产管理系统AMS、任务执行中心JOB、监控告警系统MON。下面分别介绍一下这几个子系统的设计初衷
## 用户资源中心
这是一个平台底座所有的运维系统都需要依赖这个内置用户、权限、角色、组织、资源的管理。最核心的是一棵组织资源树树节点的类别和扩展字段可以自定义组织资源树的层级结构最简单的组织方式是租户》项目》模块复杂一点的组织方式租户》组织》项目》模块》集群组织是可以嵌套的。节点上挂两类对象一个是人员权限一个是资源资源可以是各类资源除了主机设备、网络设备也可以是rds实例redis实例当然这就需要rds、redis的管控系统和RDB打通了。滴滴在做一些大的中后台商业化解决方案的时候RDB就是扮演了这么一个底座的角色。
## 资产管理系统
这里的资产管理系统是偏硬件资产的管理这个系统的使用者一般是系统部的人资产管理类人员应用运维相对不太关注这个系统。开源版本开放了一个主机设备的管理大家可以二开增加一些网络设备管理、机柜机架位的管理、配件耗材的管理等等有了底座上面再长出一些其他系统都相对容易。agent安装之后会自动注册到资产管理系统自动采集到机器的sn、ip、cpu、mem、disk等信息这些信息为了灵活性考虑都是用shell采集的上文“安装步骤”一章有提到其中最重要的是ip系统中有很多设备ip是需要全局唯一其他的sn、cpu、mem、disk等如果无法采集成功可以写死shell里直接写echo一个假数据即可。
每一条资产,都有一个租户的字段,代表资产归属,需要管理员去分配资产归属(修改资产的所属租户),各个租户才能使用对应的资产,分配完了之后,会出现在用户资源中心的“游离资源”菜单中,各个租户就可以把游离资源挂到资产树上去分门别类的管理使用。树节点的创建是在树上右键哈。
## 任务执行中心
用于批量跑脚本类似pssh、ansible、saltstack不过不支持playbook大道至简就用脚本撸吧shell、python、perl、ruby都行只要机器上有解析器。因为是内置到夜莺里的所以体系化会更好一些和组织资源树的权限是打通的可以控制不同的人对不同的机器有不同的权限有些人可以用root账号执行有些人只能用普通账号执行历史执行记录都可以通过web页面查看审计。任务本身支持一些控制暂停点、容忍度、单机超时时间、中途暂停、中途取消、中途Kill等。
一些经常要跑的脚本可以做成模板模板时对脚本的一种管理方式后续就可以基于模板创建任务填个机器列表就可以执行。比如安装JDK调整TCP内核参数调整ulimit等机器初始化脚本都可以做成模板。
开源版本的任务执行中心可以看做是一个命令通道后续可以基于这个命令通道构建一些场景化应用比如机器初始化平台、服务变更发布平台、配置分发系统等。任务执行中心各类操作都有API对外暴露具体可参看[router.go](https://github.com/didi/nightingale/blob/master/src/modules/job/http/router.go) 我司的命令通道每周执行任务量超过60万就是因为各类上层业务都在依赖这个命令通道的能力。
## 监控告警系统
这块核心逻辑和v2版本差别不大监控指标分成了设备相关指标和设备无关指标因为有些自定义监控数据的场景endpoint不好定义或者endpoint经常变化这种就可以使用设备无关指标的方式来处理。监控大盘做了优化引入了更多类型的图表但夜莺毕竟是个metrics监控系统处理的是数值型时序数据所以最有用的图表其实就是折线图其他类型图表看看就好场景较少。夜莺也可以对接Grafana有个专门的[DataSource插件](https://github.com/n9e/grafana-n9e-datasource)Grafana会更炫酷一些只是在数据量大的时候性能较差。