云原生应用云平台产品用户手册

1. 用户手册简介

搭建云平台或者使用云平台的一个主要目的是能够在企业内部提供一个 Platform as a Service (PaaS) – 平台即服务的功能。其主要目的是应用在从开发、发布到运维(即所说的应用全生命周期)中需要的很多通用功能,例如存储,负载均衡,容错,都由 PaaS 平 台支撑,而不是由各个数据应用自行来管理。虽然很多 PaaS 的搭建都是基于类似于 Mesos 和 Kubernetes 这样的分布式平台,但并不是所有的 PaaS 平台的搭建都是云原生的,在 Mesos/Kubernetess 出现之前就已经有很多 PaaS 平台(例如专门针对 Java 应用的 Paas 平台)的建设了。

云原生应用云平台(以下简称:应用云平台)是智领云自主研发的一款基于云原生技术的PaaS平台,旨在作为底层系统架构,向上承载了大数据基础能力层、数据管理运营层和数据应用层的所有服务,同时提供了重要的企业化运维功能。本手册通过对应用云平台的特点及优势介绍,功能介绍,为用户提供产品定位和产品功能概览,帮助用户快速了解应用云平台的优势和特点,从而辅助商业决策。

2.产品介绍

Mesos云平台为分析工作负载和一般工作负载提供了极大的支持,并提供了云计算技术提供的所有好处:易于配置和部署,弹性扩展,资源隔离,高资源利用率,高弹性,自动恢复。

云原生应用云平台是资源及应用管理平台,主要负责基础设施资源的统一管理和调度、多种负载类型作业的统一调度、数据资源调度、应用的部署与调度、系统容错及弹性扩展、多用户管理与资源配置、安全运维监控等等。

利用先进的云计算技术,以服务的模式为平台上层的应用和用户提供所需的资源和服务,统一管理,统一运维。为分析工作负载和一般工作负载提供了极大的支持,并提供了云计算技术提供的所有好处:易于配置和部署,弹性扩展,资源隔离,高资源利用率,高弹性,自动恢复。

云原生组件及版本

类别 组件/应用名称 组件版本
开源资源调度管理框架 Mesos 1.8.2
开源基于容器技术的分布式架构 Kubernetes 1.15.2
开源容器编排框架 Marathon 1.8.230
开源协同工具系统 Zookeeper 3.4.14
开源容器 Docker 19.03.0
开源监控告警工具 Prometheus 2.18.1
开源监控可视化工具 Grafana 6.7.2
开源报警工具 Alertmanager 0.21.0
开源应用程序代理 Haproxy 1.7.11
高性能的HTTP和反向代理web服务器 Nginx 1.17.4
自主研发日志查看器 Logviewer 1.1.0
开源负载均衡器 Marathon-lb 1.12.2

3. 产品特点及优点

BDOS应用云平台高度可靠,无单点失效,同时支持公有云、私有云及混合云发布;支持试用环境、沙盒环境、生产环境无缝迁移,并对资源进行隔离;支持物理资源和资源虚拟化,共享资源池,按需弹性扩容、降容;自动提供容错、检测及报警功能。

以 Mesos 和 Kubernetes 为基础的云原生 PaaS 平台BDOS应用云平台相比传统的 IT 架构能够提供主要优点包括:

云原生应用云平台 传统 IT 解决方案
资源管理 无需事先分配资源,共享资源池,粒度小,资源利用高 每个应用必需事先分配所需资源,粒度大,无法共享
应用发布 提供统一的发布管理界面,查看发布历史 应用自主管理发布或回滚流程
应用调度 无需事先指定运行主机,可根据资源使用率情况自动分配 应用只能运行在事先指定主机上
中间件集成 系统提供大量常用中间件的集成,一键安装,并且为系统中间件自动提供高可用及监控功能 应用必须自行安装所需中间件,额外配置高可用及监控等必需功能
弹性扩容 应用可弹性扩容和降容,无需额外配置 应用扩容和降容必需更改配置,费时费力
系统容错 从系统层面解决负载迁移,失效自动重启,确保无单点失效 各应用必需自主处理容错和高可用机制
应用监控报警 应用有统一监控接口,提供缺省的健康检查 很多企业没有必须的监控措施,如果有,也需要复杂的人工配置
日志管理 提供统一日志管理,自动日志采集,图形界面的日志查看 日志采集需单独配置,查看日志通常需通过命令行登录多台主机
安全管理 提供安全组及权限管理,灵活控制不同部门/机构/人员对应用的访问 依赖于操作系统提供的权限管理,配置复杂,无法灵活的做全局变化
负载均衡 自动提供高可靠负载均衡,无需应用自行配置,不同应用间的调用在负载迁移的情况下无需重新配置 各应用自己配置负载均衡,在系统迁移的情况下经常需要更改配置或重新启动

数据应用和数据服务归根到底也都是应用,所有数据应用的运行和管理最终必须由 PaaS 平台支撑,而不是由各个数据应用自行来解决。随着云原生技术的成熟,绝大部分大数据应用会以云原生的方式在平台上运行,而不会像像传统的 Hadoop 集群那样要自己提供容器管理和资源管理。因此,基于云原生技术的PaaS平台,将会为大数据技术的应用,带来新的突破。

4. 产品功能介绍

智领云云原生应用云平台与计算机上的操作系统起到类似的作用,是整个一体化平台的大脑,主要负责基础设施资源的统一管理和调度、多种负载类型作业的统一调度、数据资源调度、应用的部署与调度、系统容错及弹性扩展、多用户管理与资源配置、安全运维监控等等。利用先进的云计算技术,以服务的模式为平台上层的应用和用户提供所需的资源和服务,统一管理,统一运维。

总体功能如下:

分布式自动化系统安装

4.1 分布式自动化安装部署

4.1 单机模式部署

4.1.1 模式说明
4.1.2 机器配置

x86_64虚机或物理机均可,推荐虚拟机,具体配置如下:

台数 OS CPU 内存 硬盘 网络
1 CentOS 7.6以上 >=24核 >=128GB >=300GB SSD 可访问公网

4.1.2 BDOS集群模式

集群节点规划

部署BDOS的集群共包括三类节点,用户在部署BDOS系统前可按照以下说明规划系统节点资源:

对于三类节点的数量和配置要求如下:
(注:最小配置一般用于集成测试环境或概念验证)

节点类型 数量 推荐配置 最小配置
Bootstrap 1 8C, 16GB RAM, >=300GB SSD 4C, 8GB RAM, >=100GB HDD
Master >=1 且奇数个,生产环境要求大于3台 8C, 16GB RAM, >=300GB SSD 4C, 8GB RAM, >=100GB HDD
Agent >=6,生产环境推荐8台以上以保证服务高可用 8C, 32GB RAM, >=300GB SSD 4C, 16GB RAM, >=80GB HDD

单个Master节点的配置可用作开发测试环境,但无法保证高可用,不推荐用作生产环境。

如集群部署在公有云环境,建议购买1个SLB负载均衡器,已配置单点登录的内部服务代理和域名解析;
如集群部署在私有云环境,单点登录的内部服务代理和域名解析会落在Bootstrap节点上。

4.2 集群管理

系统采用了与Linux内核相似的规则来构造,仅仅是不同抽象层级的差别。从设备(物理机或虚拟机)抽取 CPU,内存,存储和其他计算资源,让容错和弹性分布式系统更容易使用。内核运行在每个机器上,在整个数据中心和云环境内向应用程序(Hadoop、Spark、Kafka、ElasticSearch等等)提供资源管理和资源负载的API接口。

4.2.1 集群信息

展示集群内所有系统、应用的资源信息概览,并可通过界面为集群添加新的节点

配置摘要

配置 含义
Agents Connected 当前集群在线Agent节点数量
CPU/内存/磁盘 集群CPU/内存/磁盘的总资源使用占比

当前运行应用

可查看当前安全组下所有运行应用的状态(admin**可查看所有应用**)。

应用可能出现 3 种状态 后面括号里面的数字代表 正常运行的实例数/所有的实例数

状态 含义
运行(running) 应用正常运行 例如:running(3/3),运行的实例数和所有实例数都为3
暂停(suspend) 应用未运行 例如:suspend(0/0),运行的实例数目和所有实例数目都为0
不健康(unhealthy) 应用部分实例运行失败,运行的实例数目小于所有实例数 例如:unhealthy(2/3) 代表有一个实例运行失败
概述

可查看基本的集群创建信息。点击[服务器数量]可以查看集群节点详细信息。

证书信息

可查看当前集群的证书信息,提供更新证书入口。用户如需更新集群证书,需联系智领云系统管理员提供当前证书信息中的ID值

4.2.2 集群节点

添加节点

为系统管理员提供添加集群Agent节点的入口。其中需要填写的配置如下:

配置 含义
主机名称(必填) 主机的全限定域名(FQDN),域名需保证和已有节点一致
公网IP(选填) 对应节点的公网IP地址,如不填则默认等于主机IP
主机IP(必填) 对应节点第一个Ethernet Interface(一般为eth0)的IP地址

系统管理员在添加新的Agent节点之前,需保证新节点满足以下条件:

4.2.3 集群信息

可查看当前集群内所有节点的主机信息和类型

集群内的所有应用均只会部署到Agent类型的节点上,所有Agent节点的资源组成集群总资源池。系统管理员可通过为Agent节点增加类型的方式,将应用固定在某些Agent节点上,从而实现逻辑上划分集群资源池的目标。

配置 含义
主机名称 节点的主机名称
主机IP 节点的内网IP
公网主机IP 节点的公网IP
类型 节点承担的角色

类型具体的含义

Bootstrap 系统集群的管理入口节点
Master 系统集群的管理节点
Agent 系统集群的工作节点
Namenode Hadoop集群的管理节点
Datanode Hadoop集群的数据存储工作节点
Journalnode Hadoop集群管理节点数据同步服务
Resourcemanager Hadoop集群资源管理服务,负责集群中所有资源的统一管理和分配
Historyserver Hadoop集群历史服务,管理者可以通过历史服务器查看已经运行完成的作业
Nodemanager Hadoop集群数据节点的管理服务
Marathon-lb-ext Marathon-lb是基于Marathon服务发现的负载均衡器,ext组代理系统的自定义应用
Marathon-lb-int Marathon-lb是基于Marathon服务发现的负载均衡器,int组代理系统的系统/官方应用
Haproxy 提供高可用性、负载均衡,以及基于TCP和HTTP的应用程序代理
Kerberos Kerberos认证服务中心
Broker Kafka集群的Broker节点
Zeppelin Zeppelin服务器,提供基于Web的Notebook,提供交互数据分析和可视化

4.2.4 虚拟机/容器终端访问

集群禁用终端访问,但提供图形界面工具,允许从网页登入虚拟机或者容器的终端,进行运维管理工作。

4.3 监控面板

通过系统集群配置功能,对系统进行自动监控告警。支持时序地指标收集、查询和告警配置,使用可使用图表的方式展示监控数据,并按照设定的规则发送告警通知。监控包含多个动态数据面板, 选择安全组后,后台的数据即可实时显示。

4.3.1 监控面板详情

面板

不同用户组只能看到该组内的面板列表,所有用户都可以看到 linktime-host 面板。面板可以定制以及修改(Enterprise版本)。

图表的类型

图表有三种类型,折线图,单个数据图以及仪表盘图

支持操作

用户可以过滤该面板中的部分图表,也可以选择时间范围以及舒心间隔。也可以查看折线图类型的图表的数据详情。

操作 步骤
选择图表 可以过滤该面板的图表,支持多选
时间范围 应用于所有图表
刷新间隔 应用于所有图表,图表会在选择的时间间隔内刷新,不建议选择1秒
选择模版 视面板配置而定,选择模版会应用于部分图表
查看图表数据 只支持折线图,点击图表右上角

查看图表数据

只支持折线图,点击图表右上角的查询图标即可看到该图表的数据详情。

4.3.2 图表详情

图表辅助工具

弹出框上方为图表,下面为每个指标的最大值,最小值,平均值,总值,当前值的列表。

操作 步骤
隐藏单条数据 点击图表下方数据的名字,即可隐藏该条数据
区域缩放 点击图表工具栏第一个图标, 再用鼠标选择一段时间,图表则会呈现该段时间数据
恢复原状 点击第二个图标或者最后一个图标,图表就会呈现所有数据
数据视图 点击第三个图标即可查看源数据,源数据不可修改
折线图 点击折线图图标
柱形图 点击柱形图图标
还原 点击刷新图标
下载 点击最右侧图标

4.4 应用管理

系统应用是由一个或多个应用实例组成的集合,这些应用实例以组的形式来启动和停止,应用运行过程中遇到问题退出时会自动重启。系统应用以Docker容器的方式运行,在统一的底层容器编排框架上编排,通过系统 GUI 提供统一的应用管理入口。

在系统中运行的应用是以Docker容器的方式运行,由一个或多个应用实例组成的集合,在统一的底层容器编排框架上编排。这些应用实例以组的形式来启动和停止,应用运行过程中遇到问题退出时会自动重启。系统提供统一的应用管理入口。

官方应用: 系统应用商店提供的经过验证的容器应用,用户可按需安装运行。 系统应用: 系统运行必需的应用,在系统部署过程中安装运行。 自定义应用: 用过通过系统 GUI 或 SDK 安装的自定义容器应用,用户可通过自定义应用将现有应用系统接入到本系统中。

4.4.1 当前运行应用

用户在【应用管理】-【当前运行应用】中可查看两种不同的应用:系统应用,自定义Maranthon应用。用户只需切换应用类型,便可以查看具体应用类型下的详细应用列表,并查看该页面下的详细应用,包括对该应用进行:重启,暂停,删除,配置,快捷方式的操作。

用户可在该界面查看应用的详细信息,如Docker镜像,IP地址,端口等;同时支持用户对应用进行重启,停止,删除等操作(系统管理员对该操作请慎重,一旦误操作将引起应用无法访问)

4.4.2 应用市场

用户可通过界面查看系统所提供可部署的应用,并根据业务需要选择应用进行一键部署。点击具体应用名称,可查看应用详细信息,并安装该程序。

4.4.3 自定义应用管理

支持用户通过【+自定义应用安装】的界面配置方式简化应用发布流程,发布应用。目前自定义安装提供四种方式:安装Docker应用(通过配置),安装Docker应用(通过镜像),安装Tomcat应用,安装Spring Boot应用。

以安装Docker应用(通过配置)为例介绍自定义应用安装流程。

基本信息

信息项 内容 备注
安全组 Admin 系统默认,具有管理员权限可进行指定
全新安装 用户可以根据需要选择全新安装,或是发布新的版本
应用名称 当全新安装应用时,用户自定义应用名称

参数设置

信息项 内容 备注
容器镜像 填写镜像配置信息
资源文件 上传必要的文件
容器参数 配置相关参数,如日志目录信息等
网络配置 选择网络模式(host或桥接),添加端口,协议等信息
通用配置 设置CPU,MEM,DISK,Instanced具体数值
挂载卷配置 根据实际情况,添加挂载卷信息
健康检测 根据需要添加健康检配置
节点放置 可以设置节点方式的具体IP地址
主页配置 根据需要配置主机,路径
监控配置 根据需要配置监控指标等信息
监控面板 用户自定义监控面板信息
告警配置 配置告警内容

详细信息可参考下图:

当用户完成自定应用的发布后可以在【自定义应用管理】界面查看已发布的应用,同时可以通过点击“日志”来查看应用的Log,支持用户【启用】该应用。

4.4.4 配置应用告警监控

提供系统硬件、服务和应用的状态采集,监控、及报警功能;提供自动缺省配置和手动创建规则的功能。

4.4.5 应用展示

在应用展示界面,提供商超大屏应用实战和大数据分析实战供用户体验,用户只需要点击“立即体验”可查看应用详细内容,点击“应用解析”可以查看应用实现的技术教程。

4.5 安全管理

4.5.1 用户管理

用户列表

字段 含义
用户名 用户在系统中展示名称
电子邮箱 用户注册和登录邮箱
Kerberos 网络认证协议,提供强大的认证服务
更新时间 用户信息最后变更时间

添加用户

在用户列表页面,点击右上角的添加用户,在弹出框中输入相应信息即可添加。

修改用户

在用户列表页面,点击操作栏的修改按钮,即可修改改用户的姓名(邮箱不可修改)。

重置密码

在用户列表页面,点击操作栏的重置按钮,即可重置该用户

密码重置后,用户邮箱将收到新的密码。

Kerberos开关

在用户列表页面,其中Kerberos列显示当前用户状态(已开启/禁用)

管理员可以自由切换用户开关,root**用户除外**

开启状态表示该用户在后台系统操作,须提供认证服务;反之关闭。

删除用户

在用户列表页面,点击操作栏的删除按钮,即可删除非Root用户

4.5.2 安全组的管理

仅系统管理员可见 [安全管理] -> [安全组管理]

添加安全组

安全组列表页面,在右上角输入安全组名字,点击添加安全组即可添加。

修改安全组

点击操作栏的基本信息,即可对该组的描述进行更改。名称不可变更

删除安全组

安全组列表页面,点击操作栏的删除安全组按钮后在弹出框确认即可删除该安全组。

目录权限管理

点击操作栏的目录权限管理,可对该组可访问的目录做出限制,默认每组可以访问所有目录,当勾选掉某个目录时,该组成员登录后该目录会被隐藏。

接口权限管理

点击操作栏的接口权限管理,可对该组可使用的接口权限进行管理,支持父级路由拦截,则所有子项同步父级权限。

如只允许该组用户查看某个功能,即允许GET请求,不允许PUT, POST请求,则用户不能对该资源进行操作修改。

资源管理

点击安全组的操作栏的[资源管理],默认资源为0,资源设置为 0 时不限制,通过设置可以限制每个组的资源如CPU, 内存和磁盘。

如果该组使用资源超过分配的资源,则安装应用时,日志会显示失败原因,可以通过联系管理员修改资源上限。

关联用户

安全组列表页面,点击操作栏里用户管理,在用户管理页面右上角即可添加关联用户。

解除关联

安全组列表页面,点击操作栏里用户管理,在用户管理页面,删除某个用户即是解除关联该用户。

4.5.3 角色管理

在每个安全组之下可以特设不同的角色,每一个角色可以在“目录权限管理”,“接口权限管理”,以及“视角设置”单独制定定制化的方案。

4.6 控制面板

提供平台集群和应用运行时的配置管理,提供配置校验、更新、删除、回滚、版本管理和审计等功能。

4.6.1 安全组配置管理

允许用户基于安全组的的权限范围统一配置针对集群使用的配置管理

通过选择当前和历史版本比对,查看修改的具体地方

4.6.2 集群配置管理

允许用户基于集群的权限范围统一配置针对集群使用的配置管理 ,可通过选择当前和历史版本比对,查看修改的具体地方

4.6.3 全局配置

允许用户基于全局围统一配置针对集群使用的配置管理,该配置会针对所有集群维度的配置修改。

4.7 日志与操作记录

4.7.1 日志查看器

通过右上角的「请选择主机」处的下拉框,选择主机,下方会列出该主机下的应用

点击应用名称,进入该主机下此应用中的日志列表,共有四列:路径、大小、EXPR、更新时间。

字段 含义
路径 描述该日志文件所在路径
大小 描述该日志文件所在路径
EXPR EXPR 表达式
更新时间 描述该日志的更新时间,精确到秒级

4.7.2 操作记录

对于BDOS平台上的任何操作记录,如用户在BDOS界面上提交的一些操作,包括:应用安装、运行等等,可以追溯其详细记录

进程列表

共有三列:操作、用户、创建时间。

字段 含义
进程名称 描述该进程的操作内容简述
状态 [进行中,已完成,失败],分别对应三种状态描述
创建时间 描述该进程的创建时间,精确到秒级

翻页查询:可以自由上下页跳转查询,支持自定义展示每页数量,[20,50,100,200]四种情况

查看日志详情

在进程列表,点击进程名称即可查看进程详情

4.8 工单管理

作为依托云原生应用云平台的中央工单系统,可以插件的形式对接系统内各个应用,为应用云平台上的所有应用提供便捷的系统Bug汇报及通知功能,记录工单响应时间、维护时间、工作状态等所有相关记录。帮助运维人员快速掌握系统工单全局状态,并通过工单审计信息,对系统运维成本进行评估和定价,指导产品优化,实现数据驱动型的工单处理闭环。用户在云原生应用云平台遇到的任何问题,都可以通过点击【提交工单】进行问题提交。

5. 常见问题

5.1 如何创建独立安全组和角色?

本系统安全组是同时对资源和权限进行管理的虚拟分组,权限通过角色来进行封装。每一个安全组有自己独立的角色体系,同时也可以使用公共角色(公共角色是所有安全组都有可能使用到的角色,比如说每个组都有可能用到default_user这个只要普通用户权限的角色)。

打开系统界面,点击左侧菜单导航「安全管理-安全组管理」

Step1-创建独立安全组

注:只有系统管理员有权限做Step1的操作添加新的安全组

· 创建一个独立的安全组,比如demo

· 解除demo组的自定义应用 Memory 的安装限制

Step2-在安全组内创建独立角色(也可不创建,使用公共角色)

在角色管理界面,点击安全组下拉框,选择需要的安全组进入

·

o 创建新用户。在用户管理界面点击添加用户,输入用户的邮箱地址和用户名,英文用户名请用小写字母。手册以添加用户demouser01为例

o 添加用户到对应的安全组。在安全管理界面点击安全组管理,选择目标安全组进入,点击下拉框选择用户后进行添加(同一用户可以被添加至不同的安全组,并在不同安全组下配置不同的角色)

o 通过下拉框选择为添加的用户设置对应的权限角色

demo安全组下面添加角色,比如试用者

Step3-配置独立角色的权限(如不单独创建角色,可忽略此步)

·

o 配置试用者这个角色的相关权限,参考以下推荐配置

类目 内容 备注
目录权限管理
快速体验 勾选
监控面板 不勾选
应用管理 勾选
安全管理 不勾选
记录 仅保留操作记录
附加工具
接口权限管理 保持默认
视角设置
内部入口页 快速体验
外部入口跳转方式 跳转到内部入口页面
快速入口
在Hue里面运行Hive程序
课程市场
在Zeppelin里面浏览并运行Spark程序
BDOS Data Service
FlowMan
Superset
快速入口排序 无特殊要求

以添加应用“在Hue里面运行Hive程序”为例,参考截图

注:此处可根据需要自行添加

5.2 如何为用户开通Hadoop/Hive/Kafka的权限?

开通Hadoop/Hive/Kafka权限步骤请参考云原生数据集成中心系统产品用户手册

6. 术语