跳到主要内容

Kubernetes Helm 安装

使用 Helm 在 Kubernetes 上部署 Cloudpods CMP 多云管理版本

注意

该方案通过 Helm 在已有的 Kubernetes 集群上自动部署 Cloudpods 多云管理版本。

该部署方法可能会因为不同 Kubernetes 发行版的 CSI,CNI 和 Ingress controller 配置不同出现兼容性错误,如果部署失败,又想快速体验产品功能,建议使用 Docker Compose 快速安装 的方式部署。

已经验证过的Kubernetes发行版本包括:

  • 阿里云 ACK
  • 腾讯云 TKE
  • Azure AKS
  • AWS ECS

该部署方法仅适用于多云管理功能的使用,比如管理公有云(aws, 阿里云, 腾讯云等)或者其它私有云(zstack, openstack 等),无法使用内置私有云相关功能(因为内置私有云需要节点上面安装配置 qemu, openvswitch 等各种虚拟化软件) 。

环境准备

Cloudpods 相关的组件运行在 Kubernetes 之上,环境以及相关的软件依赖如下:

  • Kubernetes 集群配置要求:
    • Kubernetes 版本: 1.15 ~ 1.24
    • 系统配置:至少 CPU 4核, 内存 8G, 节点存储 100G
    • 节点需要能够访问公网
    • 提供 ingress controller
    • 内部 coredns 解析
    • 支持 Helm,安装 helm 工具请参考 https://helm.sh/docs/intro/install/
  • 提供 Mysql 数据库(可选): 可以选择使用连接的数据库是在部署在 Kubernetes 集群内还是使用外部的,生产环境建议使用外部单独管理的 Mysql (如果公有云RDS服务)

部署

clone chart

Cloudpods Helm Chart 位于 https://github.com/yunionio/ocboot 仓库,使用以下命令下载到本地:

$ git clone -b release/3.11 https://github.com/yunionio/ocboot && cd charts/cloudpods
注意

接下来会使用 helm 安装 cloudpods chart,在使用 helm install 的时候必须指定 --namespace onecloud,不能使用其他的 namespace。

原因是 operator 服务还不支持把平台的服务部署到其他 namespace ,这个后续会改进。

测试环境安装

测试环境安装方法如下,该方法会在 Kubernetes 集群里部署 mysql ,local-path-provisioner CSI 依赖插件,不需要连接集群之外的 mysql 。

# 注意这里的 `--namespace onecloud` 不能改成其他的,必须是 onecloud
$ helm install --name-template default --namespace onecloud --debug . -f values-dev.yaml --create-namespace

生产环境安装

之前部署的方法仅限测试使用,因为依赖少,安装快,但如果用于生产环境,请根据需求修改 ./values-prod.yaml 里面的参数,然后使用该文件创建 Helm Release 。

建议需要修改的地方如下:

--- a/charts/cloudpods/values-prod.yaml
+++ b/charts/cloudpods/values-prod.yaml
localPathCSI:
+ # 根据 k8s 集群的 CSI 部署情况,选择是否要部署默认的 local-path CSI
+ # 如果 k8s 集群已经有稳定的 CSI ,就可以设置这个值为 false ,不部署该组件
enabled: true
helperPod:
image: registry.cn-beijing.aliyuncs.com/yunionio/busybox:1.35.0
@@ -60,11 +62,16 @@ localPathCSI:

cluster:
mysql:
+ # 外部 mysql 地址
host: 1.2.3.4
+ # 外部 mysql 端口
port: 3306
+ # 外部 mysql 用户,需要用具备 root 权限的用户,因为 cloudpods operator 会为其他服务创建数据库用户
user: root
+ # 外部 mysql 密码
password: your-db-password
statefulset:
+ # 生产环境部署这里需要设置成 false ,不然会在 k8s 集群里面部署一个 mysql ,然后连接使用这个 statefulset mysql
enabled: false
image:
repository: "registry.cn-beijing.aliyuncs.com/yunionio/mysql"
@@ -91,15 +98,20 @@ cluster:
# imageRepository defines default image registry
imageRepository: registry.cn-beijing.aliyuncs.com/yunion
# publicEndpoint is upstream ingress virtual ip address or DNS domain
+ # 集群外部可访问的域名或者 ip 地址
publicEndpoint: foo.bar.com
# edition choose from:
# - ce: community edition
# - ee: enterprise edition
+ # 选择部署 ce(开源) 版本
edition: ce
# storageClass for stateful component
+ # 有状态服务使用的 storageClass,如果不设置就会使用 local-path CSI
+ # 这个可根据 k8s 集群情况自行调节
storageClass: ""
ansibleserver:
service:
+ # 指定服务暴露的 nodePort,如果和集群已有服务冲突,可以修改
nodePort: 30890
apiGateway:
apiService:
@@ -193,6 +205,7 @@ cluster:
service:
nodePort: 30889

+# 设置 ingress
ingress:
enabled: true
+ # 设置 ingress 的 className,比如集群里面使用 nginx-ingress-controller
+ # 这里的 className 就写 nginx
+ # className: nginx
className: ""

修改完 values-prod.yaml 文件后,用以下命令部署:

# 注意这里的 `--namespace onecloud` 不能改成其他的,必须是 onecloud
$ helm install --name-template default --namespace onecloud . -f values-prod.yaml --create-namespace

查看部署服务状态

使用 helm install 安装完 cloudpods chart 后,使用以下命令查看部署的 pod 状态。

# 正常运行情况下,在 onecloud namespace 下会有这些 pod
$ kubectl get pods -n onecloud
NAME READY STATUS RESTARTS AGE
default-cloudpods-ansibleserver-779bcbc875-nzj6k 1/1 Running 0 140m
default-cloudpods-apigateway-7877c64f5c-vljrs 1/1 Running 0 140m
default-cloudpods-climc-6f4bf8c474-nj276 1/1 Running 0 139m
default-cloudpods-cloudevent-79c894bbfc-zdqcs 1/1 Running 0 139m
default-cloudpods-cloudid-67c7894db7-86czj 1/1 Running 0 139m
default-cloudpods-cloudmon-5cd9866bdf-c27fc 1/1 Running 0 68m
default-cloudpods-cloudproxy-6679d94fc7-gm5tx 1/1 Running 0 139m
default-cloudpods-devtool-6db6f4d454-ldw69 1/1 Running 0 139m
default-cloudpods-esxi-agent-7bcc56987b-lgpnf 1/1 Running 0 139m
default-cloudpods-etcd-q8j5c29tm2 1/1 Running 0 145m
default-cloudpods-glance-7547c455d5-fnzqq 1/1 Running 0 140m
default-cloudpods-influxdb-c9947bdc8-x8xth 1/1 Running 0 139m
default-cloudpods-keystone-6cc64bdcc7-xhh7m 1/1 Running 0 145m
default-cloudpods-kubeserver-5544d59c98-l9d74 1/1 Running 0 140m
default-cloudpods-logger-8f56cd9b5-f9kbp 1/1 Running 0 139m
default-cloudpods-monitor-746985b5cf-l8sqm 1/1 Running 0 139m
default-cloudpods-notify-dd566cfd6-hxzr4 10/10 Running 0 139m
default-cloudpods-operator-7478b6c64b-wbg26 1/1 Running 0 72m
default-cloudpods-region-7dfd9b888-hsvv8 1/1 Running 0 144m
default-cloudpods-scheduledtask-7d69b877f7-4ltm6 1/1 Running 0 139m
default-cloudpods-scheduler-8495f85798-zgvq2 1/1 Running 0 140m
default-cloudpods-web-5bc6fcf78d-4f7lw 1/1 Running 0 140m
default-cloudpods-webconsole-584cfb4796-4mtnj 1/1 Running 0 139m
default-cloudpods-yunionconf-677b4448b6-tz62m 1/1 Running 0 139m

创建默认管理用户

创建账号登录 Web UI

如果是企业版,前端会提示注册,获取 license ,下面的操作适用于开源版本:

进入 climc 命令行 pod

如果是部署的 ce(社区开源版本),需要使用平台的命令行工具创建默认用户,进行相关操作,对应命令如下,首先是进入 climc pod 容器:

# 进入 climc pod
$ kubectl exec -ti -n onecloud $(kubectl get pods -n onecloud | grep climc | awk '{print $1}') -- bash
Welcome to Cloud Shell :-) You may execute climc and other command tools in this shell.
Please exec 'climc' to get started

bash-5.1#

创建用户

在 climc pod 里面创建 admin 用户,命令如下:

# 创建 admin 用户,设置密码为 admin@123 ,根据需求自己调整
[in-climc-pod]$ climc user-create --password 'admin@123' --enabled admin

# 允许 web 登陆
[in-climc-pod]$ climc user-update --allow-web-console admin

# 将 admin 用户加入 system project 赋予管理员权限
[in-climc-pod]$ climc project-add-user system admin admin

访问前端

根据创建的 ingress 访问平台暴露出来的前端,通过下面的命令查看 ingress :

# 我测试的集群 ingress 信息如下,不同的 k8s 集群根据 ingress 插件的实现各有不同
$ kubectl get ingresses -n onecloud
NAME HOSTS ADDRESS PORTS AGE
default-cloudpods-web * 10.127.100.207 80, 443 7h52m

使用浏览器访问 https://10.127.100.207 即可访问平台前端,然后使用之前创建的 admin 用户登陆。

修改 api_server 接入端

api_server 配置是整个平台的接入端地址,会影响前端 CloudShell、 虚拟机 VNC 或者 Web SSH 的连接。一般无法打开 CloudShell 或者通过前端 SSH 进入虚拟机,是因为没有正确设置 api_server 配置。

需要参考文档:修改服务 api_server 入口配置,根据自己环境的网络情况手动修改。

升级

升级可以通过修改对应的 values yaml 文件,然后进行升级配置,比如发现 cluster.regionServer.service.nodePort 的 30888 端口出现了占用冲突,要修改成其它端口 30001,就修改 values-prod.yaml 里面对应的值:

--- a/charts/cloudpods/values-prod.yaml
+++ b/charts/cloudpods/values-prod.yaml
@@ -170,7 +170,7 @@ cluster:
nodePort: 30885
regionServer:
service:
- nodePort: 30888
+ nodePort: 30001
report:
service:
nodePort: 30967

然后使用 helm upgrade 命令升级:

$ helm upgrade -n onecloud default . -f values-prod.yaml

再查看 onecloudcluster 资源,会发现对应的 spec.regionServer.service.nodePort 变成了 30001,对应的 service nodePort 也会发生变化:

# 查看 regionServer 在 onecloudcluster 里面的属性
$ kubectl get oc -n onecloud default-cloudpods -o yaml | grep -A 15 regionServer
regionServer:
affinity: {}
disable: false
dnsDomain: cloud.onecloud.io
dnsServer: 10.127.100.207
image: registry.cn-beijing.aliyuncs.com/yunion/region:v3.9.2
imagePullPolicy: IfNotPresent
limits:
cpu: "1.333333"
memory: 2045Mi
replicas: 1
requests:
cpu: 10m
memory: 10Mi
service:
nodePort: 30001

# 查看 default-cloudpods-region service 的 nodePort
$ kubectl get svc -n onecloud | grep region
default-cloudpods-region NodePort 10.110.105.228 <none> 30001:30001/TCP 7h30m

查看之前变更的 cluster.regionServer.service.nodePort 是否在平台的 endpoint 里面发生了变化:

# 使用 climc pod 指定 endpoint-list 命令查看
$ kubectl exec -ti -n onecloud $(kubectl get pods -n onecloud | grep climc | awk '{print $1}') -- climc endpoint-list --search compute
+----------------------------------+-----------+----------------------------------+----------------------------------------+-----------+---------+
| ID | Region_ID | Service_ID | URL | Interface | Enabled |
+----------------------------------+-----------+----------------------------------+----------------------------------------+-----------+---------+
| c88e03490c2543a987d86d733b918a2d | region0 | a9abfdd204e9487c8c4d6d85defbfaef | https://10.127.100.207:30001 | public | true |
| a04e161ee71346ac88ddd04fcebfe5ce | region0 | a9abfdd204e9487c8c4d6d85defbfaef | https://default-cloudpods-region:30001 | internal | true |
+----------------------------------+-----------+----------------------------------+----------------------------------------+-----------+---------+
*** Total: 2 Pages: 1 Limit: 20 Offset: 0 Page: 1 ***

删除

$ helm delete -n onecloud default

其它问题

1. onecloud namespace 缺少 keystone, glance, region 等 pod

如果执行 helm install 后,执行 kubectl get pods -n onecloud 发现只有 operator 这个 pod,而没有出现 keystone, glance, region 这些平台相关服务的 pod ,可以使用下面的命令查看 operator pod 的日志排查问题。

出现这种情况的原因一般都是 operator 在创建 keystone, region 这些平台相关服务出现了错误。常见的问题有 operator 无法使用相关的 mysql 用户创建用户和数据库;或者创建了 keystone 服务后,又无法通过 K8s 内部 service 域名访问 keystone pod 等。

# 将 operator 的所有日志重定向到文件
$ kubectl logs -n onecloud $(kubectl get pods -n onecloud | grep operator | awk '{print $1}') > /tmp/operator.log
# 然后查看 /tmp/operator.log 里面有没有相关错误


# 查看 operator 日志当中有没有 requeuing 关键字,一般错误会反馈到这里
$ kubectl logs -n onecloud $(kubectl get pods -n onecloud | grep operator | awk '{print $1}') | grep requeuing