v4.0.x
v4.0.2
版本亮点
4.0为一次大版本更新,最早的PR可以追溯到2024年春节前后,算下来已经迭代了将近2年,共计3695个新增提交。4.0是cloudpods适应当前技术发展大趋势做的一次大版本迭代。近几年IT基础设施领域的主要体现出两个大的变化:AI和国产替代。首先是随着AI需求井喷,基础设施也需要改变去适应AI应用。其次是国产化替代和自主可控的要求进一步落地,基础设施需要迭代去管理国产化的硬件和技术栈。
基于这些大的趋势变化,4.x的主要变 化总结如下:
1 支持AI工作负载
顺应 AI 技术浪潮,4.0版本发布了两个AI相关的服务,允许用户在cloudpods管理的服务器上运行AI工作负载。
首先提供了cloudpods的MCP server,为AI Agent提供cloudpods管理的云资源的查询和操作的能力。
另外,基于cloudpods 4.0的容器主机功能特性交付即开即用的AI服务实例。提供的服务类型主要为AI应用和推理服务两类。
- AI应用支持在容器主机内运行AI应用,包括:
- OpenClaw: 随着小龙虾的迅速普及,cloudpods提供了预置OpenClaw的服务实例,可以在服务器上秒级开通小龙虾实例。支持多家模型供应商(Anthropic、月之暗面、MiniMax、Zai 等),多IM通道(QQ,飞书,Discord,Telegram等)。龙虾运行在服务器上独立隔离的Ubuntu桌面环境中,安全并且高效。
- ComfyUI: 流行的AI 图像生成平台,支持 Stable Diffusion 等图像生成模型,可使用服务器上的GPU运行模型。
- Dify: 完整的 LLM 应用开发平台,支持工作流编排,可与 ollama 服务实例联动部署。
- 推理服务提供在GPU服务器上一键部署ollama服务实例,并利用容器主机的秒装应用特性,实现模型数据集的动态加载,支持模型导入、社区模型仓库(内置 Qwen3、Qwen2.5-Coder 等主流开源模型。
同时,本地部署的推理服务可以作为MCP server以及AI应用的LLM后端,实现完整的本地私有化AI服务。
2 支持容器主机
为了更好运行ai工作负载,4.0的一个重要更新是在虚拟化主机之外提供了容器主机。这是一个完全自研的分布式容器管理平台。底层基于 containerd 容器运行时,网络、存储及管控框架复用了 Cloudpods 现有的成熟基础设施,实现了云平台与容器的深度融合。虽然kubernetes已经是分布式容器平台的事实标准,但kubernetes是为无状态的分布式微服务架构设计。相比kubernetes的pod,cloudpods容器主机具备如下独特特性使其适合运行ai应用、云桌面、云游戏等有状态的单机工作负载:
- 有状态,容器主机分配不变IP地址,支持挂载持久的本地存储,支持系统盘overlay持久化
- 支持调整配置,垂直扩容
- 支持Pod内多容器按指定顺序启动
- 每台宿主机独立的网络端口映射规则(区别于K8s的全局NodePort实现)
- 原生支持透传、共享GPU设备,NUMA拓扑感知与自动均衡(无需额外device plugin配置)
- 原生支持 lxcfs,CPU仿真
容器主机采用 Pod 模型,通过自研的 CRI 实现层直接与 containerd 通信,无需依赖 Docker 或 Kubernetes。经过2年多的迭代,在实际使用中功能逐步完善,支持了AI应用的即开即用的交付。核心能力包括:
- 全生命周期管理:容器创建、启停、重启、删除、配置调整、在线磁盘扩容,支持异常崩溃自动恢复
- 网络集成:复用 VPC/经典网络,支持端口映射(TCP/UDP)、弹性公网 IP 绑定
- 存储管理:宿主机目录挂载、Overlay 文件系统、CephFS 卷挂载、容器快照和镜像提交
- GPU设备透传:NVIDIA GPU、华为昇腾 NPU、瀚博等设备透传至容器,支持NVIDIA MPS
- 资源隔离:CPU Set 绑定、NUMA 感知调度、内存/PID 限制、cgroup 设备权限控制
- 运维能力:容器终端 exec、日志查询、文件拷贝、健康探针、容器监控指标
- 安全特性:RunAsUser/RunAsGroup、命名空间隔离、no_new_privs
3 支持更多异构CPU架构
cloudpods在3.x版本原生支持了arm架构,实现了多CPU架构支持从0到1的飞跃,并已经在很多客户的生产环境大规模商用。在此基础上,cloudpods 4.0在软件构建基础设施以及软件架构进一步升级,为更容易地支持多CPU架构做了基础设施和工具的准备,包括:
- 支持打包多架构的rpm和deb软件包
- 支持打包任意架构组合的容器镜像
- 升级容器基础镜像版本到alpine 3.19,原生支持riscv,龙芯等CPU架构
- 升级golang版本到1.24,原生支持riscv,龙芯等架构的二进制编译
- 升级QEMU版本到10.0.7,为arm,riscv架构虚拟机,以及Windows 11提供更新的虚拟硬件特性支持
- 容器化部署openvswitch和ceph组件,减少部署的操作系统软件包依赖
在4.x的后续版本中,随着riscv,龙芯等异构CPU硬件和生态体系的成熟,cloudpods会适时推出对这些CPU架构服务器的原生支持。
4 全面支持IPv6
平台实现了从底层网络到上层业务的全面 IPv6 支持。KVM 虚拟机和容器主机均支持 IPv6双栈和 IPv6单栈模式,宿主机网络全面支持 IPv6(网桥、热迁移、Ceph、NBD)。多云层面,阿里云、华为云、AWS、腾讯云、火山引擎等主流公有云的 IPv6 地址同步已全部打通,安全组、VPC、子网、DNS、VIP 等网络资源均支持 IPv6。部署工具 ocboot 支持 IPv6 环境部署。
其他更新
新功能
- 【虚拟机】支持虚拟机TPM设备和secure UEFI,支持安装原生windows 11系统
- 【虚拟机】虚拟机和容器主机NUMA 感知调度与 CPU 绑核,默认绑定NUMA
- 【虚拟机】LVM 快照支持
- 【云管】增加完善公有云云平台云资源接入支持:火山引擎,金山云,Oracle Cloud,百度云,Cloudflare
- 【云管】增加完善私有云平台云资源接入支持::深信服,泽塔云,H3C (企业版)
- 【云管】SSL 证书管理,支持从腾讯云、阿里云、华为云同步 SSL 证书,支持SSL 证书的创建、删除等全生命周期操作
- 【云管】CDN 资源管理,支持 AWS,华为云 CDN 资源同步,Cloudflare CDN 域名和自定义主机名管理,CDN 缓存刷新操作
- 【云管】WAF(Web 应用防火墙),支持从腾讯云和阿里云同步 WAF 实例,Cloudflare WAF支持
- 【云管】CephFS 网络文件存储支持,作为 NAS/文件存储后端纳入管理。支持目录管理、配额设置、HTTP 访问协议,可作为容器 Pod 的挂载 存储使用
- 【网络】资源拓扑视图(企业版)
- 【通知】Webhook 通知支持密钥
- 【费用】多维度账单异常检测和告警(企业版)
- 【费用】组织账单和项目共享成本分摊(企业版)
- 【费用】多币种汇率支持(新增欧元泰铢等)(企业版)
- 【费用】账单导出至对象存储桶,支持离线导出(企业版)
- 【费用】AWS CUR 2.0 账单格式支持(企业版)
- 【费用】Azure新版账单下载API支持(企业版)
- 【费用】月度账单聚合与报表模板(企业版)
- 【费用】资源订单管理(企业版)
- 【ITSM】流程实例撤回评论(企业版)
- 【ITSM】历史流程实例导入管理(企业版)
- 【ITSM】监控告警升级为告警工单(企业版)
- 【前端】新版扁平菜单布局(企业版)
- 【平台】平台服务运维,包括配置查看与修改,任务队列,HTTP请求统计等
功能改进
- 【虚拟机】GPU 白名单(IsolatedDeviceModels)
- 【虚拟机】虚拟机硬件信息聚合
- 【虚拟机】默认禁用 guest HPET 计时器(性能优化)
- 【虚拟机】虚拟机 OS 信息同步
- 【虚拟机】共享 LVM / CLVM 支持
- 【云管】华为云 API 全面升级(EIP、ELB、密钥对、监控、AK/SK 签名)
- 【云管】AWS SDK v2 升级
- 【云管】阿里云 ALB/NLB 负载均衡支持
- 【云管】Google Cloud 全局 EIP 和 LB 同步、共享 VPC 和共享镜像支持
- 【云管】Azure SDK 清理、预留实例列表、监控指标改进
- 【云管】腾讯云组织账户支持、NAT 网关 API 升级
- 【云管】天翼云 API 升级、价格查询、监控指标支持
- 【云管】OpenStack HTTPS 协议支持
- 【云管】PVE 支持 CPU 架构区分
- 【云管】VMware 克隆虚拟机时自动升级版本、支持虚拟机文件夹/资源池
- 【云管】多云安全组规则管理改进
- 【云管】负载均衡后端同步代码重构(阿里云、AWS、腾讯云、Google)
- 云管】ESXi 预分配虚拟磁盘、PMEM 存储类型支持
- 【云管】GCP PD Extreme 存储类型
- 【云管】阿里云磁盘在线扩容及存储类型切换
- 【云管】S3 签名版本支持,大文件并行上传/下载优化
- 【云管】S3 大文件流式传输与进度报告改进
- 【云管】火山引擎、金山云 IAM 支持
- 【云管】Azure IAM 策略
- 【云管】云用户启用/禁用及 MFA 多因素认证
- 【云管】云用户自动关联本地用户
- 【监控】ZStack 内存使用率指标
- 【监控】腾讯云磁盘使用率指标和 SQL Server 监控
- 【监控】Oracle Cloud 监控支持
- 【监控】容器监控指标(CPU、内存、磁盘 IO、网络)
- 【监控】多指标告警支持
- 【监控】多种GPU硬件监控采集支持,NVIDIA,AMD,瀚博等
问题修复
- 【虚拟机】Ceph 连接复用优化
- 【虚拟机】LVM 磁盘删除和扩容修复
- 【虚拟机】容器崩溃恢复和自动重启修复
- 【虚拟机】宿主机 IPv6 路由和网桥迁移修复
- 【云管】华为云:修复 LB 同步 panic、磁盘同步、EIP、Redis、监控、NAT、安全组端口同步等问题
- 【云管】阿里云:修复安全组规则、磁盘突发性能、RDS 备份、EIP 关联、MongoDB、DNS、LB 后端等问题
- 【云管】AWS:修复 LB panic、EIP 未找到、磁盘类型、子账户名称、镜像导入、DNS 流量策略、监控指标、请求重试等问题
- 【云管】腾讯云:修复 LB IP/域名/后端、NAT 状态、安全组规则、Redis、MongoDB 状态、子账户同步等问题
- 【云管】Azure:修复虚拟机刷新 panic、网卡删除、Graph API、LB 同步、安全组删除、监控指标等问题
- 【云管】GCP:修复虚拟机创建重试、安全规则、磁盘名称校验、LB 同步、虚拟机删除保护等问题
- 【云管】ESXi/VMware:修复克隆模板网卡、CPU 插槽数、虚拟机删除、迁移数据存储、预分配磁盘、并发 Map 访问、宿主机 IP 同步、缓存镜像等问题
- 【云管】PVE/Proxmox:修复最小虚拟机 ID、VNC、网卡 IP 同步、虚拟机搜索超时等问题
- 【云管】ZStack:修复共享存储、认证 URL、安全组规则等问题
- 【云管】金山云(Ksyun):修复 VNC、密钥对导入、监控指标、签名、对象存储等问题
- 【云管】泽塔云(Zettakit):修复存储大小同步、设备透传、虚拟机创建磁盘、监控指标等问题(企业版)
- 【云管】深信服(Sangfor):修复网络区域、虚拟机创建、磁盘同步、监控指标等问题(企业版)
- 【云管】Apsara(阿里政务云)死循环和只读错误修复
- 【费用】修复计费精度和边界问题(企业版)
开源之夏
在2025年的开源之夏中,以下同学为cloudpods贡献了如下内容,均在4.0发布,在此感谢!
- eikohs 贡献的 cloudpods llm服务框架以及ollama和dify应用的完整后端实现
- PengJingzhao 贡献的 Cloudpods MCP Server 完整后端实现
- happy-game 贡献的 Kickstart 自动化操作系统安装完整后端实现
- Jinyu007 贡献的 cloudpods riscv架构镜像构建的初步支持