运维手册
介绍 AI Cloud 平台运维管理相关的内容,包括如何升级、GPU 运维、AI 实例运维、服务组件运维等内容。
升级
1 个项目
Kubernetes运维
7 个项目
数据库运维
3 个项目
高可用环境
3 个项目
前端组件运维
4 个项目
日志运维
2 个项目
平台常见问题
1 个项目
故障恢复
本文描述平台出现常见异常故障后的恢复手段。
卸载
根据平台安装方式,卸载方式各有不同,方式如下。
配置 NVIDIA MPS 环境
MPS(Multi-Process Service) 是NVIDIA为CUDA设计的多进程并发执行机制,允许多个CPU进程共享同一GPU的CUDA Context,从而突破默认单进程独占GPU的限制,实现多个进程的CUDA Kernel真正并行执行。