AiseeCloud – AI容器云平台
AiseeCloud – AI容器云平台主要面向企业客户及开发者,提供轻量化、高性价比的机器学习解决方案。
向使用算力的用户提供了对数据、算法、镜像、模型与算力等资源的管理与使用,方便用户一站式构建计算环境,实现计算。
同时,向集群管理人员提供了集群资源管理与监控,计算任务管理与监控等功能,方便集群管理人员对整体系统进行操作与分析。
适用场景
系统演示及购买
微信扫码并备注:AiseeCloud
平台特点
- 一站式开发
为用户提供一站式AI计算场景的开发功能,通过数据管理、模型开发和模型训练,打通AI计算全链路; - 方便管理
为平台管理者提供一站式的资源管理平台,通过资源配置、监控、管控等可视化工具,大大降低平台管理者的管理成本; - 易于部署
支持 helm 方式的快速部署,简化复杂的部署流程; - 性能优越
提供高性能的分布式计算体验,通过多方面优化来保证各个环境的流畅运行,同时通过资源调度优化与分布式计算优化,进一步提高模型训练效率; - 兼容性好
平台支持异构硬件,如 GPU、NPU、FPGA等,满足各种不同的硬件集群部署需求,通过支持多种深度学习框架,如TensorFlow、Pytorch、PaddlePaddle 等,并可以通过自定义镜像方式支持新增框架。
平台架构
- 计算平台
计算平台实现了计算平台的核心业务功能,包括数据管理、算法管理、镜像管理、模型开发、模型训练、模型管理、计费管理和用户管理等。 - 资源管理
资源管理主要是对集群的资源进行管理和调度,包括存储管理、算力管理、任务调度、网络管理等 - 硬件设施
硬件设施为计算平台所管理和调度的设备,包括存储、网络、CPU、GRU 等各类设备
平台算力调度系统
平台调度子系统基于Kubernetes的容器计算平台,提供了包括基于各种主流架构的CPU、GPU、NPU在内的异构设备混合调度能力,实现了:
- 调度算法的多样性
- 调度性能的高效性
- 无缝对接主流计算框架
- 对异构设备的支持
- 平台完备的调度
- 功能插件机制,方便自定义新的调度策略。以binpack插件为例,其使用的装箱算法能够解决资源碎片的问题,能够很好的提高集群的整体使用率。
- 基于任务队列,能够将集群进行逻辑分组,方便对用户进行项目制管理。一方面能够对不同项目配置不同限额的计算资源,另一方面能将不同类型的作业分到不同的任务队列中进行管理。对作业和计算资源的管理更加精细化。
- 平台计算业务场景覆盖
- 多种国产异构硬件资源全面兼容,已经支持:
- 华为NPU
- 算能TPU
- 燧原GCU
- 天数智芯GRGRU
- 沐曦GPGPY
- 寒武纪MLU
- 支持快速和灵活部署,系统运行可靠稳定,方便外部团队使用
- 多种国产异构硬件资源全面兼容,已经支持:
- 平台面向管理与业务特有的调度能力
AiseeCloud平台调度系统主要优化了智算中心中的资源管理和任务调度。AiseeCloud平台调度系统定义了一种灵活且统一的异构硬件统表示方法,将各种异构算力硬件,更有甚者还可将异构网络硬件一同汇聚形成业务层可理解、可阅读的统一智算资源池,将作业调度至最优的智算服务器中。
AiseeCloud平台调度系统自定义了独特的资源状态统计与计费管理等功能,根据AI训练任务特性与管理需求,优化实现了:- Job、Task、Replica的三级别状态机
- 实现自定义Event和Policy
- 实现生命周期回调钩子
- 为某些特殊场景定制的优先抢占调度能力
Aiseecloud 平台部分能力截图
Aiseecloud用户端概览
异构资源节点统一管理
细颗粒的资源池管理,隔离集群资源,便于将不同的资源分配给不同的用户组织
平台提供机时管理,为单个用户和团队用户提供算力使用
提供JupterLab在线编程环境,用来调试、运行和保存算法以支撑后续的模型训练
训练任务监控,便于了解训练任务的情况及结果
数据集上传、管理、预览,平台可以预置数据集
镜像的上传、管理,平台可以预置镜像
管理用户上传的算法和平台预置的算法
平台提供完善的API接口,包括管理员端API和用户端API
系统演示及购买
微信扫码并备注:AiseeCloud
相关导航
暂无评论...