AI编程开发 AI源码
AI算力私有云系统

支持多种国产GPU的私有算力云平台,快速实现数据、算法、镜像、模型与算力等资源的统一管理与使用。

标签:

AiseeCloud – AI容器平台

AiseeCloud – AI容器云平台主要面向企业客户及开发者,提供轻量化、高性价比的机器学习解决方案

向使用算力的用户提供了对数据、算法、镜像、模型与算力等资源的管理与使用,方便用户一站式构建计算环境,实现计算。

同时,向集群管理人员提供了集群资源管理与监控,计算任务管理与监控等功能,方便集群管理人员对整体系统进行操作与分析

AI算力私有云系统

适用场景

  • 构建大规模 AI 计算平台
  • 希望共享计算资源
  • 希望在统一的环境下完成模型训练
  • 希望使用集成的插件辅助模型训练,提升效率

系统演示及购买

AI算力私有云系统

微信扫码并备注:AiseeCloud

平台特点

  • 一站式开发
    为用户提供一站式AI计算场景的开发功能,通过数据管理、模型开发和模型训练,打通AI计算全链路;
  • 方便管理
    为平台管理者提供一站式的资源管理平台,通过资源配置、监控、管控等可视化工具,大大降低平台管理者的管理成本;
  • 易于部署
    支持 helm 方式的快速部署,简化复杂的部署流程;
  • 性能优越
    提供高性能的分布式计算体验,通过多方面优化来保证各个环境的流畅运行,同时通过资源调度优化与分布式计算优化,进一步提高模型训练效率;
  • 兼容性好
    平台支持异构硬件,如 GPU、NPU、FPGA等,满足各种不同的硬件集群部署需求,通过支持多种深度学习框架,如TensorFlow、Pytorch、PaddlePaddle 等,并可以通过自定义镜像方式支持新增框架。

平台架构

AI算力私有云系统
  • 计算平台
    计算平台实现了计算平台的核心业务功能,包括数据管理、算法管理、镜像管理、模型开发、模型训练、模型管理、计费管理和用户管理等。
  • 资源管理
    资源管理主要是对集群的资源进行管理和调度,包括存储管理、算力管理、任务调度、网络管理等
  • 硬件设施
    硬件设施为计算平台所管理和调度的设备,包括存储、网络、CPU、GRU 等各类设备

平台算力调度系统

平台调度子系统基于Kubernetes的容器计算平台,提供了包括基于各种主流架构的CPU、GPU、NPU在内的异构设备混合调度能力,实现了:

  • 调度算法的多样性
  • 调度性能的高效性
  • 无缝对接主流计算框架
  • 对异构设备的支持
AI算力私有云系统
  • 平台完备的调度
    • 功能插件机制,方便自定义新的调度策略。以binpack插件为例,其使用的装箱算法能够解决资源碎片的问题,能够很好的提高集群的整体使用率。
    • 基于任务队列,能够将集群进行逻辑分组,方便对用户进行项目制管理。一方面能够对不同项目配置不同限额的计算资源,另一方面能将不同类型的作业分到不同的任务队列中进行管理。对作业和计算资源的管理更加精细化。
  • 平台计算业务场景覆盖
    • 多种国产异构硬件资源全面兼容,已经支持:
      • 华为NPU
      • 算能TPU
      • 燧原GCU
      • 天数智芯GRGRU
      • 沐曦GPGPY
      • 寒武纪MLU
    • 支持快速和灵活部署,系统运行可靠稳定,方便外部团队使用
  • 平台面向管理与业务特有的调度能力
    AiseeCloud平台调度系统主要优化了智算中心中的资源管理和任务调度。AiseeCloud平台调度系统定义了一种灵活且统一的异构硬件统表示方法,将各种异构算力硬件,更有甚者还可将异构网络硬件一同汇聚形成业务层可理解、可阅读的统一智算资源池,将作业调度至最优的智算服务器中。
    AiseeCloud平台调度系统自定义了独特的资源状态统计与计费管理等功能,根据AI训练任务特性与管理需求,优化实现了:

    • Job、Task、Replica的三级别状态机
    • 实现自定义Event和Policy
    • 实现生命周期回调钩子
    • 为某些特殊场景定制的优先抢占调度能力

Aiseecloud 平台部分能力截图

AI算力私有云系统

Aiseecloud用户端概览

AI算力私有云系统

异构资源节点统一管理

AI算力私有云系统

细颗粒的资源池管理,隔离集群资源,便于将不同的资源分配给不同的用户组织

AI算力私有云系统

平台提供机时管理,为单个用户和团队用户提供算力使用

AI算力私有云系统AI算力私有云系统

提供JupterLab在线编程环境,用来调试、运行和保存算法以支撑后续的模型训练

AI算力私有云系统

训练任务监控,便于了解训练任务的情况及结果

AI算力私有云系统

数据集上传、管理、预览,平台可以预置数据集

AI算力私有云系统

镜像的上传、管理,平台可以预置镜像

AI算力私有云系统

管理用户上传的算法和平台预置的算法

AI算力私有云系统

平台提供完善的API接口,包括管理员端API和用户端API

系统演示及购买

AI算力私有云系统

微信扫码并备注:AiseeCloud

 

相关导航

暂无评论

暂无评论...