EHPC 深度学习DL云解决方案

集成深度学习算法,提供GPU和CPU异构集群资源,支持图像/视频检测、文本/图片分类、语音语义识别、智能推荐等多种场景,帮助用户实现深度学习的完整生命周期,获得训练高效、推荐精准、算法开放的解决方案。

方案优势

高性能异构资源
每个节点内采用CPU+GPU异构模式,每个节点可以配置多块8个NVLINK接口的NVIDIA A100 40GB GPU卡
强大的训练能力
提供多种GPU实例规格,灵活满足多种应用场景下模型训练和数据分析所需的算力资源
优异的推理能力
NVIDIA A100通过全系列精度加速,提供业界领先的推理能力,实现了强大的多元化用途

部署架构

架构特点
  • 支持主流框架,如Tensorflow、PyTorch,Keras、caffe、MXNet等,面向多种应用环境,协助用户快速安装自定义应用软件
  • 快速开启CPU/GPU异构资源,加速模型训练效率,减少作业前置时间
方案效果
  • 降低推理成本:可以单独指定所需的GPU A100实例类型,极大降低推理成本
  • 按需提供资源:CPU与GPU解耦,为用户提供灵活的CPU与GPU配比,准确获取所需资源,灵活组合,即用即开
  • 动态响应需求:可以轻松扩展和缩减推理加速所用的GPU资源,根据应用程序的需求仅为所需资源付费

应用场景

    • 按需提供GPU和CPU异构计算资源,基于GPUA100加速器可极大提高遥感影像监督分类及非监督分类模型的训练效率
    • 为用户提供多节点挂载共享存储的产品形态,覆盖用户多节点并行处理共享存储数据,方便用户按区域、按分类类型、按场景等进行并行的数据处理工作
    • 基于GPU计算集群,极大的缩短了遥感图像数据处理时间,使影像分类及变化检测结果更精准高效

    • 基于深度神经网络DNN模型,采用设计更简洁的网络架构,利用GPU加速器加速训练效率,使语音识别效果更高,更真实准确
    • 提供GPU计算资源,基于GPU A100加速器可极大提高语音识别模型训练效率