开启全网商机
登录/注册
发布时间:2025-11-06 17:33:41
| AI智算管理系统 | 项目编号**** | |
| 2025-11-06 17:33:41 | 公告截止日期2025-11-10 12:00:01 | |
| **** | 付款方式货到安装、调试、验收合格后,付全款。 | |
| 不签订合同 | 到货时间要求发布竞价结果后7天内送达 | |
| 币种 | 人民币 | |
| **省**市**区**** | ||
| 1、限**市供应商。 2、需提供生产企业针对本项目的产品授权书及售后服务承诺函,否则报价无效。 | ||
| AI智算管理系统 | 4.00 | 套 | 无 |
| 联想 |
| 联想**异构智算平台 |
| GPU**管理及调度系统,提供AI智算管理及调度系统,支持AI 应用门户、基础设施管理,GPU**调度、人工智能训练等模块,以下是具体功能要求: AI应用门户模块: 门户服务支持https,支持设置用户会话过期后只读或者自动注销时间。 支持LDAP认证。提供基于门户的用户管理功能,支持用户添加、删除、修改等功能,支持按项目管理用户。支持管理员按角色、项目等对计算**进行划分配置; 基础设施管理模块: 支持对维度的GPU卡概况和状态的统计和监控(按集群,节点类型,GPU型号等) GPU热点图,支持按使用率,问题,功耗等指标展示; 精确到单机单卡的监控,指标包括GPU核心和显存利用率,温度,功耗,功率、SM active、GPU Memory Active、NVlink链路带宽、PCIe链路带宽等; 可查看制定GPU的详情,包括摘要,监控,虚拟化,负载,警报等 支持英伟达全系列GPU和国产GPU的统一管理与监控;在同一界面上显示纳管的不同类型GPU型号,数量;在**分配的页面上,可以选择英伟达或者国产的GPU; **调度模块 : 支持CPU服务器、GPU服务器统一调度管理。支持全系列英伟达GPU和主流国产GPU(天数智芯,燧原,昆仑芯,沐曦,摩尔等GPU卡)的统一管理; 可配置 AI 集群的 GPU 调度策略,该策略将作用于使用该集群节点**的训练、推理等任务。支持最小碎片化和负载均衡策略。支持任务优先级调度;支持任务抢占策略 支持k8s和Slurm调度器的混合集群调度管理。并能在同一计算服务器上自动切换调度器。 支持GPU MIG和GPU用户态和内核态虚拟化;用户态GPU虚拟化支持GPU按照显存维度进行切分,粒度10%;内核态虚拟化支持GPU按照显存、算力维度进行切分,粒度1% 显存1M。 提供优化NCCL的通信库镜像,对PCIE GPU之间的通信效率优化10%以上 支持配置k8s/Slurm融合调度策略。配置实现融合节点池生命周期管理(创建,节点的添加与释放等),通过业务排空策略和任务优先策略,灵活调度GPU节点到k8s集群或者是Slurm集群(支持手动和自动模式), 支持AI/HPC作业建模-使用内置模板建模。支持PyTorch,TensorFlow, PaddlePaddle算法框架,支持deepspeed, megatron并行框架,支持MPI,OpenMP等HPC模板;在训练环境中基于算法镜像和数据,配置CPU、内存、GPU **进行模型训练;配置任务优先级,默认正常级别、高和最高会不同程度增加作业在项目中被优先调度的权重;可选断点续训保护训练任务的自动容错功能; 人工智能模块 : 支持AI机器学习框架集成和作业提交,支持主流的深度学习框架集成,包括Tensorflow、Pytorch、Mxnet、PaddlePaddle、等。 支持深度学习训练任务单机多卡、多机多卡并行,支持PyTorch DDP,DeepSpeed, Megatron等并行方式,提供深度学习并行作业提交的Web页面。 提供深度学习作业提交的Web页面,用户可在Web门户中提交多种框架的AI训练作业,提交时可指定训练作业所需的**,包括CPU、GPU、GPU切片数量、GPU类型等,支持web门户管理训练作业,查看作业动态输出日志、Tensorboard查看训练进展、打开作业管理的实验管理数据、并支持作业的插队、重新提交、暂停和终止等控制功能。 具备AI方案可视化设计功能,提供基于组件拖拽的方式实现AI方案的可视化设计;支持配置AI任务的镜像,框架,**,超参等参数; ****中心功能,预置多种类型的AI案例,包括但是不限于图像多目标识别和分类、人脸识别, ChatGLM, LLAMA, Taiyi, Yolo, RestNet模型案例;提供可以演示的案例不少于8种 多维度监控人工智能平台在机器学习过程中的运行情况,包括CPU、内存、加速卡实时监控,提供页面化的实时动态趋势图展示; 具备容器镜像管理功能,用户基于Web页面可对私有镜像仓的镜像进行查询、导入、导出、修改、删除操作。支持镜像命名共享,开发私有镜像给其他用户使用。 平台提供了多种容错方式,自动识别网络中断、服务器宕机、GPU 卡丢失的情况,自动会把作业重新运 行, checkpoint 会自动恢复等容错方式,保证用户的任务高可靠的运行。图形界面显示容错机制启动信息,checkpoint信息(包括显示版本号,保存耗时,数据,存储路径,开始时间,制作时间,训练暂停时长等); 如果发生中断,显示重启次数,故障时间和恢复时间,checkpoint恢复时间,异常日志等; 运维计费功能: 提供积计费管理功能,支持根据应用/作业/任务执行过程中实际使用的CPU, MEM, GPU **量进行计费和统计,支持对项目或者**组分别设置费率;可设置费率折扣;支持账户创建、修改、存取账户,并且可以查看账户流水;支持费用统计功能,设定一个时间段内总费用,任务费用趋势图,费用TOP5的任务和用户列表; |
| 1、提供3年免费技术支持,及软件升级服务。2、原厂商安装调试服务。 |