首页 /AI智算管理系统 (XJD2025110500022) 采购公告

AI智算管理系统 (XJD2025110500022) 采购公告

公告-招标公告

陕西 -咸阳

发布时间： 2025年11月06日

摘要信息

招标单位

招标编号

招标估价

招标联系人

招标代理机构

代理联系人

报名截止时间

投标截止时间

关键信息

管理系统采购公告

招标详情

下文中****为隐藏内容，仅对千里马会员开放，如需查看完整内容请或拨打咨询热线： 400-688-2000

相关单位：

***********公司企业信息

AI智算管理系统 (****) 采购公告

发布时间：2025-11-06 17:33:41

项目名称项目编号公告开始日期公告截止日期采购单位付款方式签约时间要求到货时间要求预算总价币种收货地址现场踏勘供应商资质要求

AI智算管理系统	****
2025-11-06 17:33:41	2025-11-10 12:00:01
****	货到安装、调试、验收合格后，付全款。
不签订合同	发布竞价结果后7天内送达
	人民币
省市区**

1、限**市供应商。 2、需提供生产企业针对本项目的产品授权书及售后服务承诺函，否则报价无效。

采购清单 1

采购商品采购数量计量单位附件

AI智算管理系统

4.00

套

无

品牌型号预算单价规格参数售后服务

联想

联想**异构智算平台

GPU**管理及调度系统，提供AI智算管理及调度系统，支持AI 应用门户、基础设施管理，GPU**调度、人工智能训练等模块，以下是具体功能要求： AI应用门户模块：门户服务支持https，支持设置用户会话过期后只读或者自动注销时间。支持LDAP认证。提供基于门户的用户管理功能，支持用户添加、删除、修改等功能，支持按项目管理用户。支持管理员按角色、项目等对计算**进行划分配置；基础设施管理模块：支持对维度的GPU卡概况和状态的统计和监控（按集群，节点类型，GPU型号等） GPU热点图，支持按使用率，问题，功耗等指标展示；精确到单机单卡的监控，指标包括GPU核心和显存利用率，温度，功耗，功率、SM active、GPU Memory Active、NVlink链路带宽、PCIe链路带宽等；可查看制定GPU的详情，包括摘要，监控，虚拟化，负载，警报等支持英伟达全系列GPU和国产GPU的统一管理与监控；在同一界面上显示纳管的不同类型GPU型号，数量；在**分配的页面上，可以选择英伟达或者国产的GPU； **调度模块：支持CPU服务器、GPU服务器统一调度管理。支持全系列英伟达GPU和主流国产GPU（天数智芯，燧原，昆仑芯，沐曦，摩尔等GPU卡）的统一管理；可配置 AI 集群的 GPU 调度策略，该策略将作用于使用该集群节点**的训练、推理等任务。支持最小碎片化和负载均衡策略。支持任务优先级调度；支持任务抢占策略支持k8s和Slurm调度器的混合集群调度管理。并能在同一计算服务器上自动切换调度器。支持GPU MIG和GPU用户态和内核态虚拟化；用户态GPU虚拟化支持GPU按照显存维度进行切分，粒度10%；内核态虚拟化支持GPU按照显存、算力维度进行切分，粒度1% 显存1M。提供优化NCCL的通信库镜像，对PCIE GPU之间的通信效率优化10%以上支持配置k8s/Slurm融合调度策略。配置实现融合节点池生命周期管理（创建，节点的添加与释放等），通过业务排空策略和任务优先策略，灵活调度GPU节点到k8s集群或者是Slurm集群（支持手动和自动模式），支持AI/HPC作业建模-使用内置模板建模。支持PyTorch，TensorFlow， PaddlePaddle算法框架，支持deepspeed, megatron并行框架，支持MPI，OpenMP等HPC模板；在训练环境中基于算法镜像和数据，配置CPU、内存、GPU **进行模型训练；配置任务优先级，默认正常级别、高和最高会不同程度增加作业在项目中被优先调度的权重；可选断点续训保护训练任务的自动容错功能；人工智能模块：支持AI机器学习框架集成和作业提交，支持主流的深度学习框架集成，包括Tensorflow、Pytorch、Mxnet、PaddlePaddle、等。支持深度学习训练任务单机多卡、多机多卡并行，支持PyTorch DDP，DeepSpeed, Megatron等并行方式，提供深度学习并行作业提交的Web页面。提供深度学习作业提交的Web页面，用户可在Web门户中提交多种框架的AI训练作业，提交时可指定训练作业所需的**，包括CPU、GPU、GPU切片数量、GPU类型等，支持web门户管理训练作业,查看作业动态输出日志、Tensorboard查看训练进展、打开作业管理的实验管理数据、并支持作业的插队、重新提交、暂停和终止等控制功能。具备AI方案可视化设计功能，提供基于组件拖拽的方式实现AI方案的可视化设计;支持配置AI任务的镜像，框架，**，超参等参数； ****中心功能，预置多种类型的AI案例，包括但是不限于图像多目标识别和分类、人脸识别, ChatGLM, LLAMA, Taiyi, Yolo, RestNet模型案例；提供可以演示的案例不少于8种多维度监控人工智能平台在机器学习过程中的运行情况，包括CPU、内存、加速卡实时监控，提供页面化的实时动态趋势图展示；具备容器镜像管理功能，用户基于Web页面可对私有镜像仓的镜像进行查询、导入、导出、修改、删除操作。支持镜像命名共享，开发私有镜像给其他用户使用。平台提供了多种容错方式，自动识别网络中断、服务器宕机、GPU 卡丢失的情况，自动会把作业重新运行， checkpoint 会自动恢复等容错方式，保证用户的任务高可靠的运行。图形界面显示容错机制启动信息，checkpoint信息（包括显示版本号，保存耗时，数据，存储路径，开始时间，制作时间，训练暂停时长等）; 如果发生中断，显示重启次数，故障时间和恢复时间，checkpoint恢复时间，异常日志等；运维计费功能：提供积计费管理功能，支持根据应用/作业/任务执行过程中实际使用的CPU， MEM， GPU **量进行计费和统计，支持对项目或者**组分别设置费率；可设置费率折扣；支持账户创建、修改、存取账户，并且可以查看账户流水；支持费用统计功能，设定一个时间段内总费用，任务费用趋势图，费用TOP5的任务和用户列表；

1、提供3年免费技术支持，及软件升级服务。2、原厂商安装调试服务。