招标详情
下文中****为隐藏内容,仅对千里马会员开放,如需查看完整内容请
「注册/登录」或 拨打咨询热线:
400-688-2000
项目名称
| 算力设备纳管及融合管理平台 | 项目编号
**** |
公告开始日期
| 2025-10-10 11:33:21 | 公告截止日期
2025-10-14 12:00:00 |
采购单位
| **** | 付款方式
验收合格后,采购人整理相关付款资料,经内部审批后向中标人支付合同总金额100%货款 |
联系人
| 联系电话
|
签约时间要求
| 到货时间要求
签约后15个自然日 |
预算总价
| ¥487000.00 |
发票要求
|
含税要求
|
送货要求
|
安装要求
|
收货地址
| **省**市**区兰田路**** |
供应商资质要求
| 符合《政府采购法》第二十二条规定的供应商基本条件 |
公告说明
|
采购商品 采购数量 计量单位 所属分类
| 算力设备纳管及融合管理平台 |
1 |
项 |
应用软件 |
品牌
| **超算 |
型号
|
预算单价
| ¥ 487000.00 |
技术参数及配置要求
| 总体要求: 1.授权节点数量:提供集群平台节点永久正式版授权license数量不低于10个; 2.平台的中立性和普适性:要求投标集群管理与作业调度软件需为独立运行产品,不与服务器品牌绑定,可支持不同品牌的服务器,应答时提交承诺函(格式自定)并加盖应答供应商公章; 3.高可用性要求:全套系统各组件采用冗余设计,单计算节点失效不会影响整体集群的运行,单个存储节点失效不会导致数据丢失;单节点故障对应用透明,不影响应用的正常数据读取;所有节点之间,中断任意一个链路都不影响系统运行; 4.混合调度要求:管理平台需具备超算Slurm调度与智算Kubernetes容器编排的双向灵活伸缩能力,实现超算和智算混合场景的智能自适应调度,无需手动配置**池; 5.多架构支持:支持x86、ARM、GPU和Power等混合架构调度管理,支持飞腾、鲲鹏、海光、龙芯、申威、澜起等国产化处理器的适配; 6.国产化加速卡适配:支持海光、沐曦、昇腾、燧原、清微智能和莹矽加速卡的适配; 7.存储系统兼容性:支持Loongstore和XSKY分布式文件存储系统的适配; 8.操作系统兼容性:支持国产化操作系统,支持与**、龙蜥、统信、欧拉、中科方德和云峦KOS的适配。 集群管理模块: 1.支持通过web界面统一管理系统用户。支持并免费与LDAP、AD域用户或者统一身份认证集成,支持用户组织架构管理和用户审批; 2.支持二级管理员功能,****学院/部门内的用户进行管理,可以查看作业情况、计费和报表等功能(应答时提供系统功能截图并加盖应答供应商公章); 3.支持项目管理,可创建、修改、删除项目信息,以及配置项目中所包含的用户或用户组,支持配置项目管理员,并可以管理项目组成员以及设置每个成员的**使用限额; 4.支持在界面上对单机或批量节点进行操作,包括:远程开机、关机、重启和删除节点等操作(应答时提供系统功能截图并加盖应答供应商公章); 5.支持设备管理,包括:机柜、服务器、虚拟机等**的增、删、改、查和租赁(应答时提供系统功能截图并加盖应答供应商公章); 6.支持部门/项目/用户维度的**使用限制,包括CPU核心数、GPU卡数、内存使用量、作业数量等,支持用户存储使用量限额配置,支持的文件系统包含NFS、Lustre、GPFS、BeeGFS、OceanStor、NextData等; 7.支持镜像管理,可拉取云端镜像,支持本地镜像上传,提供容器镜像隔离能力,支持为不同用户分配相应的访问权限,实现用户组间权限隔离,支持为用户自定义镜像安装代码开发环境依赖包; 8.支持消息管理,管理员可以发布首页消息和用户消息,普通用户可以在消息栏中查看管理员通知、作业消息和计费消息等(应答时提供系统功能截图并加盖应答供应商公章); 9.支持自定义水印、界面防截屏,支持主题背景定制; 10.支持管理节点高可用(HA)(应答时提供系统功能截图并加盖应答供应商公章)。 安全与审计模块: 1.提供平台三员分立管理模块(系统管理员、安全保密管理员、安全审计管理员)实现三种管理员权限分离,三种管理权限设置相互独立,相互制约; 2.系统管理员角主要功能:配置系统参数和策略;实现账户和账户组的创建、删除、修改、查询和导入;查看系统运行日志;查看系统监控信息,发现系统异常并及时处理;查看系统和用户作业报表等; 3.支持设置用户登录IP白名单,支持查看在线用户和强制下线可疑用户; 4.支持登录动态码的双因子认证; 5.支持密码复杂度校验策略:密码要求至少8位,包含特殊字符、大小写字母和数字;支持密码有效期设置;支持密码输入次数设置和输入超限时账号锁定机制; 6.支持用户注册防攻击检测;支持用户登录超时时限设置;支持用户信息数字加密; 7.安全保密管理员角色主要功能:账户授权与管理;查看普通用户账户和安全审计员操作日志,监控操作行为等; 8.安全审计员角色主要功能:查看系统管理员和安全保密管理员操作日志;对系统管理员和安全保密管理员的操作行为进行审计追踪分析等; 9.支持对作业任务具有密级标识,具有防止信息扩散或密级篡改的能力; 10.提供用户和三种管理员操作的全面日志记录和审计。如:用户管理(添加、删除、修改等)、用户登录、退出,提交作业,文件操作(上传、下载、拷贝,删除,重命名),日志导出与删除等都能被记录。审计记录要提供如下信息:用户、登录IP、时间、操作类型、操作内容、部门、级别等相关信息; 11.支持与应用软件高度集成,能将计算软件参数配置、数据输入等配置信息统一提供给用户,通过统一WEB界面访问后台应用软件。 多集群管理模块: 1.支持多集群的部署,支持主集群统一管理多个子集群和子集群的权限设置; 2.多集群的集群角色包含主集群和子集群,用户角色包含主集群超级管理员、子集群管理员和子集群用户角色。 3.支持多个集群统一监控; 4.支持用户在子集群间无缝切换,支持跨集群作业分发与调度; 5.支持子集群间的数据传输,数据可根据任务选择在集群间自动传输; 6.支持统一主集群扣费和余额显示。 监控与运维模块: 1.提供直观的集群物理拓扑视图,支持以机柜为基础的集群物理拓扑方式,显示节点的闲忙状态,同时可以对节点进行开机、关机、VNC连接、命令行连接等操作(应答时提供系统功能截图并加盖应答供应商公章); 2.可监控当前集群整体使用情况,包括CPU使用率、GPU使用率、内存使用率、磁盘剩余量、网络流量和负载等(应答时提供系统功能截图并加盖应答供应商公章); 3.支持对单机基本信息和使用情况进行监控,包括对CPU型号、核心数、主频、睿频和峰值计算能力、单精度/双精度浮点计算能力进行监控,支持磁盘和主机能耗监控,可实时查看GPU的温度、使用率、已用显存、处理器频率和读写带宽等性能指标(应答时提供系统功能截图并加盖应答供应商公章); 4.支持节点列表形式监控,可查看节点名称、状态、**使用、作业分布、负载监控等信息,如有异常作业(包括挖矿程序或者未通过调度系统提交的作业)提供负载报警(应答时提供系统功能截图并加盖应答供应商公章); 5.支持机房环境(温度、湿度、UPS、PDU等)的监控和展示,以及远程报警; 6.支持短信和邮件方式的系统报警功能,支持服务器的网络通信异常、机柜、机箱、系统服务和进程状态告警,支持智能配电柜、UPS、环境空调、列间空调、烟感水浸告警、可设置CPU使用率、GPU使用率、内存使用率、负载、磁盘容量等信息的普通告警和紧急告警阈值,支持告警的处理操作(应答时提供系统功能截图并加盖应答供应商公章); 7.支持部门/项目/用户维度的**使用统计排名,支持存储使用量TOP排名; 8.支持大屏幕可视化展示; 9.支持集群作业、**、费用数据的统计分析,可按日、周、月和自定义周期展示,可查看提交和已完成作业数量趋势图,可查看各队列作业分布、已完成作业运行时长分布、作业排队时长分布,支持费用分布和趋势分析。 任务调度及WEB作业提交门户: 1.采用主流的作业调度软件,支持Slurm、PBS、SGE和LSF调度器(应答时提供系统功能截图并加盖应答供应商公章); 2.支持基于kubernetes的容器管理与任务管理,支持singularity和docker等容器调度; 3.支持常用高性能计算软件的应用模板,与第三方科学工程软件集成,可通过拖拽式编辑方式,生成个性化应用模板; 4.可以配置应用模板访问权限,被授予访问权限的用户在界面上可见该应用模板,用户也可根据需求下载应用模板(应答时提供系统功能截图并加盖应答供应商公章); 5.支持自定义应用类型,支持应用模板分类存储(应答时提供系统功能截图并加盖应答供应商公章); 6.应用模板中应包含应用提交、作业列表、作业操作、应用终端输出显示、作业提交目录数据查询、应用交互页面显示、应用运行占用CPU/内存等信息查看; 7.支持WEB界面的作业查询、终止、挂起、释放、设置最大运行时长和调整优先级等操作,可以根据作业ID、作业名、用户名、状态和队列排序(应答时提供系统功能截图并加盖应答供应商公章); 8.支持作业运行实时监控与性能分析,对作业运行全周期的**使用情况进行细致追踪。在作业执行期间,系统能够实时捕捉并展示CPU、内存等关键**的使用情况,当检测到**使用率低于设置阈值时,将触发告警机制,确保管理员和用户及时获知潜在的性能瓶颈。作业完成后,系统能自动收集并分析执行数据,生成性能曲线,帮助开发者和管理员识别并优化性能问题,提升作业的执行效率与系统稳定性; 9.提供主流的调度策略:公平竞争、抢占、回填、**预留等; 10.支持多种作业提交方式:支持命令行、Web界面、应用模板、作业脚本和可执行文件等; 11.禁止普通用户以交互式方式登录计算节点,但可登录已经运行作业的节点进行**查看及进程操作; 12.支持WEB门户和应用模板的二次开发。 远程三维设计模块: 1.支持DCV、VNC协议进行二维或者三维远程交互设计,支持页面访问和客户端访问; 2.支持采用高效远程桌面协议连接,保证设计的图像流畅性,同时数据不落地,保证数据信息的安全; 3.提供仿真设计一体化模块,支持将三维建模、仿真计算和后处理结果分析整合成一套完整的流程,在统一平台操作,共享设计和计算的数据,方便管理和使用,提升用户体验和缩短研发周期; 流程管理模块: 1.支持拖拽应用模板形成任务流,可自定义应用之间的依赖关系; 2.支持图像化显示任务流中子任务的依赖关系; 3.支持按照所定义的依赖关系自动运行作业; 4.支持流程状态查看和子任务列表形式查看,可显示任务流总体运行情况和每个子任务的运行状态; 5.支持跨学科、多种应用流程管理。 应用许可证模块: 1.支持监控多个许可证服务器,可以查看许可证服务器的状态(Down、UP)、过期时间、feature的总数量、使用数量、故障率。可以按License Server 、Vendor、License Feature、License Total Count、License Expire Date、License Usage Count、License UT等信息进行筛选; 2.支持按用户或部门对许可证feature的使用情况进行分组统计;支持针对某个feature分组显示利用率饼图; 3.支持对许可证过期时间进行预警,以不同颜色在页面上面显示,并能够以邮件形式向用户提醒许可证的过期时间。 4.支持许可证费率设置,可设置Feature和Vendor的费率; 5.支持许可证报表,提供Feature使用时长、Feature使用率、Feature使用峰值、许可证故障率和许可证成本折算报表; 6.提供许可证计费详单,用户可查看每个许可证使用时长的计费详单。 系统报表模块: 1.报表系统与集群管理和作业调度之间为松耦合模式,支持独立提供报表模块安装包,支持中/英文作业和**的报表; 2.支持通过图形和表格两种方式展示,按部门、项目、队列、用户等不同维度统计作业的提交、完成、异常退出的数量、作业机时、作业平均耗时、作业平均等待时间、作业平均响应时间等信息的报表; 3.支持通过图形和表格两种方式展示CPU使用率、GPU使用率、内存使用率、存储使用率和机器可用性报表; 4.支持自定义报表,支持从不同维度统计CPU核时、GPU卡时、内存使用率、作业相关信息,支持从空间角度(包括部门、项目、用户、队列和应用)和时间角度(如同比和环比)进行对比分析,展示方式包括表格、柱状图、条带图、饼状图、仪表盘、折线图等,可定制时间粒度,如天、周、旬、月、季度、半年、年等; 5.支持导出PDF、HTML和CSV等格式; 6.支持归档报表,将定期报表进行归档; 7.支持报表系统的二次定制开发。 模型开发: 1.支持配置对接git代码仓,直接加载代码进行开发、调试; 2.支持PyTorch、TensorFlow、MindSpore、PaddlePaddle等国内外主流AI框架; 3.可通过在线Notebook、VS Code进行代码开发、训练、评估,支持VS Code、PyCharm等开发IDE通过SSH信息或密钥方式访问代码开发环境,方便开发者进行远程调试; 4.支持在页面提交训练任务,运行代码开发环境下的代码; 5.支持模型开发过程可视化查看,支持集成使用第三方工具链,包括Netron、TensorBoard、Mindinsight等; 6.平台支持conda,可在代码开发中按需选择并激活进入conda虚拟环境,进行模型开发/训练; 7.支持基于预置模型的无代码训练,支持超参设置,训练数据集选择,提供CPU/GPU/NPU等**规格来运行训练任务,支持选择不同算力规格**开展模型训练,支持分布式训练,支持对训练完成的模型进行评估,输出评估指标等信息; 8.支持实验对比,支持对项目中的模型训练、评估任务的基本信息、输入参数、输出指标进行对比,包括表格对比和可视化对比; 9.支持模型增量训练,可以加载已有任务输出的权重文件,作为预训练模型进行增量训练; 10.支持对接第三方数据平台,支持使用其数据集进行模型训练和评估; 11.支持机器学习建模,支持可视化拖拽式建模,支持在画布上通过拖拽模块、连接模块搭建可视化实验流程,建好的实验流程可以运行、停止、保存,可直接拖拽项目关联的数据源和数据集,作为实验流程的输入数据; 12.支持常用的特征工程,如数据标准化、主成分分析、独热编码等; 13.支持数据划分,支持自定义划分比例,将数据划分为训练集和测试集; 14.支持分类、回归、聚类等常用的机器学习算法; 15.支持通过Python、SQL等编程语言进行数据处理和分析; 16.支持建模数据/结果可视化展示,支持折线图、直方图、柱状图、气泡图、条形图等多种展示方式; 17.支持可视化流程编排功能,可灵活通过拖拽式构建模型建模流程,流程中包含数据选择、模型选择、模型训练、结果可视化等;支持对可视化编排流程进行暂停、停止等操作; 18.支持创建可视化流程编排模版,可对模板进行创建、编辑、查找、删除等操作。 大模型模块: 1.支持问答数据上传管理,支持json、pdf、doc、txt等多种格式数据上传; 2.支持对问答数据进行多种处理,如向量化处理、问答数据手动/自动标注、繁简体转换、去重等操作; 3.支持预置多种第三方大模型,平台提供不少于10个大模型预置交付,用户可基于预置大模型快速开展大模型微调训练; 4.支持第三方大模型导入管理,微调训练、部署推理应用; 5.支持大模型微调,支持LoRA/全量微调,微调过程日志可视化; 6.支持Ceval,Cmmlu,mmlu等多种模型评估方式; 7.支持对微调训练后的大模型进行量化、裁剪后部署推理,提供用户推理可调用的API接口,方便用户用接口的方式调用大模型的推理能力,提供推理调用监控; 8.支持用户聊天应用窗口,可以在平台上通过加载已微调的大模型进行加载,并进行对话,可以快速验证微调大模型的能力;应用窗口可选择不同参数的大模型进行交互使用,支持对大模型回答结果进行反馈优化; 9.支持Prompt模版管理,支持Prompt创建、管理、角色创建及赋能使用; 10.支持大模型检索问答; 计费及成本核算模块: 1.支持按CPU核时、GPU卡时、应用**、存储用量和内存用量计费; 2.支持存储用量按不同阶梯设置费率,如按0-100GB、100GB-500GB、500GB以上分段设置不同的费率进行计费,支持存储按固定的配额或实际用量设置计费规则; 3.支持计算**或存储**设置组合或减免赠送机制,支持计算**按小时或按使用量计费; 4.支持设备租赁,支持机柜、服务器、虚机等**的整租计费,支持包队列和包节点的计费,支持预付费和按日扣费模式; 5.支持从队列、部门、用户、项目、时间或者**多个维度设置不同的折扣系数; 6.支持用户查看余额和费用详单,可显示每一条作业的计费信息和存储计费信息;管理员可查看集群所有用户的费用详单; 7.支持预付费、透支和折扣设置,可根据充值金额设置可用**限额(应答时提供系统功能截图并加盖应答供应商公章); 8.支持项目用户的可用额度限制; 9.支持按队列、部门和用户统计CPU、GPU、内存和存储的费用,可按组织架构展示费用总览,支持导出详单; 10.支持账单内容和样式定制,支持调账和账单申诉,支持挂单、结单和缴费等操作; 11.支持与大型仪器共享平台或者财务系统免费对接,实现**使用账单的自动接收,支持对接第三方的审核与缴费流程,最终将账单信息推送至财务系统进行统一结算。 系统集成: 1.系统部署服务,由应答供应商工程师在用户指定地点,完成集群操作系统和管理软件的部署、安装和调试,确保系统稳定运行并满足用户需求; 2.****学校统一身份认证系统的用户对接与配置工作,实现用户身份的统一管理和访问控制; 3.免费对常用应用软件进行调试,确保其在系统上稳定运行,并根据用户需求实现与管理平台的定制化集成; 4.免费提供高性能计算集群的硬件性能诊断测试服务,包括全部CPU、GPU、内存、网络和存储的性能测试,并提供测试报告(格式自定),报告中需包含实测性能的合理化分析和优化建议,以帮助用户更好地了解和优化集群性能; 5.按学校要求免费定制开发系统界面,包括但不限于登陆界面、主界面、大屏展示、节点监控等; 6.提供系统管理员手册,用户手册,实施报告等文档,以便用户和管理员能够更好地了解和使用集群系统; 7.免费提供集群基础系统、集群管理系统、集群网络文件系统,以及作业调度系统软件相关的管理员和用户培训。 |
参考链接
|
售后服务
| 1.质保期:1 年,自货物验收合格之日起生效。2.售后服务:质保期内无偿提供现场售后服务。3.维护服务:(1)免费提供1年系统维护服务;(2)提供专业运维服务;承诺提供不少于2名售后服务人员,满足学校工作安排和工作时间要求,提供5*8小时技术服务安排,7*24小时保障系统的正常使用,上述售后服务人员需具有本科或以上学历。(应答时提供售后服务人员名单、学历证明文件、承诺函(格式自定)并加盖公章);(3)免费提供1年系统技术支持,包括操作系统故障、集群软件问题处理、应用软件编译优化、应用集成和脚本编写等,跟踪超智融合计算集群系统的运行情况,持续优化调度策略和集群系统使用效率;(4)及时更新系统安全补丁,防止系统受到已知漏洞的攻击或利用,确保系统的安全性;(5)服务期内提供7*24小时的电话、邮件及远程登录等技术支持咨询服务,提供7*24小时远程和现场故障处理服务。在系统发生重大故障时,技术人员应能达到4小时内解决故障,如需现场解决的,人员应在6个小时内到达现场。(6)提供每年1次系统巡检服务,包括性能诊断、日志分析等,对系统运行情况进行评估,提出改进和优化建议,确保系统稳定运行;(7)提供每年1次的用户使用培训。; |