| 项目名称 |
**省健康医疗行业高质量数据集建设项目 |
||
| 项目编号 |
HNXT-202511GY-0053 |
项目所在行政区 |
**省﹒**市﹒**区 |
| 资金来源 |
自筹 |
||
| 投资项目统一代码 |
2404-430304-04-01-735947 |
||
招标项目信息
| 招标项目编号 |
**** |
招标项目名称 |
**省健康医疗行业高质量数据集建设项目 |
| 招标项目类型 |
工业工程 |
项目业主名称 |
**** |
| 招标人名称 |
**** |
招标代理机构名称 |
**** |
| 招标方式 |
公开招标 |
招标组织形式 |
委托招标 |
| 是否重大项目 |
否 |
||
| 招标内容与范围 |
主要建设包括数据基础、开发、治理、资产运营、安全管理与服务开放等在内的高质量数据集服务平台。(1)预训练集涵盖文本、图像、视频3种模态数据,文本数据集源数据规模≥20TB,清洗后≥2TB;图像数据集源数据规模≥25TB,清洗后≥5TB,图像≥500万张;视频数据集清洗后≥500TB, 总时长≥2万小时;清洗后的预训练集重复率不高于50%;(2)清洗后的指令微调数据集≥45万条,重复率不高于1%;(3)测试数据集≥12万条;(4)项目建成后,数据集每年服务不少于5个大模型研发。 |
||
标段信息
| 序号 |
标段(包)编号 |
标段(包)名称 |
标段合同估算价 |
最高限价 |
操作 |
| 1 |
****01 |
**省健康医疗行业高质量数据集建设项目 |
1,800 |
1,800 |
详情 |
|
| 窗体顶端 主要建设包括数据基础、开发、治理、资产运营、安全管理与服务开放等在内的高质量数据集服务平台。(1)预训练集涵盖文本、图像、视频3种模态数据,文本数据集源数据规模≥20TB,清洗后≥2TB;图像数据集源数据规模≥25TB,清洗后≥5TB,图像≥500万张;视频数据集清洗后≥500TB, 总时长≥2万小时;清洗后的预训练集重 复率不高于50%;(2)清洗后的指令微调数据集≥45万条,重复率不高于1%;(3)测试数据集≥12万条;(4)项目建成后,数据集每年服务不少于5个大模型研发。 窗体底端 |
||||||