省有关单位,******局、发展改革委、教育局、科技局、****信息化局、交通运输局、农业农村局、****旅游局、卫生健康委、国资委,省属企业:
为贯彻落实“人工智能+”行动,科学总结推广各地各领域、省级****基地在高质量数据集建设运营方面的成效,强化数据高效供给,现组织开展高质量数据集征集工作,有关事项通知如下。
一、申报要求
(一)申报重点。面向科学研究、工业制造、农业农村、智慧能源、交通运输、金融服务、医疗卫生、教育教学、电子商务、人力**、文化旅游、应急管理、气象服务、绿色低碳、公共安全、城市治理、住房建设、自然**、流域治理等重点领域,以及低空经济、具身智能、智能驾驶、生物制造、新材料、航空航天、量子信息等创新领域,征集一批产业亟需、规模庞大、模态丰富、质量过硬、富有特色的行业高质量数据集,赋能人工智能纵深发展。
(二)申报主体。申报单位应在**省内注册,未被列入****事业单位。申报单位应具备相应的数据专业能力、质量控制体系及市场化应用成效,同时承诺履行数据质量、安全合规与长期维护的主体责任。涉及多个主体的,可结合实际情况联合申报,并明确牵头单位。原则上省级****基地至少报送1个高质量数据集。
(三)数据集要求。经过采集、清洗、标注等数据处理环节,具备鲜活度、真实性、大样本、完整性、多样性和高知识密度等特征,可直接用于开发和训练人工智能模型,并有效提升模型性能和智能体服务效能,与行业需求紧密结合,与应用场景深度契合。
二、遴选程序
(一)组织申报。请省有关单位、******局**相关部门、省属国企(以下简称“推荐单位”)组织申报单位认真对照本通知要求,按照《**省行业高质量数据集申报书(模板)》(附件1)编写申报书,填写《行业高质量数据集质量自评估表》(附件2),提供1个用于评测的数据集样例【其总量约为200—500条,数据应覆盖主要类型(如常见情况、边界情况、异常输入等),每种类型应随机抽取约50条具有代表性的样本,并确保数据来源的多样性】,并将申报材料盖章扫描版和可编辑word版以“单位名称+高质量数据集名称申报”命名,报送推荐单位汇总。申报单位原则上不得修改申报书格式,要求信息真实、数据准确、尽量用可量化指标描述,申报书篇幅不超过3000字。可附相关证明材料,包括但不限于技术先进性证明、建设运营成熟度证明、产权登记证书、专家技术成果鉴定、检测报告、用户使用报告等。
(二)检测评估。******局组织相关专业机构依据国家数标委研制的《高质量数据集质量评测规范》从数据质量、合规安全、应用价值和成效、技术支撑与创新、可持续发展能力等方面对申报的高质量数据集进行检测评估。
(三)遴选发布。******局**行业主管部门结合检测评估结果,遴选一批行业高质量数据集,培育典型案例,并以适当方式向社会公开发布。
三、报送时间和方式
推荐单位填写《**省行业高质量数据集申报汇总表》(附件3)并盖章,连同申报材料(电子版)于2026年2月6******局数据**处(邮箱:****@163.com)。
四、支持政策
1.支持入选高质量数据集通过产权登记进入数据要素市场安全合规流通,探索市场机制和运营模式,以高效应用促进高效供给,视情予以政策支持;
2.将入选高质量数据集建设主体纳入**省数据基础设施重点支持范围,指导并支持建设成为国家数据基础设施业务节点;
3.将入选高质量数据集择优纳入我省数据要素改革发展专项经费、人工智能专项等政策支持范围,助力高质量数据集应用推广。
联系人:朱青,0551-****8991;孙剑,0551-****9897。
附件:1.**省行业高质量数据集申报书
2.行业高质量数据集质量自评估表
3.**省行业高质量数据集申报汇总表
****
****委员会
安 徽 省 教 育 厅
**省科学技术厅
****信息化厅
****运输厅
****农业农村厅
****旅游厅
****委员会
****政府****委员会
2025年1月13日
附件1
**省行业高质量数据集申报书
(模板)
高质量数据集名称: (涉及多个数据集可自行加行)
申报单位 / 牵头单位:(盖章)
申请日期:__________年__________月__________日
**省行业高质量数据集基本信息表
申报单位名称:(盖章) 申报日期: 年 月 日
| 申报单位信息 |
单位名称 |
|||||||||
| 统一社会 信用代码 |
||||||||||
| 单位地址 |
||||||||||
| 单位性质 |
£政府 £企业 £科研院所 £事业单位 £高校 £其他 |
|||||||||
| 负责人 |
职务 |
联系方式 |
||||||||
| 联系人 |
职务 |
联系方式 |
||||||||
| 数据集简要信息(如有多个,视情况复制此部分,并自行添加序号) |
数据集名称 |
(命名为***数据集) |
||||||||
| 原始数据规模 (单位:TB) |
数据集规模 (单位:TB) |
|||||||||
| 所属行业领域 |
£科学研究 £工业制造 £农业农村 £智慧能源 £交通运输 £金融服务 £医疗卫生 £教育教学 £电子商务 £人力** £文化旅游 £应急管理 £气象服务 £绿色低碳 £公共安全 £城市治理 £住房建设 £自然** £流域治理 £低空经济 £具身智能 £智能驾驶 £量子信息 £生物制造 £新材料 £航空航天 £其他 |
|||||||||
| 数据集模态 |
£文本£图形图像£音频£视频£结构化£其他 |
|||||||||
| 建设性质 |
£已建成 £在建 |
|||||||||
| 数据集概况 |
(简要描述建设背景、主要内容、目的和用途等) |
|||||||||
| 数据集主要 数据来源 |
||||||||||
| 累计服务人工 智能模型数量 |
应用场景数量 |
|||||||||
| 服务模型名称 |
||||||||||
| 应用场景名称 |
||||||||||
| 申报 声明 |
1.我单位对本次申报的合法性、真实性、完整性和有效性负责,与其他单位或个人无知识产权纠纷。 2.经查询信用中国,本单位不是严重失信主体。 |
|||||||||
行业高质量数据集申报材料模板
(总篇幅不超过3000字)
一、建设背景
高质量数据集建设的背景描述,包括高质量数据集建设目的和必要性,建设基础、预期建设目标,所建高质量数据集在**省、**的差异化竞争优势,以及已开展的相关数据工作。
二、建设方案
高质量数据集建设总体思路和主要内容。包括但不限于高质量数据集建设、技术、运营、应用、生态等。建议通过架构图、流程图、模型图等配合描述。
三、建设成效
高质量数据集应用取得的经济效益、社会效益,牵头或参与制定的标准与技术规范,服务人工智能模型性能提升,赋能应用场景,产业生态培育等。尽可能用量化指标描述。
四、创新点和亮点
高质量数据集建设和应用过程中的核心创新与独特价值。包括但不限于技术创新、模式创新、管理创新、机制创新等。每条创新点单列一段,突出重点,描述应具体、可衡量。
(一)技术创新。高质量数据集构建全链路中实现的技术创新,包括但不限于在数据采集、清洗、标注、合成、质检及服务运营等环节采用或研发的创新技术或方法(例如:跨模态数据表征对齐、智能数据清洗、数据仿真与合成技术、人机协同数据标注等),并简述其提升效率、质量或降低成本的具体效果。
(二)模式创新。高质量数据集在建设、运营与服务方面采用的创新性组织或协作方式。包括但不限于协同共建、可持续迭代供给、应用服务等。
(三)管理创新。保障高质量数据集建设与安全可控而实施的管理体系创新。包括但不限于全生命周期管理、质量管理体系、安全管控体系等。
(四)机制创新。推动高质量数据集设施化应用和生态体系发展的制度性创新。包括但不限于**共建、市场化运营模式、长效发展等。
五、涉及相关方介绍
高质量数据集建设过程中涉及的相关主体,包括但不限于建设方、运营方、数据提供方、数据使用方以及技术支持方等。各方以高价值场景为牵引,共同构建共生互惠、协同演进的数据生态,推动产业链协同创新。
附件2
***行业高质量数据集质量自评估表
| 一、数据集基本信息 |
|||||
| 检查项 |
填报要求 |
评分参考(1—5分) |
申报单位填报 |
自评得分 |
|
| 1. 数据集主题与领域 |
明确所属行业(参照附件1行业领域) |
符合**省高质量数据集征集行业方向得5分 |
|||
| 2. 数据规模与更新频率 |
注明数据量(TB)、更新周期(日/月/年) |
规模≥1TB或日更新得5分;规模小或低频更新得1—4分 |
|||
| 3. 数据来源与采集方式 |
描述数据来源(传感器、业务系统等)及采集规范 |
多源融合(如遥感+物联网)或符合国家标准得5分 |
|||
| 4. 数据格式与标准化 |
列出主要格式(CSV/JSON/数据库等)及遵循标准 |
采用通用格式且有元数据规范得5分 |
|||
| 二、数据质量核心指标 |
|||||
| 检查项 |
评价标准 |
评分参考(1—5分) |
附加指标 |
自评得分 |
|
| 5. 数据完整性 |
关键字段缺失率≤5% |
缺失率≤1%得5分;≥10%得1分 |
|||
| 6. 数据准确性 |
与真实值一致率≥95% |
≥99%得5分;≤90%得1分 |
|||
| 7. 数据一致性 |
无矛盾值(如时间逻辑错误) |
完全一致得5分;存在明显矛盾得1分 |
|||
| 8. 数据时效性 |
数据延迟符合应用需求 |
实时/近实时得5分;滞后超1年得1分 |
|||
| 9. 数据可访问性 |
API接口或平台查询响应时间≤3秒 |
响应≤1秒得5分;≥10秒得1分 |
|||
| 三、合规与安全 |
|||||
| 检查项 |
具体要求 |
评分参考(0—5分) |
证明材料位置 |
自评得分 |
|
| 10. 数据授权与隐私保护 |
含个人信息时需脱敏或获授权 |
□是(5分) □否(0分) |
附件页码:___ |
||
| 11. 合规性 |
符合《中华人民**国网络安全法》《中华人民**国数据安全法》《中华人民**国个人信息保护法》等 |
□是(5分) □否(0分) |
附件页码:___ |
||
| 12. 安全管控措施 |
有访问控制、加密存储机制 |
□是(5分) □否(0分) |
附件页码:___ |
||
| 四、应用价值与成效 |
|||||
| 检查项 |
填报说明 |
评分参考(1—5分) |
案例名称 |
自评得分 |
|
| 13. 业务场景明确性 |
描述解决的具体问题(如农业亩产提升) |
场景清晰且属行业痛点得5分 |
|||
| 14. 已产生经济效益 |
量化收益(如降低成本10%、增收百万元等) |
有明确财务数据得5分 |
|||
| 15. 社会效益 |
推动行业转型、培养人才等 |
有实际案例(如培育新模式、新业态等)得5分 |
|||
| 16. 行业示范性 |
是否可复制推广(如技术规程输出) |
形成标准或跨区域应用得5分 |
|||
| 五、技术支撑与创新 |
|||||
| 检查项 |
评价标准 |
评分参考(1—5分) |
案例名称 |
自评得分 |
|
| 17. 多模态数据融合能力 |
支持文本、图像、遥感等多源数据整合 |
实现高效融合(如空天地一体化等)得5分 |
|||
| 18. 技术先进性 |
应用AI/区块链等新技术 |
有专利或算法创新(如深度学习模型等)得5分 |
|||
| 19. 平台工具配套 |
提供数据管理平台或API服务 |
有SaaS平台或云管控工具得5分 |
|||
| 六、可持续发展能力 |
|||||
| 检查项 |
具体要求 |
评分参考(0-5分) |
证明材料 |
自评得分 |
|
| 20. 长期维护机制 |
有专职团队、资金计划 |
□是(5分) □否(0分) |
附件页码:___ |
||
| 21. 生态** |
与高校、企****实验室) |
□是(5分) □否(0分) |
附件页码:___ |
||
| 22. 标准化输出 |
形成技术规程或行业标准 |
□是(5分) □否(0分) |
附件页码:___ |
||
| 七、综合评审意见 |
|||||
| 申报单位自评得分 |
_____________分 |
||||
附件3
**省行业高质量数据集申报汇总表
推荐单位:(盖章) 年 月 日
| 序号 |
申报单位 名称 |
行业领域 |
数据集 名称 |
数据集 规模 |
数据集 模态 |
服务模型 名称 |
应用场景名称 |
申报单位联系人及联系方式 |
备注 |
| 1 |
|||||||||
| 2 |
|||||||||
| 3 |
|||||||||
| … |