OCR服务多集群适配调优及工具开发(ZJLAB-FS-BX20250114)采购公告

发布时间: 2025年09月09日
摘要信息
招标单位
招标编号
招标估价
招标联系人
招标代理机构
代理联系人
报名截止时间
投标截止时间
招标详情
下文中****为隐藏内容,仅对千里马会员开放,如需查看完整内容请 或 拨打咨询热线: 400-688-2000
相关单位:
***********公司企业信息
项目名称 项目编号 公告开始日期 公告截止日期 采购单位 付款方式 联系人 联系电话 签约时间要求 到货时间要求 预算总价 发票要求 含税要求 送货要求 安装要求 收货地址 供应商资质要求 公告说明
OCR服务多集群适配调优及工具开发****
2025-09-09 17:10:382025-09-12 18:00:00
****合同签订后7个工作日内向乙方支付50%;项目验收后7个工作日内,向乙方支付剩余50%。
¥280000.00

符合《政府采购法》第二十二条规定的供应商基本条件


采购清单1
采购商品 采购数量 计量单位 所属分类
OCR服务多集群适配调优及工具开发 1 基础软件开发服务
品牌 型号 预算单价 技术参数及配置要求 参考链接 售后服务
¥ 280000.00
完成面向大规模科学语料生产的OCR服务多集群适配调优及工具开发,重点提升在异构GPU环境下的文档解析效率与文本识别准确率。聚焦OCR处理流水线的性能调优、多型号GPU适配、主流OCR技术方案在科学文献场景下的准确率对比验证,以及对现有OCR质量评测集的自动化、工作流化评测能力构建、 轻量级标注支撑功能开发与数据生产、OCR可视化工具开发为语料生产系统提供高精度、可评估、可持续迭代的底层解析支持。 核心工作包括:实现与现有高性能计算平台的稳定对接,优化OCR处理Pipeline,提升吞吐量与识别质量;开展主流OCR技术方案的准确率横向评测;构建基于现有评测集的标准化评测工作流,实现质量评估过程的自动化、可复现与高效化;开发OCR可视化工具与轻量级标注支撑功能,支持结构化内容提取、在线编辑、原文溯源及任务管理,提升语料处理的可用性与生产效率。 (一)具体需求内容及服务要求 完成面向大规模科学语料生产的OCR服务多集群适配调优及工具开发,重点提升在异构GPU环境下的文档解析效率与文本识别准确率。聚焦OCR处理流水线的性能调优、多型号GPU适配、主流OCR技术方案在科学文献场景下的准确率对比验证,以及对现有OCR质量评测集的自动化、工作流化评测能力构建、 轻量级标注支撑功能开发与数据生产、OCR可视化工具开发为语料生产系统提供高精度、可评估、可持续迭代的底层解析支持。 核心工作包括:实现与现有高性能计算平台的稳定对接,优化OCR处理Pipeline,提升吞吐量与识别质量;开展主流OCR技术方案的准确率横向评测;构建基于现有评测集的标准化评测工作流,实现质量评估过程的自动化、可复现与高效化;开发OCR可视化工具与轻量级标注支撑功能,支持结构化内容提取、在线编辑、原文溯源及任务管理,提升语料处理的可用性与生产效率。 核心功能需求 1. 多型号GPU环境下OCR流水线对接与性能优化 ○ 实现与现有高性能计算平台的稳定对接,支持通过工作流调度OCR任务,并适配多种型号GPU**,自动匹配最优执行环境与**配置策略。 ○ 优化OCR处理Pipeline,提升关键性能指标: ◆ 文档解析吞吐量 ≥ 1500页/小时/单节点(PDF + DJVU格式,含版面分析与文本识别); ◆ 在统一测试集上达到以下质量指标: ● OverallEdit ↓ ≤ 0.20(整体内容编辑距离,越低越好) ● TextEdit ↓ ≤ 0.10,(文本还原质量) ● FormulaEdit ↓ ≤ 0.40,FormulaCDM ↑ ≥ 0.85(公式识别完整性与准确性) ● TableTEDS ↑ ≥ 80,TableEdit ↓ ≤ 0.20(表格结构还原能力) ● Read OrderEdit ↓ ≤ 0.05(阅读顺序还原准确率) ○ 完善任务异常处理机制,支持自动重试(最多3次)、失败任务日志写入ODPS,并提供关键指标(如任务成功率、GPU利用率、显存占用等)。 2. 主流OCR技术方案调研与准确率对比验证 ○ 针对科学文献解析场景,调研并部署至少3类OCR技术方案进行横向准确率评测,包括但不限于: ◆ 当前自研OCR引擎(主用方案) ◆ DotsOCR(开源文档OCR框架) ◆ MonkeyOCR(或同类高精度OCR系统) ○ 在统一测试集(基于项目现有OCR质量评测集,不少于800页,覆盖PDF、扫描件、双栏/多栏排版、公式图表混合等典型文献类型)上进行端到端准确率对比,评测指标包括: ◆ 整体内容编辑距离 ◆ 文本还原质量 ◆ 公式识别完整性与准确性 ◆ 表格结构还原能力 ○ 输出《主流OCR对比评估报告》,明确各方案在科学文献场景下的优势、短板及适用建议。 3. 轻量级标注支撑功能开发与数据生产 ○ 在现有系统基础上,扩展支持 标注任务分发与进度管理功能,实现任务分配、状态跟踪与截止时间提醒。 ○ 集成基于大模型的 自动预标注能力,对标题、摘要等字段提供初标建议,人工标注效率提升 ≥30%。 ○ 完成 不少于1万条 结构化标注数据的生产与入库,用于下游语料流水线的模型训练与效果验证。 4. OCR可视化工具开发 ○ 完成OCR可视化工具的开发,支持PDF、Word、ePub等格式文档的上传与结构化解析,实现文本、表格、公式、图片等内容的自动提取与Markdown、JSON等多格式输出。 ○ 提供在线编辑、原文溯源、上下篇切换、批量导入导出等功能,支持解析结果与原始页面双向定位。 ○ 工具需具备直观的交互界面,满足用户对科技文献内容提取、查看、修改与导出的一体化操作需求,提升语料处理的可视化与可用性。 5. 现有评测集的工作流化质量评估能力建设 ○ 基于现有OCR质量评测集,构建标准化、可复用的自动化评测工作流,实现从原始文档输入到OCR结果比对、质量打分、问题归因的全流程自动化。 ○ 工作流支持: ◆ 自动加载评测集与真值标注数据 ◆ 调用不同OCR引擎并运行推理 ◆ 自动生成准确率、Edit、CDM等核心指标报告 ○ 目标:将单次OCR模型/参数迭代的评测周期从人工评估的3–5人日缩短至≤4小时,显著提升模型优化效率与评测一致性。 6. 后续迭代支持机制 ○ 在主体功能交付并稳定运行后,供应商应配合项目实际需要,支持必要的OCR模型微调、参数优化或轻量级功能扩展。 ○ 所有新增需求需经双方书面确认,明确范围、工作量与交付周期,确保不影响现有系统稳定性。 技术及服务要求: Python,Java语言及对应的常用Web框架,熟悉Kubernetes、Docker,Odps,ADB,MySQL,Redis等云产品使用 (二)质保及售后服务要求: 保障交付的系统功能能够满足项目组实际应用需求。 乙方负责向甲方提供技术售后服务2个月,自甲方签收产品之日起;发生质量问题,乙方要在24小时内响应,必要时72小时内到用户现场排除故障,售后服务地点由甲方确定 (三)验收标准: ● 提供OCR可视化工具,轻量标注服务和OCR语料处理优化服务相关工程代码; ● 适配多种型号GPU,提供其语料处理服务的镜像Dockerfile; ● 优化后数据处理解析效率在单节点吞吐量超过1500页/小时; ● 完成自研OCR、DotsOCR、MonkeyOCR等不少于3类方案在统一测试集上的横向评测,输出《主流OCR对比评估报告》,包含Edit、CDM、等核心指标及适用场景建议。 ● 标注任务分发、进度管理及自动预标注功能在现有系统中部署上线,支持任务分配与状态追踪;提供预标注功能对标题、摘要字段,使人工标注效率提升≥30%,完成 不少于1万条 结构化标注数据的生产与入库,用于下游语料流水线的模型训练与效果验证。 (四)服务履行时间: 驻场服务总工期不少于5个月,确保团队有足够时间与甲方深入沟通与协作,保障项目的高效推进与按时交付。 (五)付款方式: 合同签订后7个工作日内向乙方支付50%;项目验收后7个工作日内,向乙方支付剩余50%。标书代写
乙方负责向甲方提供技术售后服务2个月,自甲方签收产品之日起;发生质量问题,乙方要在24小时内响应,必要时72小时内到用户现场排除故障,售后服务地点由甲方确定;

招标进度跟踪
2025-09-09
招标公告
OCR服务多集群适配调优及工具开发(ZJLAB-FS-BX20250114)采购公告
当前信息
招标项目商机
暂无推荐数据
400-688-2000
欢迎来电咨询~