********中心)国家版本馆征调古籍抢救—古籍数字化扫描项目采购项目的潜在供应商应在线上获取采购文件,并于2024年05月21日 09时30分(**时间)前提交响应文件。
包号:001
包组名称:国家版本馆征调古籍抢救—古籍数字化扫描
标的对应的中小企业划分标准所属行业:软件和信息技术服务业
★一、加工数量
针对采购方本项目提供的古籍书目,进行数字化加工,总加工量不少于66250筒子叶。
★二、数字化加工技术方案
藏孤本善本古籍数字**库的建设总体上分为四个步骤:图片处理、电子书制作、元数据标引及著录、元数据与电子书的链接。首先将馆藏古籍可通过扫描、拍照等技术手段实现数字化,对图片进行处理;其次以这些图片文件为基础,进一步利用电子书加工系统制作电子书,将电子书打包导出;最后以电子书为依据制作元数据并将打包的电子书与元数据进行链接。供应商提供原始图片文件、电子书文件、元数据文件。成交供应商须到馆数字化加工,任何古籍文献不得带出********中心)。
★三、数据库的结构
详见服务需求响应表附件1。
四、图片处理
图片要保持原貌,采用真彩色方式扫描,图片最低分辩率为24位400dpi以上,生成格式为两类:1、TIFF格式,用于文件的长期保存。2、JPG格式和png格式用于文件的发布服务。要求图像清晰,完整,内容无缺失,无漏扫、错扫,保证页码连续,无缺页、重复等问题。对图像要进行自动和手工去污、锐化、倾斜校正、去黑边、杂点去除、文字效果增强等数字化处理,达到扫描精度和容量,保证原文原貌的浏览效果。要保证加工后的文献资料的完整性,不得损坏、丢失文献资料。
★五、电子书制作
首先要进行目录索引的制作,制作目录索引时以目次页为主要依据,目次与正文不符时以正文为准,目录信息与相应页面的链接要准确无误,各章节之间的级次要清晰准确。无目次页的,可依据书中主要内容自行编制目次。目次内容应存入txt或word文档中,录入对应的元数据目次字段中。目录索引制作完成后,需对书页进行倾斜校正、去噪、版心校正等额外处理,使图像更加清晰,然后生成电子书。
六、数据库建设规范
★1、记录标识号规范
记录标识号用于标识对象,是对象永久唯一的名称。记录标识号作为数字对象名称被嵌入在元数据中,并作为对象数据文件的第一级保存目录。 记录标识号共15位,由5段组成:机构登记号—主题代码—年月—批次—流水号。其中:
机构登记号:3位,****为023
主题代码:2位,古籍图书为03
批次:2位,当月内提交**的批次号,每月的批次号以01起始。
示例:2012年8月第一批提交的数据写成120801
2012年8月第二批提交的数据写成120802
2012年9月第一批提交的数据写成120901
流水号:4位,本批内数据顺序号,从0001、0002依次排列。若本批内数据记录超过9999条,由批次号自动加1,9999条之后的数据算做下一批次内数据,从0001开始编号。 记录标识号各段之间不加任何连接符。
示例:第一条数据为:023********0001
★2、对象数据文件格式规范
对象数据分为长期保存级和发布服务级,需一并提交两种级别的数据。长期保存级数据,图像分辨率为400DPI以上,要求保持原始文件技术参数不变的基础上适当进行纠偏等处理,文件格式为tiff,文件后缀为tif;其次为发布服务级数据,图像分辨率为400DPI及以上,文件格式为jpeg,文件后缀为jpg。
★3、对象数据文件结构规范
对象数据存储路径为:根目录\记录标识号\加工级别\卷册流水号\其中对象数据第一级目录为记录标识号,加工级别有两种:长期保存级和发布服务级,卷册流水号3位,从001开始顺序排序。如果该**非多卷册,那么在加工级别下只有001一个文件夹,文件夹下对应存放着数据文件。
【示例】****(机构登记号为023)2012年8月提交的馆藏特色**的第一批数据,元数据的存储路径为:
根目录\023********0001\发布服务级\001\0001.jpg(第一本书,文件名为4位)
\0002.jpg\.......\002\0001.jpg(第二本书,如无则不需要).......
★4、数据完整性规范
要求提交的数据库必须包含完整的元数据、对象数据和数据提交说明表,存储结构规范。要求元数据和对象数据对应关系清晰明确,不可出现元数据与对象数据无法对应问题。
★七、元数据库标引及著录细则
1、著录信息源
(1)主要信息源
普通图书的主要信息源为题名页。
(2)规定信息源
普通图书各著录项目的规定信息源及其选取的先后顺序详见服务需求响应表附件2;取自规定信息源之外的信息置于方括号内,必要时在附注项说明。
2、繁(异)体字的处理
古籍中文文献字体简繁异共存,著录时需将文献题名中的繁体字转换成简体字著录,异体字转换成现代通用简化字著录,但涉及到人物姓名的异体字照录。对于一些无法录入的生僻字、公式、符号,依据《国家图书馆征集数字**建设规范》中文本类**数字化规范的规定,可用“〓”表示。
3、出版年代的转换
著录时需对出版发行年月应按原题的纪年如实著录,然后把非公元纪年转换为公元纪年,在原题的纪年后著录公元纪年并加方括号。公元纪年用4位阿拉伯数字著录;以“民国”、“康德”、“**”、“大正”、“昭和”等纪年的,年号照录,并换算成公元纪年。详细说明详见服务需求响应表附件3。
4、著录细则
详见服务需求响应表附件4。
八、主要技术指标
(一)数字化加工设备及附属配件要求
★1.拍照:数码有效像素不低于3300万像素。
★2.扫描:扫描设备选择零边距或非接触式扫描仪。设备A3幅面的光学分辨率400dpi以上,CCD感光元件不低于5000像素点,色彩位数24bit。扫描设备使用无紫外线的同步冷光源。
备注:每日设备使用**行色彩校正,以使文献色彩还原度高,真实。
(二)数字化采集:数字化加工设备及附属配件要求
★1.托稿台:数码拍照的平台,平稳,固定,反光处理。
★2.扫描仪自动评测被拍摄物重量,通过液压调节拍摄物与上下压平装置的空间和力度,控制拍摄物位置**整度。
★3.背景布置:背景为中灰色的纸板,禁用暖色调的丝绒、毛毯。
(三) 图像采集要求
★1.古籍扫描避免透光,要求扫描图像清晰,不透字,能清楚显示文献水渍、霉斑等污迹。
★2.扫描必须按文献装订的实际顺序进行,不允许重叶、缺叶、错叶、折叶等情况发生(原书缺叶、错叶除外)。补扫缺叶图像要与同册图像文件的大小一致,颜色接近。
★3.按1:1比例扫描,叶面外围要求留白,宽度不超过1-2厘米;书叶间距不超过0.1厘米。
★4.以原书的上边沿为基准,****中心线,保持原文献的天头、地脚的尺寸不变,左右两边的尺寸基本不变。
★5.原件表面有其他粘贴物件时,先将原件与粘贴物(即粘贴物覆盖于文献)一起扫描,然后将粘贴物掀开(不允许拆装),再次扫描原件。
★6.原件透背叶字迹,有虫蛀、漏洞时,需垫上古籍适用的衬纸后扫描。
★7.加工整理过程中,不得损坏原始文献;一律不得拆页扫描。
★8.分画幅扫描时,各扫描区域边缘必须有3厘米(含)以上的重复扫描区。
(四)数字图像制作规格
★1.古籍典藏级
位深:24位
扫描分辨率:文献小于10X12.5cm,用600DPI以上。
文献大于10X12.5cm,小于A3,用400 DPI 以上。
拍照像素:2100~3300万像素。
文件格式:TIFF(LZW):单页和多页的区分。
RAW(sRAW)封装格式。
色标卡:处理方式 首页加载。
须提供“含彩页的印刷型文献,400DPI以上,32位以上深度、无损压缩”和“印刷型文献,灰度,400DPI以上,8位以上深度、无损压缩”两种TIFF格式扫描方式,由采购人确定每种文献的扫描方式。
★2.发布服务级由****统一处理。
(五)数字图像文件处理
★1.纠偏处理:对出现偏斜的图像进行纠偏处理,对方向不正确的图像进行旋转还原,以符合阅读习惯。
★2.图像拼接:对大幅面文献进行分区扫描形成的多幅图像,服务级文件进行拼接处理,合并为一个完整的图像,以保证数字文件的整体性。
★3.图像剪裁:拍摄物外边缘裁至1.0~1.5厘米。
★4.不能进行锐化或者图像增强处理,不能更改图像的颜色,尽量减少对图像文件的后期处理。
(六)元数据要求
★1.不同人员和机位录入数据后应合并为一个数据库文件。系统具有导入功能。应确认合并数据库文件字段和属性一致性。
★2.表名称和字段内容逐项检查,覆盖面100%。
★3.字符编码:使用字符集为Unicode5.0 UTF-8。
★4.文字处理错误率不超过0.3‰。
★5.标引信息应严格按照文献实际内容进行描述。标引词与标引对象文件应正确链接。
★6.成交供应商须对加工及整理的每册(件)文献进行元数据标引,成交供应商提交的元数据以Excel电子文档的形式存在,标引内容包括:题名卷数、著者、版本、册数、存卷。
(七)加工存储要求
★1.成交供应商需为采购人配备本次项目数字**及其备份所需要的足额存储空间,成交供应商需提供存放所有电子数据所需的磁盘阵列。
★2.成交供应商需为采购人刻录光盘备份数据。刻录DVD光盘两套,光盘由成交供应商提供。目录应与其相应的扫描数据保存在同一张或一系列的光盘上,内容完整无遗漏。光盘表面标示编号及光盘内目录索引信息。
(八)管理
★1.古籍出库要办理出库手续,填写古籍出库工作单,在专门人员的监护下直接送到工作场地暂存。存放地点、温湿度等应符合古籍保护的要求。
★2.扫描数据质量应符合国家珍贵古籍数字化标准,若有质量问题,应由成交供应商重新进行数字化加工,并承担由此产生的所有费用。
★3.成交供应商须严格按照以上要求对加工整理的数字化成果进行保存。验收确认的数据,成交供应商最终提供给采购人的加工产品为两种数据(TIFF图片和PDF文档)。
九、成品数据规格及质量
★1.图像扫描规格
(1)扫描方式:
1)扫****协会(International Color Consortium,简称ICC)标准,做加工设备的基本色彩校正,及针对各类型文献进行色彩校正。
2)全书采用真彩色方式扫描。
(2)加工规格
1)色彩位深:24位。
2)分辨率:400 DPI以上。
3)图像格式:档案典藏级格式:TIFF不压缩。发布服务级格式:JPG和PNG。
2.原始图像文件
(1)图像文件的规格
1)图书所有页采用400DPI以上的彩色方式扫描。
2)图像文件提供两种类型:以无损压缩TIFF格式提供,用于文件的长期保存。JPG格式和PNG格式,用于文件的发布服务。
(2)图像文件的质量要求
1)图像清晰,版心居中,无倾斜,无污点,无颜色失真现象。
2)同一本书的每一页图像版心大小要统一,图像尺寸要相同。
3)图像完整无残缺。
★十、成品数据储存空间
提供不少于10Tb的移动存储设备。
附件1
| 序号 |
字段名 |
字段长度(字符) |
| 1 |
ID |
20 |
| 2 |
题名 |
100 |
| 3 |
副题名 |
100 |
| 4 |
其他题名 |
100 |
| 5 |
责任者 |
100 |
| 6 |
其他责任者 |
100 |
| 7 |
版本说明 |
50 |
| 8 |
出版者 |
50 |
| 9 |
出版地点 |
30 |
| 10 |
出版时间 |
30 |
| 11 |
页码 |
30 |
| 12 |
尺寸 |
30 |
| 13 |
丛编项 |
100 |
| 14 |
附注说明 |
长 |
| 15 |
内容提要 |
长 |
| 16 |
主题词1 |
100 |
| 17 |
主题词2 |
100 |
| 18 |
中图分类号1 |
50 |
| 19 |
中图分类号1 |
50 |
| 20 |
索书号 |
50 |
| 21 |
文件名 |
50 |
| 22 |
馆藏信息 |
50 |
| 23 |
目次 |
长 |
| 24 |
语种 |
10 |
| 25 |
原作语种 |
10 |
| 26 |
备注 |
长 |
附件2
| 著录项目 |
规定信息源 |
| 题名与责任者 |
正文首卷卷端、书名叶、目录 |
| 版本 |
书名叶、序跋、牌记 |
| 出版、发行项 |
书名叶、序跋、牌记 |
| 页码 |
整部图书及附件 |
| 附注说明 |
任何信息源 |
附件3
| 年 号 |
换算方法 |
例 子 |
著录为 |
| 民 国 |
纪年+1911 |
中华民国元年 |
民国1年[1912] |
| 康 德 |
+1933 |
康德五年 |
康德5年[1938] |
| 大 同 |
+1931 |
**元年 |
**1年[1932] |
| 大 正 |
+1911 |
大正七年 |
大正7年[1918] |
| 昭 和 |
+1925 |
昭和二年 |
昭和2年[1927] |
附件4
| 序号 |
核心元素 |
著录字段 |
著录规则 |
| 1 |
题名 |
题名 |
是图书的主要题名。只有分卷册号无分卷册名的,分卷册号与正题名一同放在正题名中著录,正题名与分卷册号之间隔一个圆点;既有分卷册号又有分卷册名的,分卷册号与分卷册名之间用逗号隔开。 例1:题名:建党手册.第1辑 例2:题名:**第六次劳动大会文献.1 例3:题名:汉籍分类目录.第一辑, 丛书部 经部 |
| 副题名 |
是对题名的解释和说明。 |
||
| 其他题名 |
是指并列题名(与中文题名等同的外文题名)或交替题名等。 例:题名:现代图书馆编目法 其他题名:Practical handbook of modern library cataloging |
||
| 2 |
作品语种 |
语种 |
图书正文的语种,默认为chi |
| 原作语种 |
如图书是由英文翻译而成,著为eng |
||
| 3 |
责任者 |
责任者 |
指第一责任者,指对现有作品形式负主要创作责任的个人或团体。三个(含三个)以内的同一责任方式的责任者之间用逗号隔开:例:章汉夫,许涤新泽; 三个以上的责任者著录为:***等。例:金则人等著 |
| 其他责任者 |
指对现有作品形式负次要责任的个人或团体。 |
||
| 4 |
出版发行项 |
出版地 |
先著录出版地,没有出版地著录发行地,没有发行地著录印刷地。如无出版地,则著录为:[出版地不详] |
| 出版者 |
先著录出版者,没有出版者著录发行者,没有发行者著录印刷者;如无出版者,则著录为:[出版者不详] |
||
| 出版时间 |
详见出版年代转换中的说明。 |
||
| 5 |
载体形态项 |
页码 |
本书的实际页码,如页码不连续,自拟的页码需加方括号,例:[175]页 |
| 尺寸 |
图书的长度,著录单位为厘米。例:18cm |
||
| 6 |
丛编项 |
丛编项 |
本书的丛书名,丛书名与丛书号之间用分号隔开, 例:人民新教育丛书;1 |
| 7 |
主题 |
主题词1 |
依据《汉语主题词表》给出。 |
| 主题词2 |
|||
| 8 |
分类 |
中图分类号1 |
依据《中国图书馆分类法》给出,涉及地方文献的图书在“中图分类号2”字段著录“地文”。 |
| 中图分类号2 |
|||
| 9 |
来源 |
馆藏信息 |
自动默认为:********中心) |
| 索书号 |
该书在****的索书号 |
||
| 10 |
说明 |
附注说明 |
与该篇文献相关的说明。 |
| 11 |
内容提要 |
内容提要 |
概括该书的主要内容。 |
| 12 |
目次 |
目次 |
该书的目次信息 |
| 13 |
文件名 |
文件名 |
与数据链接的电子书的文件名 |
| 14 |
备注 |
备注 |
与该库相关的说明。 |