null
null
null
您的位置:数字音视网/招标公告/详细

山西省长治市图书馆数字图书馆资源建设变更公告

2018-11-27 来源:山西长治市人民政府采购

长政采[2018]JZTP-C1-2数字图书馆资源建设项目,由于采购人调整采购需求,原报价时间变更为2018年11月27日。

2018年11月21日

变更后需求如下

数字图书馆资源建设

A、数字图书馆资源建设之地方图书数字化全文识别加工

资源数字化数量:20000页

1、元数据加工标准

1.1规范性引用文件

下列文件对于本规则的应用是必不可少的。

《中国文献编目规则》(第二版)

《GB/T25100-2010 信息与文献 都柏林核心元数据》

《信息资源的内容形式和媒体类型标识》(GB/T3469-2013)

1.2著录对象

以数字化文献为著录对象。一般以具有独立名称、并可独立使用的一个数字资源为著录单位。

图书的著录单位为一种图书。对于多部分资源,一般可自由选择综合著录或分散著录。

1.3著录信息源

著录信息源是资源本身。资源本身是著录的首选来源。资源本身信息不足,可参考其他信息源。

1.4著录用文字

题名、责任者等取自资源本身的信息一般按资源本身的文字著录。

由编目员进行描述或标引的信息均采用简体中文著录。

有规范或规定编码标准的要求按标准著录,如:语种、中图分类。

日期用阿拉伯数字著录。

推荐采用ISBD著录标识符。

一个著录项中多个著录内容之间以半角分号分隔。

1.5元数据著录简表

必备项为:加工编号、正题名、中图分类、主题词或关键词、摘要、内容形式、媒体类型、格式、页码、语种、适用对象、CDOI、数据提交单位、所属任务年份,共计13项;有则必备项为:其它提名、责任者名称、责任方式、附注、出版者名称、出版地、出版日期、关联、时间范围、空间范围、版本、ISBN、统一书号、发布地址,共计14项。

2、图像数字化标准和命名规则

2.1图像扫描加工

扫描前根据国际色彩协会(International Color Consortium,简称ICC)标准,做加工设备的基本色彩校正,及针对各类型文献进行色彩校正;

逐页扫描;

黑白页和灰度页用灰度方式扫描

色彩位深:8 位

分辨率:300 dpi;小于5号字体用400 dpi

档案典藏级格式:TIFF 不压缩

发布服务级:PDF(经过 JPEG2000 压缩后,再做格式转换)

彩色页用彩色方式扫描

色彩位深:24 位

分辨率:300 dpi;小于5号字体用400 dpi

档案典藏级格式:TIFF 不压缩

发布服务级格式:PDF(经过 JPEG2000 压缩后,再做格式转换)

纠偏处理。对出现偏斜的图像进行纠偏处理,图像歪斜度不可以超过一度,对方向不正确的图像进行旋转还原,以符合阅读习惯;

去污处理。对图像页面中出现的影响图像质量的杂质如黑边等进行去污处理;

图像拼接。若原文献幅面较大,无法整体采集的,可将原件分画幅采集(分画幅采集时,注意各拍摄区域边缘须留有一定的重复采集区域,以保证拼接完成后所有接缝处连贯完整),服务级文件进行拼接处理,合并为一个完整的图像,以保证数字文件的整体性(合并信息应在readme.txt进行说明)。

2.2图像文件质量要求

图像文件(各种格式)放大到1:1状态,逐页检查。检查文件是否有彩点、彩线、太淡、太浓、黑边、污点、歪斜、模糊(马赛克等)或图像内容不完整等现象。若不符合图像质量要求应进行图像校正或重新扫描;

图像文件真实反映原件,同册图书的图像尺寸相同,不得有失真现象;不能有缺页、错页、数据内容缺失等现象(原件有缺失的除外);

档案典藏级图像,允许进行适当的纠偏,去污等处理,以不压缩标准格式存档。发布服务级的图像,为有损压缩图像格式,一页为一个PDF文件,在转换工作中应在图像轮廓清晰可读的前提下(可放大到实际尺寸检查判定),尽量减小数据量;

图像符合扫描规格要求和技术参数;

所有文件保存位置以及文件命名正确,同一流水号不得有跳号情况,可以有效打开和显示;

图像的综合错误率不超过1‰。

2.3命名规则

2.3.1加工编号(book_id)

文献数字化加工过程中一册文献的唯一标识,它由11位数字和1位下划线组成。

文献基本资料类型(1位)、文献语种(1位)、任务年(2位)、机构代码(4位)、下划线(1位)、单位内部流水号(3位)。

本规则针对地方图书的文献基本资料类型为(0:图书),文献语种为(1:中文),任务年为公元年后两位数字(16年项目统一为16),机构代码见《推广工程数字资源联合建设机构代码》,单位内部流水号由各单位自行分配,从1开始,不足3位以0补齐。

例:01160000_001

2.3.2图像文件名

文件后缀名为小写字母

前封(含封一、封二)

扫描文件名为Axxxxx_00,其中xxxxx为5位数字,按原书顺序依次排序。

前附页

目录页之前的前附页扫描文件名为Bxxxxx_00,其中xxxxx为5位数字,按原书顺序依次排序。

目录页之后的前附页扫描文件名为Dxxxxx_00,其中xxxxx为5位数字,按原书顺序依次排序。

目录页

扫描文件名为Cxxxxx_00,其中xxxxx为5位数字,按原书顺序依次排序。

正文

有页码的正文扫描文件名为Txxxxx_00,其中xxxxx为5位数字,与原书页号一致,按原书顺序依次排序。当存在大幅图像需分区扫描时其文件命名为Txxxxx_00zz,其中zz为数字,表示扫描图像分区,按扫描顺序排序,对应的发布服务级进行合并后命名为Txxxxx_00。例如:该图在原书的第28页,该图分成4个画幅,则4个画幅的扫描文件名分别为T00028_0001.tif、T00028_0002.tif、T00028_0003.tif、T00028_0004.tif,拼接后的发布级图像文件名为T00028_00.pdf。

正文中插页扫描文件名为Txxxxx_yy,其中xxxxx为5位数字,表示插页的前一页顺序号,yy为数字,表示插页,并按原书顺序依次排序。当插页中存在大幅图像需分区扫描时其命名为Txxxxx_yyzz,yy为数字,表示插页;zz为数字,表示扫描图像分区,按扫描顺序排序,对应的发布服务级图像进行合并后命名为Txxxxx_yy。例如:一张图夹在20页、21页之间,且该图分成4个画幅扫描,则4个画幅的扫描文件名分别为T00020_0101.tif、T00020_0102.tif、T00020_0103.tif、T00020_0104.tif,将4个画幅拼接后,该图的文件名为T00020_01.pdf。

后附页

扫描文件名为Yxxxxx_00,其中 xxxxx为5位数字,按原书顺序依次排序。

后封(含封三、封四)

扫描文件名为Zxxxxx_00,其中xxxxx为5位数字,按原书顺序依次排序。

3、TXT文本标准

对图像数据逐页进行ocr识别,每页生成一个对应的TXT文件,文件命名与TIFF图像一致,后缀名小写。文本转换数据的准确率平均应达到90%以上。

4、数据库标准

4.1数据库命名

对象数据所对应数据库。数据库名由8位数字组成:

文献基本资料类型(1位)、文献语种(1位)、任务年(2位)、机构代码(4位)。

例:01160000.mdb

4.2数据库制作

4.2.1 对marc数据进行加工处理,制作文献基本信息表(book)。

4.2.2目录信息著录,生成文献目录信息表(catalog)。

4.2.3 文献版权页著录,生成文献版权信息表(copyright)。

4.2.4 不带页号插图信息著录,生成文献插页信息表(inset)。

注:图书中有夹页时,对该表字段进行标引。

4.2.5 文献缺页信息著录,生成文献缺页信息表(lostpage)。

注:图书有缺失页时,对该表字段进行标引。

4.2.6 文献结构信息著录,生成文献结构信息表(struct)。

注:起始页号均为文献印刷页码

4.2.7 记录扫描分辨率、压缩因子、文件数量、存储量等信息,生成文献加工信息表(process)。

4.3 数据库制作要求

数据库的制作符合下列要求。

(1)文件格式为mdb格式;

(2)使用字符集为UTF-8;

(3)著录信息应严格按照文献实际内容进行描述,所著内容与对象文件应正确链接;

(4)数据库字段各类表格等内容严格按照规定和样例版式;

(5)著录中遇到无法录入的生僻字、公式、符号等内容用“〓”表示。同时将“〓”所对应图像文件保存在档案典藏级数据内,以“〓”命名的文件夹内,建立方法:

子目录内应包含所有用“〓”表示的图像文件;

图像文件删除其他信息,仅保留“无法录入的内容”所在行的信息,tif不压缩格式,图像命名不变;

多个用“〓”表示的内容对应同一个图像时,仅保存一个图像文件;

(6)各种著录的文字、符号、版式、位置和文件名称准确,其综合错误率不超过0.3‰。

5、说明文件

5.1制作文献的说明文件

说明文件格式:Microsoft Excel

说明文件命名:由8位组成:文献基本资料类型(1位)、文献语种(1位)、加工年(2位)、机构代码(4位)。如:01160000.xls

(说明文件的5张表需保存在同一个Excel文件的不同工作表中,每个工作表按下列表命名)。

5.1.1数据总体说明表

5.1.2保存级对象数据硬盘存储清单

5.1.3发布级PDF对象数据硬盘存储清单

5.1.4发布级TXT对象数据硬盘存储清单

5.1.5图书单册数据量统计表

5.2 制作每册文献和保存数据介质的说明文件

6、存储规则

6.1 存储介质及命名

存储介质为硬盘,硬盘命名由8位组成:

文献基本资料类型(1位)、文献语种(1位)、加工年(2位)、机构代码(4位)。

6.2数据存储规则

存储内容包括:TIFF图像、PDF、TXT文本、对应数据库、说明文件、介质说明文件,书目数据文件各一份。

各类型对象数据按加工编号递增顺序依次放置在硬盘内,保存目录及文件名由四级组成:

第一级目录为加工编号的前8位,如01160000,同时将介质说明文件并行保存(readme.txt);

第二级目录为TIFF,PDF,TXT同时将对应数据库(01160000.mdb)、说明文件(01160000.xls)、书目数据文件(01160000.iso)并行保存;

第三级目录为加工编号;

第四级目录为相应格式的对象数据文件,需要相应的单册文献的说明文件。

7、加工成品数据的文献管理平台功能要求

1.该发布系统需具备完善的数字图书馆资源管理和发布软件技术平台,包括数字资源发布、检索、阅读、管理、采集、制作、下载以及用户交互等功能。资源类型包括图书、期刊、论文以及自建数据库,并且实现在图书,期刊,论文、自建库的统一的检索和获取。平台功能成熟,检索方便快捷,具备多种途径的单项检索、组合条件检索。

2.能够兼容国家863计划中国数字图书馆示范工程标准PDG格式的电子图书文献资源,技术上能够做到整合到同一平台中,同时支持转换PDF、PDG、PNG、Word格式的文档资料为网页版阅读方式,方便大多数用户使用习惯。同时实现不同格式的文档转换,所有图书均可实现文字图像复制摘录和图书无损缩放。支持元数据检索、目次检索、全文检索等多种检索方式,友好统一的用户界面,提供各种高级的检索功能,具有突出的检索性能。

3.该系统需具备独立完善的管理平台,管理功能全面,具备基本状态、流量分析、用户管理、排行管理、IP范围管理、图书管理、反馈需求管理、公告问题管理、频道专题管理、页面模板风格管理等功能;能实现自建特色库,系统具有良好的开放性和兼容性,除电子图书外还可以支持音频、视频、期刊、专题数据库、标准、网站信息等的使用。

4.不限制使用用户个数,无下载量限制,软件无用户数或使用次数限制;可以进行资源管理,包括推荐资源,查询,分类管理、设置;可以自行修改用户的访问权限和局域网IP范围。

5.提供原厂开发的数字图书馆软件系统一套,免费对数据库及相关软件系统的安装、调试、培训与维护。

6.平台提供IP和用户名两种身份认证和权限管理方式,图书馆设有外网地址的情况下可以实现镜像平台的外网账号访问;具有强大的查询检索、图书推荐、图书排行、访问量统计等功能,并支持页面定制。

B、数字图书馆资源建设之地方报纸数字化及篇名识别加工

建设数据量:5000版

1、元数据加工标准

1.1规范性引用文件

下列文件对于本规则的应用是必不可少的。

《中国文献编目规则》(第二版)

《GB/T25100-2010 信息与文献 都柏林核心元数据》

《信息资源的内容形式和媒体类型标识》(GB/T3469-2013)

1.2著录对象

以数字化文献为著录对象。一般以具有独立名称、并可独立使用的一个数字资源为著录单位。

报纸的著录单位为一种报纸。

对于连续性资源的著录对象是否发生改变,可依据题名、发行者、版本等的变化情况进行判断,具体规则参照《中国文献编目规则》(第二版)。

1.3著录信息源

著录信息源是资源本身。资源本身是著录的首选来源。资源本身信息不足,可参考其他信息源。

报纸的著录信息源是本题名下第一期或第一部分,若无法获得本题名下第一期或第一部分,应以可获得的最早发行的一期或部分著录。

1.4著录用文字

题名、责任者等取自资源本身的信息一般按资源本身的文字著录。

由编目员进行描述或标引的信息均采用简体中文著录。

有规范或规定编码标准的要求按标准著录,如:语种、中图分类。

日期用阿拉伯数字著录。

推荐采用ISBD著录标识符。

一个著录项中多个著录内容之间以半角分号分隔。

1.5元数据著录简表

必备项为:加工编号、正题名、中图分类、主题词或关键词、内容形式、媒体类型、格式、语种、适用对象、出版频率、馆藏范围、CODI、数据提交单位、所属任务年份,共计14项;有则必备项为:其它提名、附注、出版者名称、出版地、开始日期、终止日期、关联、时间范围、空间范围、ISSN、统一刊号、发布地址,共计12项。

2图像数字化标准和命名规则

2.1图像扫描加工

扫描前根据国际色彩协会(International Color Consortium,简称ICC)标准,做加工设备的基本色彩校正,及针对各类型文献进行色彩校正;

逐版扫描;

黑白页和灰度页用灰度方式扫描

色彩位深:8 位

分辨率:300 dpi

档案典藏级格式:TIFF 不压缩

彩色页用彩色方式扫描

色彩位深:24 位

分辨率:300 dpi

档案典藏级格式:TIFF 不压缩

纠偏处理。对出现偏斜的图像进行纠偏处理,图像歪斜度不可以超过一度,对方向不正确的图像进行旋转还原,以符合阅读习惯;

去污处理。对图像页面中出现的影响图像质量的黑边等进行去污处理。

2.2图像文件质量要求

图像文件放大到1:1状态,逐版检查。检查文件是否有彩点、彩线、太淡、太浓、黑边、污点、歪斜、模糊(马赛克等)或图像内容不完整等现象。若不符合图像质量要求应进行图像校正或重新扫描;

图像文件真实反映原件,同种报纸图像尺寸相同,不得有失真现象;按版次顺序由小到大,符合阅读习惯,不能有缺版、错版、数据内容缺失等现象(原件有缺失的除外);

图像符合扫描规格要求和技术参数;

所有文件保存位置以及文件命名正确,可以有效打开和显示;

图像综合错误率不超过1‰。

2.3命名规则

注:档案典藏级文件(TIFF格式)与其相应的发布文件(双层PDF格式和XML格式)命名规则相同,这里仅以TIFF格式文件为例,文件后缀名均为小写。

2.3.1加工编号

加工编号是报纸数字化加工过程中一种报纸的唯一标识号,由11位数字和下划线组成。文献基本资料类型(1位)、文献语种(1位)、任务年(2位)、机构代码(4位)、下划线(1位)、单位内部报纸种类编号(3位)。中文报纸的文献基本类型为(2:报纸),文献语种编码为(1:中文)。

2.3.2文件命名规则

每期报纸按照实际版次命名,用三位数字表示,后缀名小写tif。如第一版为001.tif,第2版为002.tif;则若报纸包含号外、增刊、副刊、特刊等特殊版面,且其不属于报纸原有常规版次内容,为独立的另起版面,其文件的命名规则为:特殊版面种类拼音首字母(大写)+版次(2位,如有实际印刷版次,按实际命名,如没有则按01开始顺序命名),如号外第一版H01.tif、增刊第一版Z01.tif、副刊第一版F01.tif、特刊第一版T01.tif;若报纸中存在通版(即打通同一面上两个相邻版而形成的版)情况,应将这两版整体扫描为一个图像文件,并同时将其保存为这两版的图像,如当报纸中的第2版和第3版为通版时,通版图像整体保存为一个文件,并且将这一图像同时命名为002.tif和003.tif。

3双层PDF标准

3.1双层PDF加工

将处理完成后的图像进行报纸篇目文字识别校对。采用图在文上的模式进行双层PDF输出。

PDF文件根据图像尺寸、颜色、数据存储量、按JPEG2000有损压缩,压缩因子适度动态调整,在确保图像清晰的情况下,尽量压缩图像文件所占空间至最小。

3.2PDF文件质量要求

兼容adobe reader6.0及以上版本。

在保持图像清晰可读的基础上尽可能减小存储量。

PDF文字层所使用的字体以”已嵌入子集”方式嵌入PDF文件。

双层PDF文件的图像层和文字层的文字对位准确,反显区域与文字区域相差1毫米以内。

双层PDF错误率不超过0.3‰。

4XML文件标准

文件应著录全面的报纸信息,记录标题及篇目位置等信息,标题位置为引题、标题和副题的整体位置,遵守XML语法规则,按规范标签进行制作XML,使用utf-8字符集,错误率小于0.3‰。

5数据库标准

5.1数据库命名

每种报纸单独制作数据库,其命名与报纸加工编号相同,如:21160000_001.mdb。

5.2数据库制作

5.2.1报纸基本信息表(book)

5.2.2报纸版面篇目信息表(catalog)

5.2.3报纸结构信息表(struct)

5.3 数据库制作及要求

标引数据库以MDB数据库方式提交,后缀名mdb;

基本信息表的内容应与MARC数据相应内容保持一致;

版面篇目信息数据库标引要求真实反映报纸原貌;

结构信息表应严格按文献实际情况进行描述;

无法录入的生僻字等用“〓”表示;

版面篇目信息表与XML文件的对应元素项的内容应一致;

各种著录、说明文件的文字、符号、版式、位置和文件名称准确,其综合错误率不超过0.3‰。

6说明文件

6.1数字化成品总清单

说明文件格式:Microsoft Excel

说明文件命名:地方文献数据说明(说明文件的5张表需保存在同一个Excel文件的不同工作表中,每个工作表按下列表命名)。

6.1.1提交数据总体说明

6.1.2保存级对象数据硬盘存储清单

6.1.3发布级PDF对象数据硬盘存储清单

6.1.4发布级XML对象数据硬盘存储清单

6.1.5每种文献数据量统计表

6.2每个存储介质内的说明文件(readme.txt)

7. 存储规则

7.1 存储介质及命名

存储介质为硬盘,硬盘命名由8位组成:

文献基本资料类型(1位)、文献语种(1位)、加工年(2位)、机构代码(4位)。

7.2 数据存储规则

存储内容包括:TIFF图像、双层PDF、XML、对应数据库、说明文件、介质说明文件,书目数据文件各一份。

各类型对象数据按加工编号递增顺序依次放置在硬盘内,保存目录及文件名由四级组成:

第一级目录为加工编号的前8位,如21160000,同时将介质说明文件并行保存(readme.txt);

第二级目录为TIFF,PDF,XML同时将对应数据库、说明文件(21160000.xls)、书目数据文件(21160000.iso)并行保存;

第三级目录为加工编号;

第四级目录为相应格式的对象数据文件;

第五级目录为相应格式的对象数据文件。

8加工成品数据的文献管理平台功能要求

1.该发布系统需具备完善的数字图书馆资源管理和发布软件技术平台,包括数字资源发布、检索、阅读、管理、采集、制作、下载以及用户交互等功能。资源类型包括图书、期刊、论文、报纸以及自建数据库,并且实现在图书,期刊,论文、报纸、自建库的统一的检索和获取。平台功能成熟,检索方便快捷,具备多种途径的单项检索、组合条件检索。

2.能够兼容国家863计划中国数字图书馆示范工程标准PDG格式的电子图书文献资源,技术上能够做到整合到同一平台中,同时支持转换PDF、PDG、PNG、Word格式的文档资料为网页版阅读方式,方便大多数用户使用习惯。同时实现不同格式的文档转换,所有图书均可实现文字图像复制摘录和图书无损缩放。支持元数据检索、目次检索、全文检索等多种检索方式,友好统一的用户界面,提供各种高级的检索功能,具有突出的检索性能。

3.该系统需具备独立完善的管理平台,管理功能全面,具备基本状态、流量分析、用户管理、排行管理、IP范围管理、图书管理、反馈需求管理、公告问题管理、频道专题管理、页面模板风格管理等功能;能实现自建特色库,系统具有良好的开放性和兼容性,除电子图书外还可以支持音频、视频、期刊、专题数据库、标准、网站信息等的使用。

4.不限制使用用户个数,无下载量限制,软件无用户数或使用次数限制;可以进行资源管理,包括推荐资源,查询,分类管理、设置;可以自行修改用户的访问权限和局域网IP范围。

5.提供原厂开发的数字图书馆软件系统一套,免费对数据库及相关软件系统的安装、调试、培训与维护。

6.平台提供IP和用户名两种身份认证和权限管理方式,图书馆设有外网地址的情况下可以实现镜像平台的外网账号访问;具有强大的查询检索、图书推荐、图书排行、访问量统计等功能,并支持页面定制。

备注:成交供应商需负责将加工数据与图书馆原有软件平台对接并将数据导入,配合省图书馆验收合格。

同地区同业主性质招标

    同地区推荐招标

      地区其他招标