在我们与图书馆和学者的对话中,我们常常被问到是如何创建Gale原始档案(Gale Primary Sources)项目中的各个档案库的,因为大家都对将原始纸质文献变成可全文检索数字图像的过程抱有极大的兴趣。
我们询问了Michelle Fappiano(Gale内容制作高级主管)、Megan Sullivan和Joe Williams(Gale产品经理)、Sarah Holloway(Gale数据分析师)以及Rick Rychecky(Gale供应商管理经理)一系列的问题,想要揭开数字档案制作背后的过程,以及制作团队如何与Gale其他部门配合创建我们的产品。
Joe 和 Megan:开发过程始于我们的策划编辑,他们根据相关资源典藏是否能够获得以及对特定市场需求的调研,构思出新的数字化档案或现有档案库的新模块。一旦找到了合适的项目,策划编辑会准备商业论证书,项目获批后我们就会开始规划档案资料的扫描工作。除非在特殊情况下,扫描通常在来源图书馆内进行。在整个扫描过程中,我们的开发团队都会忙于创建数字化档案的结构,而我们制作团队会找出支持这些内容所需的新功能,这样扫描文件送往我们的转换供应商处且我们的内容团队应用了标引和元数据之后,内容就可以上传到档案库中了。此后,我们对内容和档案结构会进行严格的测试,确保发布时两者都正常运行。
Rick:档案扫描过程是从资源内容本身开始的,内容或内容类型决定了制作流程。我们的策划编辑团队在全世界范围内选择最符合即将上市产品需求的典藏。这些典藏来自于不同地点:图书馆、大学、历史学会和博物馆等。一旦对典藏签订合约后,我们的编辑会提供一份内容清单或扫描清单,包括标题、卷、文件夹、排架号、文献标识号等。这些数据可以从MARC记录或源目录中导出,用于核验合约中包含的文献被取出扫描并创建产品元数据。
确认了选定的内容后,其中的文献都会经过一个保护审查的过程进行评估。可以想象这是一个开始扫描前的准备阶段,评价文献资料的状况是否能够扫描。这个过程通常由来源图书馆的保存馆员完成。正是在这个时候,在进入扫描流程前,会对易损、已破损和损坏或需要特殊处理的文献资料进行修复。需要说明的是,并非每一份文献都需要经过保护审查和修复,这么做的目的是找到并修复开裂或损坏的装订线、折皱或撕裂的书页,打开折叠的页面,去除发霉或腐朽的部分。修复完成后的文献会与那些不需要保存工作的文献一同被送到我们的扫描供应商那里,开始扫描阶段。
现在典藏已经通过了保存审查,特殊处理要求由来源机构起草。要求详细规定了如何在扫描过程中以最佳方式操作这些珍稀且易损的文献。这些要求例如:
典藏现在已经为扫描阶段准备就绪,我们就可以进入挑选供应商的阶段了。通常,我们向Gale首选的扫描供应商们提供项目细节,征询报价或方案说明。在这个过程中,我们的供应商可以在来源图书馆实地评估文献,更充分理解文献本身,确定所需设备,并询问物流相关问题。这为我们的供应商提供了亲自考察典藏的机会。候选供应商亲眼看到典藏样本这一点很重要。所有供应商都提交他们的报价方案后,我们会进行审查并选择最适合这项工作的供应商。
来源内容类型确实决定了扫描所需的设备。有时还需要不同的设备扫描不同类型的内容,但通常大部分类型的内容都可以使用非接触式扫描仪进行数字化。但也有一些例外,对于质量良好且有坚固书脊的图书,我们选择使用全自动扫描仪。使用全自动扫描仪有助于提高制作速度,增加每周总产量。对于幅面较大的资料(例如地图或大版面的印刷报纸),则使用地图扫描仪或送纸器扫描仪。这类内容也可以利用非接触式扫描仪分为几块扫描,但这需要使用Photoshop或编辑软件将分割的几块拼接在一起。非接触式扫描仪通常是最常用来扫描Gale原始档案内容图像的设备。相机(数字或CCD镜头)安装在操作台的上方,对准下方的内容,高度可以调节。
设备和操作方式确定后,扫描过程相当的简单。来源图书馆负责将文献传递给我们的操作员,保证制作过程持续进行。操作员负责记录和追踪他们扫描过的文献以及他们生成的数字图像。他们被要求报告每项文献的页数、扫描日期以及任何可能会有用处的扫描备注,例如,如果源文献缺页、无法展开、文献损坏、页码不规律等。制作清单上添加的这些异常提示和标注有助于我们的内容团队和质量控制供应商了解内容的整体情况。实际的扫描操作过程很类似于生产线。每一项文献资料,无论是一个盒子、一个文件夹、一本书等,都逐个被放置在扫描底座上进行扫描。供应商通过扫描清单在整个扫描过程中追踪和管理典藏。扫描操作员扫描盒子/文件夹中的每一页资料,直到完成。每一个项目都完成后,他们被放在一旁,接受质量保证检查,直至数字图像被认可。制作清单与扫描图像一同上传到我们的云存储器,由我们内部的员工和质量控制供应商进行检查。这个过程每周或按计划约定的时间间隔执行一次。交付日程表用于帮助追踪扫描进度。当制定日程表时,有多个考虑因素,例如需扫描的总页数、每天的产量(基于设备的类型、内容类型、扫描操作员的人数)以及目标发布日期。
我们已经起草并提供给了我们的供应商一份扫描规格标准规范。我们的标准基于行业标准和Gale内部的标准。供应商需同意并达到这些标准。扫描图像随后进入由扫描供应商执行的后制作过程。后制作是指审核原始图像并增强画质以满足我们标准规范的过程。这一过程包括裁剪和文本校直(或纠偏)以及确认满足Gale的标准,也就是说处理过的图像必须100%通过我们的质量要求,然后他们才会进入到转换制作阶段。如果图像没有通过审核,一份相应文件的重新扫描申请会被提交,一份完整的质量控制报告也会发送到扫描供应商那里。扫描供应商会按报告中的注释进行调整,并可为质量差异提供解释,并重新上传图像以供第二次审核。这个过程将会持续进行直至所有图像都通过审核并被接受。
“光学字符识别或OCR是一项让你能够将不同类型的文档——例如扫描纸质档案、PDF文件或数字相机捕捉的图像,转化成可编辑、可搜索数据的技术。1
OCR是利用复杂的算法产生的,可识别印刷页面图像上的单个字符。
Gale从一份纸质档案(大部分情况下如此)、一本书、一份手稿、一份电报、一张报纸等的扫描图像开始。扫描图像本身不足以实现对档案中所包含信息的编辑或分析,例如在微软Word中的编辑。扫描图像无非是一组黑色和白色或彩色的点,被称之为光栅图像。为了从扫描档案中提取数据以做研究之用,Gale使用了一个OCR软件,识别页面上的独立字符,然后将他们组合成单词,最终组成句子,这样就让研究者能够访问和编辑原始档案资料中的内容。”
——摘自2018年Ray Bankoski撰写的Gale文章《解释OCR过程》(Explaining the OCR Process)
Michelle:从整个过程来看,HTR与OCR的差别不大。因为HTR技术相对较新,团队确实花费了更多的时间审核HTR输出结果中的错误。找到HTR引擎的故障点,通知各方加强训练并对软件进行改进。这项技术与OCR的不同之处如下:
HTR |
OCR |
|
被训练识别机器印刷文本和手写文本 |
仅能识别机器印刷文本 |
|
利用标准字体和多种手写模式进行训练,因为每个人和每个时代的手写字体都不一样 | 仅以标准字体进行训练 | |
版面分析和段落、行和单词的划分非常困难,因为每个人和每个时代的手写字体都不一样 | 困难不大,因为结构清晰 | |
草体手写文本的识别非常困难,因此准确率并不高 | 不适用 | |
仅支持几种语言 | 支持多种语言 |
功能 |
HTR |
OCR |
||
印刷、手写字体的识别 |
ü - 现代、西欧、历史和哥特式 |
ü - 仅印刷字体 |
||
原文本 | ü | ü | ||
转换后的文本 | ü | ü | ||
输入格式 | 多页TIFF、TIFF、JP2、JPEG、PDF文件 | 多页TIFF、TIFF、JP2、JPEG、PDF、PNG、BMP文件 | ||
支持的语言 | 所有拉丁文字 | 超过200种 | ||
OCR置信度 | ü | ü | ||
格式 | û | ü | ||
输出 |
JSON、PDF文件 | 文本文件、XML、RTF、PDF文件 |
摘自2018年Ray Bankoski撰写的Gale文章《解释OCR过程》:
OCR引擎使用“置信度”(Confidence)水平来代表它认为自己的表现如何。这是来自ABBYY的解释:
在版面分析过程中,文本区域、行和单个字符坐标被检测出来。在字符分离之后,每个字符都通过不同的文本识别分级器识别。2
一个字符图像的识别置信度是对图像实际上代表这个字符可能性的数值评估。当识别一个字符时,程序提供几种识别可能性,按它们的置信度数值排序。例如,一个字母“e”的图像可能被识别为:
最高置信度评级的假定被选择为识别结果。但选择也取决于上下文(也就是字符在哪个单词中)以及差异比较的结果。例如,如果假定为字母“e”的单词并非是一个字典单词,而假定为字母“c”的单词是一个字典单词,那么后者将被选择作为识别结果,即便它的置信度水平仍然是85。其余的识别可能性都可以作为假定进行检验。
要准确衡量OCR过程的准确性是非常难的——需要手工检查数百万页OCR的数据库以确定他们的准确性。作为一条通用的准则:
大部分的OCR软件供应商定义准确度为转化的一定数量的字符中准确字符数量的百分比。这很有可能是一个误导性的数字,因为它通常基于OCR引擎尝试转化一篇完美的现代激光打印文本,质量就如同本文这样的印刷版本。在我们的经验中,利用全自动OCR过程获取大于99.98%(5,000字符中1个字符错误)的准确率通常仅可能存在于1950年后的印刷文本中,获取大于95%(100个字符中5个字符错误)的准确度通常在1900年后和1950年前的印刷文本中,而任何1900年前的印刷文献能够获得大于85%(100个字符中15个字符错误)的准确度都是很罕见的。3 (Tanner, Muñoz and Ros: Measuring Mass Text Digitization Quality and Usefulness. D-Lib Magazine July/August 2009)
因此,Gale的OCR准确度(正确单词数量在所有单词中的比例)在不同的数据库中估计为85%到95%。
Joe 和 Megan:创建Gale平台新功能的思路来自于几种途径,但我们主要利用用户测试结果和用户反馈来设定新功能的优先级。通常,我们通过与客户的谈话、内部测试或Gale改进研究体验的更大规模项目发现需求,然后集思广益可能的解决方案。一旦我们确定了一个最佳方案,我们通常会制作一个原型,收集来自客户和内部相关各方的反馈,调整设计思路,确保这个方案既实用又满足我们尝试解决的需求。在确定一项新功能或平台改进的理想实施方式后,我们与内部团队(内容、开发等部门)合作,评估所需的工作量,以便我们设定项目的优先级。最后,我们的内部团队成功实施这一功能或改进。
Joe 和 Megan:我们根据Gale自己维护的一个严格管理的词汇表标引我们的内容。这个词汇表为诸如作者、学科、文献和插图类型、地理位置、报纸版面标题等各个元数据字段和检索索引提供了一个标准。这是为了确保我们数量庞大且种类多样的一次文献内容共有一个统一的检索体验,可以顺畅的交叉检索。
我们的检索引擎也在OCR和主题标引中扩展检索词的同义词,因此用户可以检索一个名称或单词的各种变体。例如,如果用户执行了“marriage”(婚姻)的关键词检索,平台也会返回“matrimony”(婚姻/婚礼)的检索结果。这一功能可以通过在检索词两侧使用引号或利用全文检索字段而关闭。这一功能基于Gale的主题词表,由我们公司内部的图书馆和信息科学领域的专家维护。
内容的标引由一项自动程序完成,并经过内容和元数据专家的独立质量保证检查。我们的标引和元数据过程非常严格,确保我们遵循标准化的工作框架以实现准确性和连续性。这整个过程确保了我们的研究者能获得最优化的检索体验,也是Gale引以为傲的方面。
Michelle:在整个制作过程中,资源内容经过几次质量检查,既有自动也有手动。第一次质量检查是在收到图像提供商的扫描图像后执行的。每一幅扫描图像都经过了质量审核。此阶段的一些质量检查项目例如:
扫描图像通过质量检查后会进入数据采集的制作过程。这项工作由我们的供应商完成,包括创建OCR和键入元数据。数据采集阶段完成后,数据进入另一次质量检查。我们的质量供应商同时审核扫描图像和采集的数据(OCR和元数据)。每一篇文献都进行质量审核。这个阶段的一些质量检查项目例如:
通过以上质量检查的数据被交付给制作团队(数据按计划每周或每半周批量交付)。这些数据随后会经过处理进入制作流程系统。在这个过程中,数据会经过一系列的自动化校验过程。它们包括:
上述步骤完成后,我们会进行最后一次质量检查。这一次,制作团队会手动抽样审核交付的数据:
通过所有质量检查的数据然后会被导入到产品数据库中。导入脚本包括验证结果,以保证采集的数据遵循了验证模式的规范。
Megan 和 Joe:档案库一旦发布后,最后一组数据被存档。我们创建多个副本并保存在不同的服务器上。制作团队仍然能够访问这些内容,以便快速恢复数据。有时,根据客户的反馈可能需要修改或增加新的产品索引或功能。完整的数据被提供给Portico(https://www.portico.org/),确保客户始终能够访问到内容。
除了Michelle团队开展的工作,数据被上传到一个数字档案中后,我们制作管理和内容团队会在发布前测试内容,找出任何异常之处。同时,内容被添加到档案库中后,档案库本身也会经历几轮开发团队、制作管理团队和质量保证团队的测试,确保所有新增和改进功能都按预期运行,当档案库发布时能提供尽可能最好的研究体验。
Sarah:对于一名制作团队的成员而言,没有什么通常的日常工作。我们与在不同时区的不同国家的不同团队以不同的语言合作不同的项目,每一天都需要克服独特的挑战。
我们采纳策划编辑的想法,了解网络上的想法,让世界各地的人们都能够检索来源机构的档案和典藏。我们然后必须与Gale内部和外部的多个不同团队和供应商合作,制作出最终产品。
收集需求
来自产品经理:
来自产品经理团队的新需求或升级需求可能随时到来。产品经理们查看用户对我们所有项目的评论、反馈和建议。他们收集所有信息并转化成用户故事和需求,找出我们平台上用户最期盼的功能。这通常意味着我们在制作过程中需要在现有的XML文件中添加、修改或标准化一些东西,以支持这种新的功能。一个例子是全新的浏览手稿功能。这是用户一直以来要求我们实现的功能,因此我们收到了一个所需手稿必须有手稿编号并在产品中对手稿编号排序的需求,这样用户将能够轻松找到他们正在寻找的资料。
来自策划编辑:
我们可以随时从策划编辑那里获得新的想法,通常从启动会议开始。这次会议的目的是了解项目的思路、预期和细节。它来自哪里?它包含什么?它规模如何?最终的在线档案库看起来应当是怎样的?这个档案库有什么特殊之处?
制作团队然后拿到元数据并将其整合到制作过程中,让每一篇文献资料都有意义且没有什么明显的缺失。我们了解元数据是如何组织的,图书馆是如何对内容编目的,我们尝试实现类似的浏览体验,这样用户就能够轻松找到他们想要的资料。我们有时会创建线框图,显示出新的功能或新的程序看起来是怎样的。这些线框图可能是word文档中的文本框,也可能是完整具体的工作流程线框图。我们会进行检查以确保他们提出的需求是可行的并且与其他档案库相一致,也就是说,我们不希望一个档案库使用美国的缩写作为筛选关键词,而另一个档案库则使用美国的全称。
制作档案
来源机构、大学和图书馆:
策划编辑向我们阐明他们的想法后,我们会与来源机构、大学或图书馆合作,找到我们如何能够进入图书馆扫描他们的资料或我们如何能够拿走这些资料进行扫描的方法。我们与他们合作获得MARC记录、完整列表、元数据,有时他们帮助我们标识内容,这样扫描团队就可以清楚地知道当他们抵达那里时要扫描什么。有时,来源机构会自己扫描,或之前已经扫描了部分内容,这样的话制作团队会与他们合作拿到图像,交给我们进行审核。因为这些典藏中的一些资料从未被正确编目或已经尘封多年,在制作团队开始收集所有内容准备开始扫描时,我们会从来源图书馆那里收到说明和问题,我们也会为他们提供说明并提出问题。
扫描:
为了每年平均扫描1千万页内容,我们雇用了扫描供应商,他们能够进入来源机构,或扫描运输到供应商那里的文献资料。我们向扫描团队和来源机构提供一份需扫描文献资料的清单。这些文献资料可能是图书、小册子、传单、报纸、期刊、杂志、手稿、卷轴、地图、照片等等。每一类文献都有不同的问题、解决方案和处理流程。制作团队在整个扫描过程中每天都会从扫描供应商那里收到问题和说明,扫描过程可能持续3个月到两年。问题和说明涵盖的情况例如文献缺失、多出的文献、重复的文献、需要保护的文献、有特殊要求的文献,例如扫描4英尺(约122厘米)长卷轴的最佳方式是什么?或文献过于脆弱无法扫描。通常问题需要由最初的策划编辑来回答。制作团队帮助解决和监测这些问题,并监督扫描的进程,保证它按计划、按原定的规格大小完成。
这些图像然后经过另一供应商的质量保证程序。质量保证供应商检查并确保扫描的图像准确无误,顺序正确,特别是分辨率正确,没有缺失页。这个过程也会产生说明和问题,我们会做相应的处理和解决。
转换为XML(可扩展标记语言)文件:
为了每年处理1千万页的内容,我们将扫描图像发送给转换供应商。我们也以MARC记录、图书馆编目的形式一并发送元数据,其中包括我们自己公司内部创建的元数据或图书馆或机构内兼职人员提供的编目数据。供应商将正确的元数据与正确的图像相匹配,浏览所有的打印和手写文字,将这些文字的坐标映射到整个页面上。这使得用户能够检索这些扫描图像上的文字,同时能够轻松找到将会被高亮显示的这些文字的位置。这个过程根据工作量需要3到9个月的时间。制作团队在整个过程中也会每天收到问题和说明,包括缺失元数据或MARC记录、错误元数据或MARC记录、需要特别指示的特定内容,例如我们应对集邮册添加那种标签?转换供应商将XML文件和图像批量发还给我们,我们检查元数据,确保供应商正确地捕捉到了所有的信息,例如标题、作者、出版时间等。这些说明和质量保证工作是制作团队每天工作的主要部分。
与开发部门合作:
我们将经过质量保证处理的、有时经过纠错的XML文件和图像交付给开发部门和开发处理团队,他们将内容和图像上传到平台。此时,如果他们发现了问题或涉及新的索引或需求,我们会与开发团队合作。
与标引团队合作:
有时产品会产生更多的需求,超出了制作团队的工作范围或无法由制作团队完成。这些情况例如主题专家参与其中或为报纸文章分配学科主题。在这种情况下,制作团队会联系标引团队。他们会查看XML文件或元数据,根据作品类型为我们提供恰当的学科分类,然后由我们加入到XML文件中。