程序员求职经验分享与学习资料整理平台

网站首页 > 文章精选 正文

OAIS模型及其数字资源长期保存要求

balukai 2025-02-07 16:27:10 文章精选 19 ℃

关注我们 - 数字罗塞塔计划 -

如果世界上有一个模型对国内的数字图书馆和数字档案馆建设做到了“言必称之”的程度,那一定是OAIS(Open Archival Information System,开放档案信息系统)参考模型;如果问哪一个标准对世界范围的数字档案馆应用系统和电子档案长期保存系统的建设最具指导意义和参考价值,那也一定是ISO 14721《空间数据和信息传输系统 - 开放档案信息系统(OAIS) - 参考模型》。本文中我们将对档案界如雷贯耳的OAIS参考模型进行介绍,当然,限于文章篇幅,我们将重点对与数字罗塞塔计划紧密相关的数字资源长期保存要求进行介绍。


一、概述

在国际标准化组织(ISO)的请求下,美国空间数字系统咨询委员会(Consultative Committee for Space Data Systems,CCSDS)开始开发一个存档标准以支持数字资源的长期保存。CCSDS于1999年5月发布了OAIS参考模型,这一参考模型针对数字信息的长期保存和维护的档案系统提供一个概念性的框架,描述了一个档案系统存在的环境、档案系统的功能组织以及支持档案处理的信息基础结构。在CCSDS和ISO的推动下,OAIS参考模型成为了数字档案系统普遍遵从的标准规范(即ISO14721),来自图书馆、档案馆、科学数据、文化传承等领域的相关项目和系统都纷纷以其为准,进行系统的规划和设计。CCSDS认为需要长期保存的数字信息将被留存,这一“长期”指的是时间足够长,能与技术变革产生的影响相关联,这些影响包括新载体和新数据格式的支持以及用户群的改变等(关于“长期”的定义可以参考《档案数字资源长期保存的“长期”是多少年?》一文)。到目前为止,ISO14721标准出过两个版本,分别是ISO14721:2003和ISO14721:2012,主体内容差别不大。

OAIS的目标如下:

1、为长期保管数字信息所需理解的存档概念提供框架,以提高对此的关注度;

2、为非存档组织有效参与保存过程提供所需概念;

3、提供包括术语和概念在内的框架,以实现对现有和将来的存档机制和操作进行描述和比较;

4、提供描述和比较不同的长期保存策略和技术的框架;

5、为比较数字信息的数据模型,探讨数据模型与基础信息如何随时间变化提供基础;

6、为实现对长期保存的非数字形式信息(如实体介质和实体样本)的扩展提供基础;

7、阐述关于长期数字信息的保存与访问的一致观点,促进数字保存各方支持者的更多赞助;

8、指导OAIS相关标准的确定与创建。

OAIS参考模型帮助理解长期保存和访问数字信息所需的存档概念,并提供一种考虑数字资源长期保存的思维方式。利用此模型可以达到让不同应用平台下产生的数字档案能够互联互通、资源整合,实现信息共享、长期保存以及持续可读的目的。


OAIS认为,一个OAIS是一个置身于生产者、消费者和管理者之间的一个存档体系。如下图所示。

围绕OAIS进行档案收集、管理、存储和利用的角色分别有生产者、管理者和消费者:

1、生产者(Producer)

提供需要保存信息的人或者是客户系统。生产者通过OAIS的摄取/收集过程向OAIS提交要保存的信息,包括元数据。这个过程接收提交的数据并准备到档案系统中存储。生产者与OAIS的相互作用通常被描述为提交协议,具体包括:提交的信息类型、期望生产者能提供的元数据以及从生产者到存档的实际传送管理。

2、管理者(Management)

由设置OAIS整体政策的人组成。这一角色确立档案收集的范围,明确档案条目的保存许可,指明资金来源以及监管使用的情况,定期评论OAIS的政策和运作。

3、消费者(Consumer)

通常也翻译成用户,指的是与OAIS服务交互以获取特定保存信息的人或系统。在OAIS消费者中,也包括了被称为“目标团体”的特殊消费者。


管理者、生产者、消费者在OAIS中更多的代表了功能性,而不是单纯的组织角色。所有这些角色可以被包含在单一的组织架构内,也可以分布在多个不同的组织中。


二、OAIS参考模型介绍

数字信息是OAIS中的基本格式,这些数字信息或者是作为档案的主体,或者是作为对数字化信息以及物理存档信息的支持信息存在。在OAIS参考模型中,提供了一个完整的档案信息保存功能,它包括摄取/收集、数据管理、档案存储、利用/分发。它同时论述了数字信息从一种载体或格式到另一载体或格式的迁移/转换、信息表示的数据模型、信息保存中软件的作用、档案系统之间数字信息的交换等。它还确立了各个档案功能内部和外部的接口,以及一系列在这些接口之上的高层服务。


在OAIS参考模型中定义了六大功能实体和三大信息包。下图描述了OAIS参考模型的框架结构(以档案数字资源管理为例):

OAIS中六大功能实体分别为:


1、 档案收集(Ingest)功能


这一实体提供的服务和功能是从档案生产者那里接收提交信息包(SIP),并且对内容进行准备,以便所提交信息能够在档案系统中进行存储和管理。收集功能包括:接收SIP包、对子SIP包进行质量确认、生成符合档案系统数据格式和文件标准的保存信息包(AIP)、从AIP中抽取出描述信息以存入档案数据库,并且协调对档案存储和数据管理的修改工作。


2、 档案存储(Archival Storage)功能


这一实体提供的服务和功能是存储、维护和检索AIP。档案存储的功能包括从Ingest接收AIP,并将它们存储到永久存储系统之中、管理存储系统的组织结构、对存储有档案的载体进行翻新、执行日常的维护工作和特殊的错误检查、提供灾难恢复能力、并且为Access提供AIP以实现档案提取和利用。


3、 数据管理(Data Management)功能


这一实体提供的服务和功能是植入、维护和存取那些标识并记录档案馆藏的描述信息以及对档案系统进行管理的管理数据。数据管理功能包括管理档案数据库(维护数据库中概念模型及视图的定义,维护系统的参照完整性等)、执行数据库更新(装载新的描述信息或档案管理数据)、对管理数据提供查询功能以产生结果集,并从这些检索结果集中生成查询报告。


4、 系统管理(Administration)功能


这一实体提供的服务和功能是对整体的档案系统提供操纵管理。管理功能包括与档案生产者进行商讨以决定提交协议,对提交进行审计以确保提交内容符合档案标准、对系统的软件环境进行配置和管理。它同样还包括一些功能:如监测并提高档案系统运作、详细记录、报告档案的内容,并且对档案的内容进行迁移和修改。它也包括建立并维护档案标准和政策、提供客户支持、激发存储请求。


5、 保存计划(Preservation Planning)功能


这一实体提供的服务和功能是监测OAIS的环境,提供相关建议以确保在OAIS中存储的信息在长期一段时间之后,仍然能够被相应的目标用户所访问。保存计划包括的主要功能有对档案系统中的存储内容进行评估,并且周期地提供存档信息建议以迁移当前的档案馆藏;对档案系统的标准和政策进行建议;监测技术环境和目标用户的服务需求及知识背景的变化。保存计划同样包括设计信息包的模板,提供设计帮助和相关评价以对这些模板进行专业化处理形成特定的SIP和AIP。保存计划还包括开发详细的迁移计划,开发迁移软件原型系统和相应测试计划以实现管理迁移目标。


6、 档案利用(Access)功能


这一实体提供的服务和功能是支持档案消费者,使档案消费者可以判定、了解、定位以及访问存储在OAIS中的信息,让档案消费者可以请求并接收信息产品。利用功能包括与档案消费者进行通讯以接收请求,对于某些特别保护的信息进行管理控制以限制其访问,协调请求的执行以实现请求的完全响应,生成响应(分发信息包DIP,结果集,报告)并且将这些响应传送给档案消费者。


OAIS提出了信息包(Information Package)的概念来说明档案生产者向OAIS的提交过程和OAIS向档案消费者的分发过程。一个信息包是一个包含名为内容信息(Content Information)和保存描述信息(Preservation Description Information,PDI)两种信息对象的容器。


OAIS对提交给它的信息包、它所存储的信息包、以及它分发给其它消费者的信息包进行了区分,分别将这些信息包叫做提交信息包(Submission Information Package,SIP)、保存信息包(Archival Information Package,AIP)和分发信息包(Dissemination Information Package,DIP)。


信息包是信息对象的容器,而信息对象是由知识背景、数据对象和表征信息组成的。数据对象要么是物理对象,要么是数字对象。表征信息是用来解释数据的,使数据成为有意义的信息。因此,信息包是包含了“内容信息”和“保存描述信息”这两种信息对象的“容器”。信息包还与其它两种信息对象——“封装信息”和“信息包描述信息”联系在一起。如下图所示:


三、OAIS参考模型中的长期保存要求

作为国际标准的OAIS参考模型之所以能够在数字资源长期保存领域获得广泛的认可,不仅在于它为数字信息保存提供了一个可供遵循的模式和框架,还在于它所蕴含的管理思想精髓能够被各种数字信息保存机构所广泛借鉴和吸收,发挥其在数字资源保存领域的独特优势。

3.1 信息模型

OAIS的首要目标就是为指定用户群(消费者Consumer)保存信息,而保存时间则难以确定。OAIS认为:完善的数字保存系统必须确保被保存的信息对于目标用户而言是独立可理解的,也就是说,应当确保目标用户在没有信息生产者(Producer)帮助的情况下,仍能够独立地理解被保存的信息。为了实现这一目标,在保存系统中既要保存存档对象,也要保存存档对象的描述和说明信息。为此,OAIS提出了信息模型的概念,用以描述数字保存系统中存在的各类信息,规范数字保存系统中的信息类型和信息包组成。信息模型揭示了数字保存系统中复杂的信息关系,直接影响着在数字保存系统中选择什么作为存储对象,哪些信息是数字对象本身,哪些信息是对数字对象进行描述的信息,这些信息都如何对数字对象进行描述和说明。另外,数字保存系统中的信息模型不仅要有助于数字对象的存储,也要有助于在数字保存链条的每一个阶段发生问题时,能够及时采取措施进行修正,并能够在新的环境和条件下确保可以还原保存的数字对象,保证数字对象的系统可读性和用户可读性。总之,信息模型在数字资源长期保存活动中占据着非常重要的地位。OAIS信息模型如下图所示:

为了对信息对象进行全面而准确的描述,OAIS引入了信息包的方式,实现了信息对象的自包含、自描述、自证明:

引用IBM以色列海法实验室的观点,数字资源长期保存包含两个层面含义,即比特保存与信息保存。也就是说,要实现数字资源的长期保存,必须同时做到比特保存和信息保存。比特保存,也叫物理保存,主要指在存储载体老化或逐步过时的过程中,或是在经历自然灾害后,人们恢复载体中所存信息的能力,重在解决硬件过时的问题。信息保存也叫逻辑保存,主要指在未来技术和用户群体变化的情况下,长期确保数据可理解性和可用性,重在解决编码、语法甚至部分语义过时的问题。由此可见,OAIS信息模型实际上就是为了解决数字保存中的“信息保存”问题。


接下去我们再来看看OAIS参考模型六大功能实体中和长期保存密切相关的两大功能实体(档案存储和保存计划)以及保存策略。


3.2 档案存储

档案存储功能实体详细分解如下图所示:

各组成部分简要描述如下:

1、 数据接收

接收“数字资源获取”(即摄取/收集)实体的存储申请和保存信息包(AIP),并将AIP转移到档案馆的长期保存库中。转移请求需要标明含有AIP的数据对象预计的利用率,以便选择恰当的存储装置或载体来存储AIP。这一功能将选择载体类型、预备装置或容器,并且实施物理转移,将数据对象转移到档案存储器中。完成转移后,“数据接收”将发送一份存储回执给“数字资源获取”实体,其中含有AIP的存储鉴定信息。

2、存储等级管理

在存储管理政策、操作统计或指引“数字资源获取”实体通过存储申请的基础上,通过命令来安置AIP中内容的存储位置。将按照AIP所要求的特殊级别的服务和安全措施来确定恰当的保护级别。这些特殊的服务或安全措施包括:在线存储、离线存储或近线存储、要求的吞吐速率、允许的最大限度的比特错误率、特殊的处理或备份程序。通过监控错误日志,确保AIP在转移过程中不被破坏。它向“系统管理”实体提交操作统计,概述现有的载体清单、各个存储级别可利用的存储容量,还提供利用统计。

3、载体转换

随时间的推移而复制、更新存储AIP的载体。在载体转换功能中,内容信息和保存描述信息不得更改,但构成封装信息的数据可以改动。新载体的选择要考虑各种载体类型预计发生和实际发生错误的概率、它们的性能及成本。如果载体的属性特征 (例如,磁带部件的尺寸、只读光盘的扇区信息)已经包含在内容信息中,且成为其中的一部分,那么当内容信息迁移到较大容量的载体上时,应保证载体属性信息得到妥善保存。

4、 错误检验

确保在内部的档案存储数据传送中,没有AIP成份被破坏。这一功能要求档案馆中所有的软硬件发布潜在错误的通知,并将这些错误发送到标准错误日志中,由档案存储人员进行检测。当AIP被移动或提取时,保存描述信息的固化信息能在某种程度上保证内容信息不被更改。保存描述信息本身也需要类似的信息提供保护。使用一种跟踪并检验档案馆所有数据对象的标准机制很有必要,例如,对每个单独的数据文件提供循环冗余码校验或者支持综合误差侦查和修改的“里德-所罗门代码”。存储设备程序应该利用循环冗余码或其它错误检测机制对数据对象的完整性进行随机检验。

5、灾难恢复

复制档案资源的数字内容并将副本存储到离线设备中并异地保管。这一功能通常通过复制档案内容到某种格式的可移动存储载体(如:数字线性磁带、光盘)上来实现,但也可以通过硬件输送或网络数据传送来完成。

6、数据提供

向“数字访问”(即利用/分发)实体提供存储AIP的副本。这一功能接收到请求AIP的申请,然后对要求的AIP进行鉴定后,按照要求的载体类型提供这些AIP,或者将这些AIP传送到某一集结地。完成后,“数据提供”还将发送一份数据传送通知给“数字访问”实体。


3.3 保存计划

保存计划功能实体详细分解如下图所示:

1、 目标用户监控

与档案馆的消费者和生产者相互沟通,以追踪他们对服务的需求和可利用产品技术的变化。这些需求可能包括:数据格式、载体选择、对软件功能的偏好、新的计算机平台、与档案馆联络的机制。这一功能可以通过调查、定期的正式检查、请求用户团体反馈或请求用户个人反馈来完成。它向“长期保存策略和标准制定”提供报告、需求警报和新出现的标准,并向“打包设计与迁移计划制定”发送保存要求。

2、技术监控

负责追踪新出现的数字技术、信息标准和软硬件计算机平台,以确定哪些技术可能引起档案系统的计算机环境的过时以及妨碍当前一些档案资源的访问。这一功能可能包括:为了更好地评价新出现的技术而进行原型设计,并且接收“长期保存策略和标准制定”及“打包设计与迁移计划制定”的原型申请;发送报告、外部数据标准、原型设计结果、技术警报给“长期保存策略和标准制定”;发送原型设计结果给“打包设计与迁移计划制定”。

3、长期保存策略与标准制定

负责制定并推荐策略和标准,以确保档案馆能够更好地预见未来指定用户群对服务需求的变化,更好地预见技术的发展趋势,这些技术将很可能要求迁移当前的档案资源或要求进行新的提交。这一功能接受来自“目标用户监控”和“技术监控”的报告;接收来自“系统管理”的工作进展信息、库存清单报告和用户意见总结;发送系统优化推荐书给“系统管理”;接收来自“技术监控”的外部数据标准,对这些标准进行简介,并发送到“系统管理”,作为潜在利用的建议;当“打包设计与迁移计划制定”遭遇了未曾预料到的提交要求时,“长期保存策略和标准制定”将接收这些问题,并回复相关的建议以处理这些新的要求。

4、 打包设计和迁移计划制定

制定新的信息包设计方案和详细的迁移计划及原型,执行“系统管理”的政策和指令,还就这些信息包设计方案的应用和特定的档案资源及提交信息的迁移计划提出参考说明。这一功能从“系统管理”接受经档案馆批准的标准和迁移目标,这些标准包括格式标准、元数据标准和文件标准等。将这些标准运用于保存要求并向“系统管理”提供AIP和SIP的模板设计方案。它还就这些模板设计方案的应用,向“系统管理”提出用户化建议,并对AIP或SIP进行检查。另外,如果遇到了现有的标准和程序没有涉及过的提交活动时,它很可能向“长期保存策略和标准制定”发送这些问题,并接受其建议,建议中可能包括新的标准,以帮助处理这些新的提交要求。


3.4 保存策略

计算机工业迅速变化的特性以及数字资源存储载体寿命的短暂性与OAIS的主要目标——长期保存数字信息相背离。无论OAIS将当前的资源维护的多么好,最终还是得将大部分的资源迁移到不同的载体和(或)不同的软硬件环境中去,以维持它们的可读性。在数据丢失的可能性高得不得不加以重视之前,目前的数据存储载体至多只能维持几十年。而且,仅在几年之后,技术的迅速发展将使得许多系统面临挑战。


OAIS通过数字迁移来应对上述挑战,在迁移过程中,OAIS需要:保存所有的信息内容;对信息进行重新归档并替换原有信息;对迁移的各个方面进行全面的控制和负责。驱动OAIS中的AIP数字迁移的三个主要因素是:

1、 改良后的成本

硬件的迅速发展和软件的升级改进在极大地增加存储容量和传送带宽的同时,还降低了成本。这促使了一些载体类型的过时,尽管它们还完好无损。另外,改良后AIP的封装设计也许不怎么依赖潜在的载体和支持系统。为了降低成本,OAIS必须将AIP的信息转移到新的载体类型上去,但可能需要对AIP进行一些修正。

2、客户服务的新需求

OAIS的用户同样感受到了新技术的好处,这必然诱使他们希望从OAIS获得这种类型和水平的服务。这些增加的服务也许需要新格式的DIP,以便向特殊的指定用户群提供服务。这也将驱使OAIS采用新格式的AIP,以减少输出的转换。另外,AIP必然要经历一段普及期,OAIS也需要提供不同层次的利用服务,以满足不同时期的用户的需求。

3、载体损坏

作为比特的安全保护者,数字载体会随着时间的推移而变得越来越不可靠。尽管对这些载体会采取某些错误纠正措施,但最终还是需要更换。载体损坏的最终结果就是AIP中的信息必须转移到新的载体上去。


OAIS中的数字迁移涵盖的范围很广,包括复制、更新、(重新)封装、格式转换等,事实上,数字保存的技术措施和技术策略还不止这些,历史上曾经提出过的保存策略包括计算机博物馆(系统保存)、风干、更新、再生性保护、仿真、标准化(格式转换)、封装、迁移八种,如下图所示:

有关这些保存策略(技术措施)的相关介绍参见《数字资源长期保存技术概览(上》和《数字资源长期保存技术概览(上》。


对国外数字资源长期保存先进理论、标准、项目进行跟踪研究是数字罗塞塔计划研究任务的重要组成部分。数字罗塞塔计划是由杨安荣博士联合国内知名投资机构发起的一项利用蓝光存储、数字胶片、玻璃存储等技术,旨在解决电子档案乃至数字信息长期保存的国产化替代科技攻关工程项目,以实现“保存社会记忆,传承人类文明”的最终目标。


【完】

关注我们 - 数字罗塞塔计划 -

最近发表
标签列表