国外典型科学数据仓储实施的元数据方案及启示

作者：浏览数：次关键词：数据仓储启示典型国外

打开文本图片集

摘要：元数据方案是建立科学数据仓储需考虑的核心问题之一。文章从功能目标、元数据元素和元数据方案特点三个维度，分析四个国外典型的科学数据仓储（DataCite、GBIF、DataStaR和OTA）的元数据方案。结果表明：四个科学数据仓储元数据方案各有特点，其元数据元素各不相同，但都以用户需求为中心构建方案。我国制定科学数据仓储元数据方案，需从考虑功能定位、应用现有元数据标准及相关框架及以用户为中心等方面对方案进行评估。

关键词：科学数据仓储；元数据方案；DataCite；GBIF；DataStaR；OTA

中图分类号： G250.74 文献标识码： A DOI： 10.11968/tsygb.1003-6938.2015021

Metadata Practice in Typical Scientific Data Repositories Abroad

Abstract Metadata design is one of the core questions of building a scientific data repository. This paper analyzes in details the four typical scientific data repositories abroad including DataCite， GBIF， DataStaR and OTA， in terms of aims， elements and features. The results show that three metadata practice present different features and elements， but they are all user-centered. Finally some suggestions are put forward for designing metadata for scientific data repositories in China， including considering the functions and aims， adopting the current metadata schemas and evaluating the metadata in a user-centered approach.

Key words scientific data repository； metadata design； DataCite；GBIF；DataStaR；OTA在大数据时代和E-science背景下，科学数据作为一种学术交流资源，其作用日益凸显，有必要建立科学数据仓储对科学数据进行组织、保存和再利用，对科学数据实施数据监护。其中，元数据是建立科学数据仓储需考虑的核心问题之一。如何根据已有的元数据标准，并结合本机构特点，构建能满足用户存储、检索、复用和分享科学数据等需求的元数据框架方案，是建立科学数据仓储和实施数据监护需要考虑的一个重要问题。

1 国内外研究现状

国外对科学数据仓储的研究比较早，早在2009年，期刊《Cataloging & Classification Quarterly》策划了一个专辑：《Metadata and Open Access Repositories》专门探讨元数据与开放存储库问题。国外关于该问题的研究内容主要包括：科学数据仓储元数据实施案例研究[1-2]；用户信息行为研究[3]；元数据质量[4]；图书馆的角色[5]。可见专门针对科学数据仓储的元数据标准和方案的比较研究还不太多，研究者注重个案研究。

国内直接研究科学数据仓储元数据问题的文献较少，主要介绍了Dryad和UKDA的元数据管理问题[6]；提出了高校科学数据设计的原则，并在都柏林核心元数据的基础上，提出了具体的元数据方案[7]。其它相关研究包括对科学数据监护的研究，对科学数据监护的研究主要体现在：国外数据监护总体介绍及启示[8]；国外数据监护岗位设置[9]；图书馆的角色[10]；国内科研人员调查[11]。可以发现研究以介绍国外科学数据项目进展的文献比较多，对已有的元数据标准以及适用性分析还不够，而这恰恰是本文重点研究的内容。

2 国外几个典型的科学数据仓储元数据实践方案

2.1 典型科学数据仓储的选取及简介

根据数据仓储注册系统Databib统计，目前数据仓储建设数量比较多的国家集中在美国、英国和加拿大。在学科分布上，数量占比较高的学科是：生物、环境、地球科学、多学科科学等。从隶属类型上分析，隶属于政府和机构的数据仓储比较多，少数隶属商业公司[12]。为体现不同类型数据仓储的元数据建设方案特点，本文选择了DataCite、GBIF、DataStaR和OTA四个仓储作为典型案例进行分析。这四个仓储分别来自多国合作、美国和英国，体现了目前数据仓储建设的主要国家分布。在学科上也包括综合和具体小学科，分别选取了生命科学和语言文学，一方面可以体现自然科学和人文科学各自的特点，另一方面根据Databib的统计分析，生物科学是目前数据仓储分布数量比较集中的一个自然科学，而语言文学是人文社会科学中数量分布比较集中的一个学科。在机构上选取了两个单机构和两个多机构的数据仓储，体现了不同的特点（见表1）。

2.2 DataCite元数据方案

2.2.1 DataCite目标

DataCite是由加州大学数字图书馆、德国国家科技图书馆、大英图书馆、苏黎世联邦理工学院图书馆、法国科技信息研究所、丹麦国家技术信息中心、荷兰代尔夫特理工大学图书馆、加拿大科技信息研究所、澳大利亚国家数据服务中心和普渡大学合作完成的项目，该项目于2010年1月1日正式启动。

DataCite的目标是“促进科学研究数据的网络便捷获取、提升科学数据的引用价值，并支持数据存储，以利于未来研究中的证实和复用。”因此，DataCite的元数据方案也主要支持科学数据的引用和发现。具体而言，包括如下四个功能：第一，基于少量的必备元素，制定数据的标准引用格式；第二，提供与其他元数据方案，尤其是领域有关的方案之间的互操作；第三，通过一些可选元素对资源进行灵活描述（与其它资源的关系、同一资源的其它版本等），促进对数据的发现；第四，通过建立可控词表，以便未来提供深层次服务（如发现服务）。

2.2.2 DataCite元数据元素

DataCite的必备元素（核心元素）包括：识别符（Identifier）、创作者（Creator）、题名（Title）、出版者（Publisher）、出版年（Publication Year）。其中识别符是DOI，创作者是指制作数据的主要人员，出版者是指将数据发布给研究社区的机构。

DataCite的可选元素包括：主题（Subject）、贡献者（Contributor）、日期（Data）、语言（Language）、资源类型（ResourceType）、其它识别符（AlternateIdentifier）、相关识别符（RelatedIdentifier）、大小（Size）、格式（Format）、版本（Version）、Rights（权利）、描述（Description）。其中，其它识别符、相关识别符和版本这三个元素主要用来描述对象之间和对象内部之间的复杂关系。DataCite在元数据方案中对相关识别符的具体属性进行了限定，包括：被引（IsCitedBy）、引用（Cites）、部分（IsSupplementTo）等18种关系值[13]。

2.2.3 DataCite元数据特点

DataCite的元数据方案呈现如下特点：第一，必备元素比较少，只有五项；第二，可选元素中突出对描述对象之间的复杂关系的元素，并设置了多种复杂的值，方便对科学数据的引用和发现；第三，设置专人管理元数据。DataCite在成立之初就组建了专门的元数据工作小组，负责元数据方案规划和制定。该工作小组认为由于DataCite成员来自10个国家的11个图书馆和研究机构，分布广泛，其需求可能不一致，需要不断更新元数据方案。因此，DataCite任命了一名来自TIB的专职人员负责元数据监管（Metadata Supervisor）。

2.3 GBIF元数据方案

2.3.1 GBIF目标

GBIF（Global Biodiversity Information Facility）是由全球多个国家和组织机构合作建设的一个数据仓储平台。GBIF的愿景是：为促进科学、社会和未来的可持续发展，让公众可自由地、普及性地获取生物多样性信息。可见其目标是：通过国际互联网，让全世界的生物多样性数据在全球任何范围内面向任何人都可免费获取。当前，GBIF可提供来自1000多个机构的四亿多条记录，是最大的生物多样性数据库。

2.3.2 GBIF元数据元素

GBIF元数据方案是在生态元数据语言框架（Ecological Metadata Language，EML）的基础上完善扩展而成的。GBIF的必备元素只有5项，包括：题名（title）、元数据提供者（metadataProvider）、语种（language）、发布日期（pubDate）、摘要（abstract）。其中，摘要是对数据集的简单描述。题名是对提交资源的区别性描述，以便能区分出类似资源，可提供多个标题。

GBIF的可选元素很多，一共有53项，包括：基金（funding）、方法（methods）、地理位置（geographicCoverage）、知识产权（intellectualRights）、关键词（keyword）、生存时间（livingTimePeriod）、机构名称（organization name）、目的（purpose）、项目（project）、质量控制（qualityControl）等[14]。

2.3.3 GBIF元数据特点

GBIF的元数据方案呈现如下特点：第一，必备元素少，但可选元素数量庞大，达50多项，除一些常规的通用元素外，还包括一些独特的与学科领域有关的元素，如：地理位置、生存时间等；第二，提供一些工具，自动生成元数据元素。包括：集成发布工具包、元数据编辑器（Integrated Publishing Toolkit metadata editor）、达尔文核心元数据模版（Darwin Core Spreadsheet template metadata form）等。

2.4 DataStaR元数据方案

2.4.1 DataStaR目标

DataStaR（Data Staging Repository）是由康奈尔大学Albert R. Mann Library负责实施的一项美国国家科学基金项目。自2007年开始实施，2010年正式完成。DataStaR的功能是为康奈尔大学的学者提供一个本地的阶段性（staging）存储库，包括两个目标：一是支持研究过程中的合作与共享；二是为科学数据在永久性的学科或者机构存储库中进行发布提供支持。该项目关注的焦点是具体的“小科学”（small science）数据，不需要超大存储容量但却具有持久学术价值的小型数据。

2.4.2 DataStaR元数据元素

DataStaR的必备元素包括：所有者（Owner）、创建者（Originator）、题名（Title）、识别符（Identifier）、元数据与数据获取许可（Metadata and data access permissions）、拟发布存储库（Publication repository）、拟发布/删除日期（Target data for publication or deaccessioning）、文件级元数据（field-level metadata）。其中创作者是指数据创建的登录人员，由系统自动生成。文件级元数据是指和文件自身有关的元数据，包括：文件名称、文件格式、上传时间等，由系统自动生成。

DataStaR的可选元素包括：联系人员（Contact person）、与研究小组的关系（Relationship to research group）、与其它资源的关系（Relationship to other resources）、引文（Citing Publication）、摘要（Abstract）、时间范围（Temporal coverage）、地理范围（Geographic coverage）、使用权利（Usage rights）、主题（Subject）等，所有的可选元素都由作者自行提供[2]。

2.4.3 DataStaR元数据特点

DataStar的元数据方案呈现如下特点：第一，需用户自行输入或选择的元素少，只有四个，包括：创建者、题名、元数据与数据获取许可和拟发布存储库，其余元素都由系统自动填写或者具备缺省值；第二，元数据方案体现了语义网特征，可支持信息资源的自动发现和互操作；第三，将元数据视为语句集合（a collection of statements），方便用户对元数据的复用。如：当用户利用同样的研究方法或者研究网站时，对元数据的复用可节省用户时间。

2.5 OTA元数据方案

2.5.1 OTA目标

OTA（University of Oxford Text Archive）是牛津大学于1976年实施的一个数据仓储，得到了英国联合信息系统委员会（JISC）和英国艺术与人文研究委员会（AHRC）的支持。OTA的目标是：为促进科研和教学，对原始数字资源进行采集、编目、保存和传播。其学科范围是：与英国高等教育有关的高质量语言文学类。其资源的采集不局限于牛津大学内部，而是来自更广泛的社区。OTA目前收录25种以上不同语种的文本资源。

2.5.2 OTA元数据元素

OTA元数据元素不区分必备元素和可选择元素，一共包括21项，主要有：第一，涉及数据内容的元素：题名（Title of Resource）、其它题名（Alternative Titles）、项目摘要（Project Summary）、资源摘要（Resource Abstract）、资源类型（Purpose Resource Type）、相关数字资源（Related Digital Resources）、学科关键词（Subject Keywords）；第二，与版权有关的元素：责任人（Creators）、出版者（Publisher）、其它责任人（Other Acknowledgements）、版权（Copyright）、数据保护法（Registration under the Data Protection Act）；第三，其它元素：识别符（Identifiers）、基金（Funding）、数字资源创建时间（Date Digital Resource Created）、语种（Language）、数字化细节（Details of Digitization）、来源出版物（Sources）、出版物（Publications）、地理信息（Geographical coverage）、时间覆盖（Temporal coverage）[15]。

2.5.1 OTA元数据特点

OTA元数据方案呈现如下特点：第一，不区分必备元素和非必备元素，元素比较多，对每一个元素的具体内容都有详尽的说明；第二，注重版权。21个元素中有5项与版权有关，全面揭示数字资源的版权归属。

如前所述，四个典型数据仓储因功能目标不同，呈现不同的元数据方案，其中有共性也有差异（见表2）。

3 对我国制定科学数据仓储元数据方案的启示

3.1 国内科学数据仓储元数据建设的发展现状

我国对科学数据的元数据研究和实践已经取得了一定成果。2002年，我国科技部开始实施科学数据共享工程，并制定了数据共享工程的核心元数据标准，主要包括：元数据基本信息、数据集引用信息和数据集负责方。之后，又陆续启动了气象、测绘等科学数据共享中心的建设与共享服务试点。

由于核心元数据标准都是与学科无关的元素，不能满足具体学科用户的使用。在此基础上，各学科制定了相应的元数据标准，包括：《生态科学数据元数据》（GB/T 20533-2006）、《地理信息元数据》（GB/T 19710-2005）、《水利地理空间信息元数据标准》（SL420-2007）等。各自包括的内容有共同之处，但更体现了各自不同的学科特点。如：《生态科学数据元数据》包括七个模块：标识信息、实体信息、场地信息、方法信息、数据质量信息、项目信息和分发信息[16]。而《地理信息元数据》包括十类子集：标识信息、限制信息、数据质量信息、维护信息、空间信息、参照系信息、内容信息、图示表达类目参照信息、分发信息、元数据扩展信息[17]。

我国目前直接面向科学仓储建设和服务的学科数据元数据标准还有待进一步探索和实践，可结合科学仓储的特殊功能需求和用户使用需求，对学科领域的数据元数据标准进行部分吸收，并进行扩展，用于科学仓储的元数据建设。如：地球系统科学数据共享网的建设就提供了基于XML Schema的元数据建模扩展机制[18]。

3.2 制定科学数据仓储元数据方案需考虑的问题

3.2.1 功能定位

制定科学数据仓储元数据方案首先需要考虑该仓储的功能定位，确定科学数据仓储的组织和管理机构（单一机构还是多机构合作）、服务对象（本机构内部还是所有网络用户，或者特定学科群体用户）、服务内容（是否需要满足对科学数据的检索、获取、传递、存储、复用等）。

国外四个典型科学数据仓储实施的元数据方案表明：功能定位的不同，其元数据元素和特点也不同。如：DataCite主要用于支持科学数据的引用和发现，其元数据方案中可选元素重点突出描述对象之间的复杂关系，并设置了多种复杂的值；GBIF的目的是让公众可方便地获取生物多样性信息，其元数据方案体现了一些独特的与生物多样性学科领域有关的元素，如：地理位置、生存时间等；DataStaR主要用于支持康奈尔大学研究人员对项目在研期间数据的共享以及数据向最终存储库的发布，其元数据方案考虑了科研人员对语义网的应用需求，利用了语义网技术；OTA主要用于保存原始的语言文学类资源，版权归属相对复杂，其元数据方案重视版权保护。

3.2.2 现有元数据标准及相关框架的应用

国内外相关机构都制定了一些各领域的元数据框架（Metadata Scheme），较为知名的有：通用领域的都柏林元数据框架（Dublin Core）、用于生命科学领域的达尔文核心元数据（Darwin Core）、用于教育领域的IEEE学习对象元数据框架（IEEE Learning Object Metadata）等。

我国可根据本机构或者本项目用户需求，对已有的元数据框架进行调整，删除或者新增部分元数据元素和值。如：DataCite元数据方案依据德国国家科技图书馆之前所采用的元数据框架，由工作组成员讨论而逐步完善；GBIF元数据方案借鉴了生态元数据语言框架（Ecological Metadata Language，EML），在此基础上扩充了部分元素；DataStar借鉴了都柏林元数据框架（Dublin Core）、生态元数据语言本体（EML Ontology）、Fedora属性（Fedora properties for Vitro）、FOAF本体（Friend of Friend Ontology）等已有的框架，建立了DataStaR核心本体（DataStaR core ontology）。利用现有的元数据框架或相关标准，一方面可提高科学数据仓储元数据的共享性和通用性，另一方面，也可节省制定科学数据仓储元数据方案的时间。

3.2.3 元数据方案评估

如前所述，四个国外典型科学数据仓储DataCite、GBIF、DataStaR和OTA的用户需求和项目目标功能不同，其元数据方案各自呈现出不同特点，它们各自包含的元素和赋值也各不相同。那么，应该如何评价面向科学数据仓储的元数据方案呢？

综合考虑四个科学数据仓储的元数据方案特点，可以发现它们存在一个共同之处：都以用户为中心来构建其元数据方案。首先，尽可能帮助用户，以节约用户建立记录的时间。DataCite和GBIF的必备元素只有四五项；DataStaR的必备元素虽然多，但多数元素都可以计算机自动生成；OTA不区分是否必备元素，但每一项元素都有详尽的说明，以帮助用户理解。其次，考虑各自用户的实际需求。如：DataCite重点考虑用户对科学数据的引用和复用；GBIF突出对已有工具包的利用；DataStaR考虑科研用户对关联数据的应用；OTA突出对原始数据版权的梳理和保护。因此，面向科学数据仓储的元数据方案应以具体用户的需求为出发点和重心，满足用户对科学数据的查找与发现、识别与选择、获取与分享等不同的功能需求。

4 结语

在数据驱动科学时代，为了满足科研用户对科学数据的存储、检索、复用和分享等各种需求，国内外相关机构都构建了一些科学数据仓储，其元数据方案是构建科学数据仓储需重点考虑的问题之一。根据科学数据仓储的功能目标、用户需求特点，我国可借鉴已有的元数据框架或相关标准，制定符合需要的科学数据仓储元数据方案。

参考文献：

[1]Greenberg， J.， White， H. C.， Carrier， S.， & Scherle， R. A Metadata Best Practice for a Scientific Data Repository[J]. Journal of Library Metadata，2009，9（3-4）：194-212.

[2]Dietrich， D. Metadata Management in a Data Staging Repository[J]. Journal of Library Metadata， 2010，10（2-3）： 79-98.

[3]White， H. C. Descriptive Metadata for Scientific Data Repositories： A Comparison of Information Scientist and Scientist Organizing Behaviors[J]. Journal of Library Metadata， 2014，14（1）： 24-51.

[4]Windnagel， A. The Usage of Simple Dublin Core Metadata in Digital Math and Science Repositories[J]. Journal of Library Metadata.2014，14（2）， 77-102.

[5]Heidorn， P. B. The Emerging Role of Libraries in Data Curation and E-science[J]. Journal of Library Administration， 2011，51（7-8）：662-672.

[6]黄如花，邱春艳. Dryad数据仓储的元数据管理[J]. 图书馆杂志， 2014 （1）： 68-73.

[7]周波. 高校科学数据元数据方案初探[J]. 图书馆学研究，2012 （1）： 45-49.

[8]王芳，慎金花.国外数据管护（Data Curation）研究与实践进展[J].中国图书馆学报，2014（4）：118-130.

[9]叶兰. 国外图书馆数据监护岗位的设置与需求分析[J]. 大学图书馆学报， 2013 （5）： 5-12.

[10]樊俊豪.图书馆在科学数据管理中的角色定位研究[J]. 图书情报工作， 2014 （3）： 27-41.

[11]张晋朝.高校科研人员科学数据获取意愿研究[J]. 情报杂志， 2013 （6）：70-75.

[12]刘峰，张晓林，孔丽华. 科研数据知识库研究述评[J]. 现代图书情报技术， 2014（2）： 25-31.

[13]Starr， J.， & Gastl， A. isCitedBy： A Metadata Scheme for DataCite[J/OL].[2014-09-23].http：//www.dlib.org/dlib/january11/starr/01starr.html.

[14]Chavan， V， & Penev， L. The data paper： a mechanism to incentivize data publishing in biodiversity science[J]. BMC Bioinformatics， 2011，12（Suppl 15）： S2.

[15]University of Oxford. University of Oxford Text Archive[EB/OL].[2014-09-23].http：//ota.ahds.ac.uk/.

[16]吴彬. 生态科学数据元数据及其标准研究 [J]. 中南林业科技大学学报， 2010 （12）： 5-79.

[17]蒋景瞳，刘若梅，周旭，等.国家标准《地理信息元数据》研制与实现若干问题[J].地理信息世界，2003（10）： 2-5.

[18]崔丽美，谢佳节，杨联安，等.基于XML Schema地球系统科学数据的元数据扩展机制[J].测绘学报， 2005（3）：246-251.

作者简介：胡芳（1984-），女，中国科学院文献情报中心博士研究生，首都师范大学图书馆馆员。