关键词:数据共享数据论文同行评审质量控制数据期刊
1、引言
信息技术的发展和普及催生了数据的爆炸式增长,将人类社会带入了大数据( big data) 时代。对数据的识别、管理、计算和应用正前所未有地改变着人类生产和生活的诸多方面,科学研究也概莫能外。“大数据”引起了研究模式的革命性变化,促成了数据密集型科学发现即科学研究第四范式的诞生。在这种研究模式下,科学研究不再单纯地依靠科学问题或假设驱动,而是转而探究科学数据本身。大数据引发了对数据共享的广泛关注和讨论,对数据共享的需求也日趋强烈,在这种背景下,数据论文( data paper) 应运而生。数据论文采用规范的出版形式,但与常规学术论文有很大不同:数据不是支持学术观点的辅助性材料,而是论文主体。自从20 世纪末生态学领域经典学术期刊Ecology 首次刊发数据论文以来,伴随“大数据”的浪潮,其已引起了科技期刊出版界和科研群体的广泛关注,得到了长足而迅速的发展。目前,国际上不仅有期刊开通了数据论文发表通道( 如Ecology,BMC Research Notes 和International Journal ofRobotics Research 等) ,数据期刊( data journal) 业已正式出版发行( 如自然出版集团( Nature PublishingGroup) 的《科学数据》( Scientific Data) ,Pensoft 出版社的《生物多样性数据期刊》( Biodiversity DataJournal,BDJ) 等。有关数据论文的概念探讨也开始见诸于专业科技期刊。在出版实践上,数据论文的出版流程也在不断完善和规范。可以说,数据论文的出现和发展,不仅有益于科学数据的共享和积累,也是对论文出版类型的一种全新的尝试。然而,其在国内却未受到相应重视,对绝大多数期刊和科研群体而言,数据论文仍然是一个相对陌生的概念。基于此,本文详细介绍了数据论文产生的背景、概念以及国内外出版实践,以期为国内同行了解相关信息提供翔实的参考资料,并提出了在我国开设数据论文发表通道的建议。
2、数据论文及其相关概念
要准确地阐释数据论文,首先需要将其与数据发表、论文数据资料等概念和形式区分开来。
2. 1 数据发表( data publication)
数据发表是将数据发布在网络或其它媒介上,在遵循版权协议的前提下,他人可以引用、下载、分析和重用。广义上讲,任何将数据上载到网络或其它媒介并允许他人使用的行为都可以称为“数据发表”[8]。目前国际上有很多存储专业数据的平台,这些平台的数据格式遵循国际标准,保了上载的数据能够被清晰描述,并为数据共享和重用奠定了基础。如,存储生物多样性、物种分类和描述数据的全球生物多样性网络( GBIF) ,存储基因数据的Genbank 和生命条码数据系统( Barcode of Life DataSystems,BOLD) ,存储转录组数据的基因表达数据库( Gene Expression Omnibus,GEO) ,存储系统发育数据的TreeBASE 等。科研工作者将数据上载到这些存储平台上,就属于数据发表行为。
2. 2 数据资料( data materials)
数据资料作为支撑论文学术思想的佐证,是论文本身需要展示的不可或缺的部分。目前主要有两种形式,一种是限于版面和出版成本,数据不在正文中出现,而以附件形式存在。这种形式早已有之,较为普遍; 另一种形式是期刊出版机构和科研群体基于对科学数据公开、重用、共享以及对论文原始数据真实性和重复性[9 - 10]的考虑,鼓励作者将论文涉及的数据存储在专业数据库或出版机构网站上,推行这一举措的包括Nature、AmericanNaturalist、Ecology、Evolution、Heredity、BiologicalJournal of the Linnaean Society 等国际知名期刊。在上述两种形式中,数据资料不是论文本身要描述的主体,而是起支撑论文学术思想的作用。
2. 3 数据论文( data paper)
数据论文是正式的学术论文,遵从学术发表规范,要接受严格的同行评议( peer-review) 。它与常规学术论文最大的不同之处在于,并不重点报道基于科学假设和科学问题的研究结果,而是重点描述科学数据本身。实际上,数据论文的概念早已有之。早在2000 年,美国生态学会( Ecological Societyof America,ESA) 就在投稿须知中对其进行了阐释:数据论文是一种特殊类型的论文,用于展示大型或丰富的数据集,包括描述数据内容、数据产生背景、数据质量和结构的元数据文件。ESA 明确提出发表数据论文的目的是重用数据,让数据发挥更多潜在的科研价值[11]。随着数据共享理念的发展和在线共享方式的普及,Chavan 和Penev( 2011) 将其概念发展为: 数据论文应该总是与其描述的公开发布的数据集链接,这个链接( 可以是URL,最好是数据存储库自动分配的DOI) 包含在文章内部[12]。概言之,数据论文是对在线数据集( dataset) 或一组数据集进行描述的元数据文档,遵循一定的数据标准,计算机可读、可检索[13 - 15]。Ecology、Phytokeys、Zookyes、BMC Research Notes 和International Journalof Robotics Research 等期刊都发表数据论文。
2. 4 数据期刊( data journal)
除部分期刊开设数据论文栏目外,近来还涌现了专门发表数据论文的数据期刊( data journal) 。这方面非常典型的例子是: 自然出版集团( NaturePublishing Group) 出版的《科学数据》和Pensoft 出版社的《生物多样性数据期刊》。《科学数据》重在描述实验和观察数据,并有效整合传统学术发表内容和结构信息,力求在最大程度上促进数据重用,帮助用户进行检索和信息挖掘[20]。《生物多样性数据期刊》则采用一套完整的在线平台,集中整合了论文写作、投稿、审稿和编辑,再到出版和传播的全部流程,是具有开创性的新兴期刊出版模式。