打印纸张 字号选择:超大 行高 带图打印 返回原文 返回主页

后稷网 > 《文化产业》网 展览展馆

基于高校图书馆的书目关联数据创建实践

2023年02月23日 00:00

关联数据自提出起就快速成为国内外的研究热点,但国内除国家图书馆和上海图书馆外,还少有这方面的实践开展。现通过文献计量法、可视化分析对近五年国内外关联数据的研究情况进行梳理,并基于关联数据在图书馆领域的应用和BIBFRAME模型在书目资源关联化中的应用,通过小规模试验对高校图书馆的书目关联数据创建的方向和困难进行分析和探讨。

关联数据(Linked Data)最早是由万维网发明者、万维网联盟(W3C)创办者Tim Berners-Lee于2006年最早提出的。近年来,国内关于关联数据的相关研究持续增加,关联数据在图情领域的应用也逐渐得到学界的广泛认同,但具体的图书馆馆藏资源数据的关联化还与国际具有较大差距。

图情界关联数据的发展与研究情况

自关联数据提出以来,图情界对于其的研究众多,李朝阳等(2020)通过对国内外图情领域关联数据研究论文的分析和研究,认为国内外在该领域的研究几乎同时起步,同步发展,并将2009—2018年分为初始、停滞、爆发和成熟四个阶段,研究内容涉及基本理论研究、技术方法和工具研究、应用研究等方面。随着关联数据的概念逐渐被广泛认知,近年来,越来越多的学者进入这一领域的研究中,本文利用Bicomb和Gephi等分析工具,借助CNKI和Web Of Science数据库,对近五年国内外该领域的研究文献进行比较分析,包括发文量、作者及合作关系、研究机构、关键词比较等。

数据来源

在 WOS 核心集中,以主题词=(“linked data”)OR(“linked open data”进行)搜索,限定学科类别“INFORMATION SCIENCE LIBRARY SCIENCE”,限定文献类型为“论文”OR“综述论文”,得到相关文献73篇。

在CNKI 期刊页面中,以主题词=“关联数据”或者“开放关联数据”进行精确搜索,筛选文献分类学科为“图书情报与数字图书馆”,来源类别为“CSSCI”和“北大核心”,得到相关文献210篇。

检索时间为2022年12月7日,发文年度均为“2018—2022”。

年度发文量

如图1所示,近五年来国内有关关联数据的研究数量持续下降。通过泛读论文,笔者认为其主要原因是理论研究与实践推进严重脱节。从发文内容可以看出,国内文献大量集中在概念解读、理论探讨和对国外技术的介绍上,即使是少部分实践内容也是以框架搭建、模式设计为主,核心源动力的缺失使发文量持续走低。

图片1.jpg

图1 国内外年度发文趋势图

相比来讲,国外的相关研究发文量缓慢增长,稳扎稳打,多国对书目数据的关联化进行了实践推进,并基于此不断进行词表、代码和技术的更新演变。当然,统计口径和选取标准也是发文绝对数量产生差异的一个主要原因,因此此处不对绝对数量进行比较,仅对近五年国内外本学科发文数量的趋势进行探讨。

作者及合作度分析

通过Bicomb对210篇国内文献及73篇国外文献的作者进行分析,统计结果如表1所示。国内有2位学者5年内发文超过10篇,4位学者发文数在5—10篇之间,另有8位学者发表4篇,5位学者发表3篇,参与写作的学者共计380人;由于搜索总量限制,国外作者整体发文量较少,有1人发表3篇,2人发表2篇,其他198名学者均为单篇发文。国内作者合作度(一段时期内作者总数/论文总数)为1.81(380位学者参与写作210篇文献),国外作者合作度为2.75(201位学者参与写作73篇文献),整体来讲,国外学者在这个研究领域的科研合作更为紧密,平均每篇文章需要3个人共同完成。

                  表1 发文作者统计表

作者

发文量

作者

发文量

陈涛

14

Burrows, T

3

贾君枝

13

Gonzalez, PU

2

夏翠娟

8

Velios, A

2

高劲松

6

Ries, T

1

刘炜

6

Porter, GW

1

肖明

5

Qureshi, NI等

1

 国内外研究关键词分析

通过Bicomb共抽取了中文关键词521个,英文关键词261个,经过筛选、消歧后统计词频较高的关键词统计如表2所示,同时利用Gephi进行中文文献的关键词聚类分析,如图2所示。

                       表2 研究热点关键词词频统计表

关键词

出现频次

关键词

出现频次

关联数据

95

linked open data

10

数字人文

30

linked data

6

本体

25

digital humanities

6

BIBFRAME

20

archives

5

知识图谱

17

semantic web

4

知识组织

17

metadata

4

图片2.jpg

图2  国内研究关键词聚类关系

结合图表可见,图情界关联数据的研究热点大致有6个主要方向,分别为知识组织和知识发现、数据和信息服务、书目数据转换、数字人文及数字图书馆、大数据及知识库构建、科学数据及科技文献。其中,对如本体、元数据、词表等基本理论的研究,对基于BIBFRAME的书目数据转换,以及基于关联数据在图情领域可以实现的知识组织、知识服务、科学数据、知识图谱等应用领域的研究是近五年来较为热门点的研究内容。

关联数据在图书馆系统内的应用

现状及前景

关联数据在图书馆资源管理与服务中具有明显优势,可以协助实现不同机构资源的聚合和共享,实现馆藏不同类型文献资的关联,实现数据发现和知识挖掘,并能进一步实现图书馆资源检索能力的跃升。

但是以上都建立在关联数据的理念能落地实现的基础上。尽管学界对关联数据的技术讨论和研究非常热烈,但在实际应用中并未进行规模性推广,甚至从某种程度来说,关联数据的概念还并不为广大图书馆界从业人员所知。国家图书馆最新的编目员培训课程仍是对CNMARC进行讲解和使用,而关联数据构建和应用的推广并未被提上日程。

国外有许多图书馆将MARC数据转换成关联数据,而在国内,仅有上海图书馆基于关联数据构建了开放数据平台,应用于图书馆的人文信息描述方面,并开放给大众使用。中国国家图书馆于2009年启动“国家图书知识组织标准规范”项目,基于数字图书馆文献资源描述和组织框架完成了部分知识组织工具与数字馆藏元数据的语义化,制定了CNMARC、MARC21与国家图书馆元数据核心元素集映射转换指南,但目前其词表和资源尚无法直接访问。

2Bibframe在书目数据关联中的应用

关联数据的核心为RDF的三元陈述组,即以主谓宾的形式描述每个元素,并对描述元素进行关联,从而解决信息孤岛的问题。对于书目数据关联化的转换,BIBFRAME书目描述框架是一种国际普遍认同的框架方式,可以用于取代目前的MARC的书目数据格式,以实现细粒度、语义性、开放性、向后兼容的资源存储方式。

BIBFRAME是由美国国会图书馆于2011年5月发布的新型书目数据模型与词表,它设计了一套完整的关联数据模型、词汇、需求与用例,并且提供工具与服务。与现在使用的MARC相比,BIBFRAME模型可以基于实体的层次化结构检索,以细粒度的语义数据进行标记,实现书目的开放和关联,对非专业用户更加友好。

基于高校图书馆的书目关联数据发布实验

实验内容及意义

高校作为教育研究的主要阵地,一直走在各个学科探索和实践的前沿,而高校图书馆在师生教学科研的过程中处于核心地位。结合国际前沿发展趋势,对高校内的特色型数据逐步开始关联化尝试,为未来这一工作的全面展开做好技术、人才和战略上的储备,是推进智慧图书理念馆落地的核心工作。并且,关联数据在知识发现、规范控制和资源关联方面有着独特优势,可以弥补目前各高校科研数据平台在这方面的不足。

本次实验将结合首都体育学院办学特色对主题词为“体育产业”的相关书籍信息进行关联化实践,并利用Open Refine工具实现关联数据发布,在这一过程中寻找问题,发现问题,为进一步探讨和深入实践打下基础。

实验设计与实验过程

选择资源

本实验源数据的获取是通过检索系统,对“体育产业”相关的馆藏书籍进行搜索,并摘取题名、著者、出版方、出版地、出版年、页码、尺寸、ISBN号、索书号等进行关联数据发布。以上信息既可以帮助读者对书目形成基本的了解,也可以通过ISBN号对书目进行唯一定位,并基于图书馆属性,帮助读者在图书馆搜索查找相关书籍。

数据建模

源数据包含11项内容,其中题名为检索系统对书籍名称和著者的描述,方便直接搜索;著者为作者信息,包含作者的出生年代等部分内容;出版方为书籍的出版社信息;出版地和出版年分别描述了书籍出版时的地域、年代特征;页码和尺寸描述了书籍实体的物理特征;ISBN号作为书籍的身份证号,可以搜索到唯一的相关数据;索书号是读者到图书馆进行实体书搜索的数据依托;SameAs是与上海图书馆数据关联的外部链接;URI是对应的每本书籍的唯一标识符。

对以上信息进行整理汇总后,使用Open Refine工具导入数据,根据数据建模及其属性对应的词表,在工具中添加自定义词表的URI和命名空间,以及所重用词表的前缀、类和属性,并定义类及属性值的资源类型,从而将数据映射到适当的类和属性中。书目信息的关联化词表,在本实验中主要是用BIBFRAME进行定义的,外部链接使用的是owl的词表中的SameAs。

定义URI

由于书目存在同名或者同出版社等情况,而ISBN号无法直接阅读大致方向,因此本实验中使用索书号对URI进行分配。以《布局与结构区域体育产业发展研究》为例,定义URI的命名空间前缀为http://www.HLibrary.org/org/,并在其后分配索书号G812/41,以备查看时大致了解其类别属性。

定义属性、类和值后,使用Open Refine工具生成RDF文档,并通过https://www.w3.org/RDF/Validator/进行可视化和验证。

实验结果

实验中,由于中文识别问题,导出的RDF存在大量乱码问题,可视化和验证的过程中也出现了一定的问题。多次报错发现自动生成的RDF文档中多处存在结尾句少“<”的问题,这可能是乱码导致的符号识别错误。逐个进行修改后,再次验证有效性并生成部分可视化图形。

本次实验是对书目数据的关联化,尚未对书目之间的关联性进行探讨,未来可对相同的出版商进行统一URI的定义和关联,对相同作者也进行关联,从而进一步发挥关联数据在智库搜索中的作用。

思考与讨论

在本次实验中,笔者通过探究高校图书馆对特色学科书目数据关联化的实验,细致化体验了一下创建关联数据的过程。学界在谈到关联数据时,总是探讨数据关联后可以实现的种种功能,但就目前来看,关联数据的发展离这一目标的实现还有较大距离。

首先,创建rdfRDF文件的软件平台的本地化是第一步,保证生成出来的文档不报错、不乱码,是首先需要解决的问题。;统一工具后的下一步是统一词表,词表的复用非常重要,BIBFRAME的使用虽然与国际接轨化,但是对国内许多一线工作人员或许并不友好。就像此前针对MARC数据我们要制作对应的CNMARK一样,国家图书馆正在针对这一方面积极建设,相信国内通用的基础词表很快就会出现。拥有了基础词表和软件平台,还需要培养一批工作人员对于数据进行改造和创建,这个过程可能会需要耗费大量的人力、物力和时间,初期需要各地各高校分工,对现有图书、期刊、电子资源进行关联化,用统一的平台和词表进行标识,后期主要是数据重用和各自对于各自领域的特殊数据进行轻加工,虽然繁杂但是有序。

总体来讲,关联数据,的确是未来的大势所趋,但就目前的发展情况来看,至少在图书馆领域的书目数据关联化仍然任重而道远。

参考文献

[1]汪德禹.基于关联数据的数字图书馆碎片化知识网络构建研究[J].河南图书馆学刊,2020,40(11):75-76+81.

[2]李朝阳,庞弘燊.国内外图情领域关联数据研究比较分析[J].图书馆研究,2020,50(01):50-57.

[3]李晋,张立,王颖,等.基于关联数据的图书馆资源管理与服务研究[J].信息系统工程,2022(09):19-22.

[4]高斌.网络环境下书目信息关联数据化的实现方法[J].图书馆论坛,2022,42(12):110-119.

[5]李一秀.图书馆语义化组织现状及对策研究——以国家图书馆实施情况为例[J].新世纪图书馆,2021(01):57-61+74.

[6]宋琳琳.欧洲国家图书馆BIBFRAME进程的调查与思考[J].图书情报知识,2020(06):34-43.

原文地址:http://www.whcyzzs.cn/html/2023/0223/2874.shtml