大数据架构下的文献资源管理应用

时间:2017-12-15 编辑整理:早发表网 来源:早发表网

作为以图书馆为基础的情报研究机构,随着近年数据资源量的不断增加,各类文献、图书、期刊、基础数据等都需要进行稳定的存储与高效率的分析。同时,基于这些数据的知识库、咨询服务智库等系统的建设也都迫在眉睫。为了能充分管理众多数据,为各类系统提供数据基础,有必要建设一个结构统一、技术先进、可重复利用的数据资源平台,统一管理各类数字化资源。

1存在问题

面对大量的数据资源,在信息化过程中通常会碰到以下问题:1.1信息孤岛现象这种现象是指需求建设的应用系统存在相互之间在功能上不关联互助、信息无法共享互换以及信息与业务流程和应用相互脱节等问题,缺乏统一元数据管理。1.2多种类型数据缺乏统一数据架构每个业务环节都会有大量非结构化、结构化、半结构化数据,如何对这类数据进行统一分析管理。在这些多种结构的数据中存在大量内在关联,只有统一数据存储,才能进一步挖掘出数据中存在的深层价值。1.3软硬件环境重复购买现象在信息化建设过程中,新建应用系统都会根据自身需求重新搭建软件、硬件环境,大部分系统运行所需软硬件并没有达到资源的满负荷利用。1.4缺乏统一数据标准由于多年系统建设过程中由不同团队开发,造成相同数据内容格式不统一,存在大量冗余数据,彼此数据更新不畅通。1.5缺乏统一数据安全管理方案在日常工作过程中需要进行大量数据交互与实时操作,缺乏统一的信息化安全手段对数据分配权限进行管理,并实现定期的资源备份。

2建设目标

基于以上状况,考虑基于大数据架构的文献资源管理方案应可达到以下目标:(1)实现基于统一元数据定义的信息集中管理和信息共享,为数字出版、数据加工、咨询服务、日常管理等各项工作提供统一数据资源平台。(2)实现统一大数据环境,满足各个应用对于文档数据、关系型数据、非关系型数据和内存型数据的统一存储需求。(3)构建基于SOA架构的应用系统,保证在应用对于数据访问权限的统一管理。(4)建设统一搜索环境,满足于各种数据资源能够统一搜索查询访问。(5)建设必须具备高度的先进性、可靠性、可用性、安全性并具备良好的扩展性和灵活性。

3建设方案

3.1资源建设方案

图书馆中常见资源主要包括文献、图书、期刊、数值型数据、动态信息等。依据数据结构的不同,可主要分为基础数据、结构化数值型数据、非结构化数据、动态信息、其他文字类信息等几类。其特点如下:(1)基础数据:主要如书目、期刊文献等数据;(2)动态信息:主要包括各类网站、媒体发布的信息,时效性比较强;(3)非结构化数据:主要包括格式不够统一的数值型数据;(4)结构化数值型数据:可以定期获取的格式相对规范的数据,如海关进出口数据、图书期刊销售数据;(5)其他文字类信息:更新频度较慢的文字类数据,如各类法律库、研究报告等;针对不同类型的数据资源,应对其采用特定的方式进行处理、保存及利用。3.1.1基础数据包括如数据、期刊文献等基础数据都应经过数字化加工、元数据定义、自动标引、关键数据提取等多个步骤,分别保存至相应数据库。3.1.2动态信息动态信息的来源主要是各个网站,包括网站文章及各类舆情信息。可以由技术手段完成从信息采集、分类整理到分发的所有过程。整个流程由三个规则来体现:分别是采集规则、分类规则、分发规则。采集规则:采集规则由编辑确定,包括来源网站、栏目等。利用爬虫技术,可对所有网站的资源进行自动增量采集,并装入“待分类库”。分类规则:分类规则利用到词表、词库以及自动标引技术。由专家及编辑对所有资源进行多维度分类,并提供相应的语料,经过学习,对之前进入“待分类库”中的所有数据进行自动标引。之后,所有的数据将被从多个维度被分类。保存后即可方便准确的提取。分发规则:在完成上述两项工作之后,所有的动态信息已经被分门别类的整理好。通过分类、关键词即可快速提取相关的信息。对于已经经过规范化处理的动态信息,也可以直接利用形成产品,同样依据自有的多维分类,即可把相关的动态信息直接推送给用户。3.1.3结构化数值型数据结构化数值型数据包括海关进出口数据、统计局数据、产品库等众多格式相对规范资源。由于数据量的不断增大,需要考虑使用数据仓库技术对所有的结构化数据进行规范保存,利用建模的方式保存数据。这类数据的主要用途分为两部分对内提供数据的查询,对外提供报告的自动生成。(1)数据查询。规范化存储之后的数据可以方便的通过多个维度进行查询、钻取,内容的研究人员可以直接通过输入查询条件进行数据的查询,同时生成各类图表。(2)自动报告。对外可以以产品的形式提供多种数据报告,利用预先准备的模板,在用户选择所需报告之后,利用已有数据,套用不同模板形成一份自动的报告。3.1.4非结构化数据对于非结构化数据,将主要通过两种方式来处理。(1)非结构化数据的结构化。部分非结构化数据本质是结构化数据,因为某些原因才造成了数据的不完整,对于这类数据,需要整理结构的最大集并将相应的数据填入对应字段。在完成此步骤之后,可采用类似对于结构化处理的方式对这些资源进行处理。(2)非结构化数据的标引分类。除上述的数据之外,还有一部分非结构化数据过于零散,只能采用标引的方法实现这些数据的归档利用。方法和动态信息的处理方式类似。3.1.5文字类信息文字类信息的特点是实效性不强,每次发布后都会长期使用。比如法律法规、咨询报告等。这类资源应主要采用自动标引的技术进行处理。首先也需有多个维度的分类、词库、词表以及语料,经过学习后将每篇文章进行标引分类,之后再将文章内的段落进行二次标引。这样,所有的资源都可以通过关键词、多个维度的分类进行提取,即可获取具体段落资源、也可以获取完整的文章报告。这类规整后的信息可提供给内部科研人员作为资料进行调用,同时可以为结构化数据的自动生成报告提供文字资源。


职称
论文

期刊
发表

加急
见刊

写作
咨询

课题
专答

编辑
顾问

关注
我们

返回
顶部