一、數(shù)字圖書館技術(shù)在信息資源的管理與開發(fā)利用中的地位
(一)國內(nèi)外數(shù)字圖書館建設(shè)情況
20世紀(jì)90年代初,美國科學(xué)家首先提出了Digital Library的概念,可以翻譯為數(shù)字圖書館,也可以理解為數(shù)字化資源庫。數(shù)字圖書館是一個數(shù)字信息資源系統(tǒng),它通過現(xiàn)代信息網(wǎng)絡(luò)技術(shù)體系,將有價值的圖像、文本、音頻、視頻、軟件等各種多媒體信息進(jìn)行收集、組織、規(guī)范和再加工,最終向用戶提供一個多庫連接的信息存取服務(wù)。
自數(shù)字圖書館概念提出之后,各國都在積極推進(jìn)數(shù)字圖書館研究和建設(shè)。美國是全球數(shù)字圖書館建設(shè)的領(lǐng)導(dǎo)者,其數(shù)字圖書館項目納入了國家信息基礎(chǔ)設(shè)施虛擬圖書館中,列在美國全球資源項目下。美國現(xiàn)有分布于各地的八個數(shù)字圖書館研究中心,六個國家級數(shù)字圖書館試驗基地,很多90年代開始計劃的數(shù)字圖書館規(guī)劃目前已都完成。美國往事(American Memory)項目是美國國會圖書館數(shù)字圖書館建設(shè)的主要項目,其數(shù)字館藏的對象主要是美國的歷史文獻(xiàn),包括歷史照片、手稿、歷史檔案和其他文獻(xiàn)等,該項目已在2001年起向全球用戶開放;由美國科學(xué)基金會(NSF)、美國國防高級研究計劃署(DAROA)、美國宇航局(NASA)發(fā)起并資助的美國“數(shù)字圖書館首倡計劃”(DLI,Digital Library Initiative)于1994年啟動,該數(shù)字圖書館的內(nèi)容主要是有關(guān)地球與空間技術(shù)的科學(xué)資料,一、二期工程已分別于1998年、2003年完成;美國國家基金會發(fā)起的美國國家科學(xué)數(shù)字圖書館(NSDL)也已完成,其目的是向各種層次的學(xué)生和教師提供高質(zhì)量的科學(xué)、數(shù)學(xué)、工程與技術(shù)等教育資料。此外,美國很多地區(qū)和大學(xué)也都建立了自己的數(shù)字圖書館。
法國國家數(shù)字圖書館工程建設(shè)的數(shù)字資源達(dá)3000GB以上,書目數(shù)據(jù)記錄830萬條;德國“1996-2000年信息技術(shù)發(fā)展計劃”的中心內(nèi)容是建立全球數(shù)字圖書館;英國“國家圖書館存儲創(chuàng)新倡議”共有20個項目,目前大多已完成,并在互聯(lián)網(wǎng)上提供服務(wù);“俄羅斯往事”項目包含了俄羅斯歷史文化精華,它的電子圖書館項目包含了29個子項目;日本投入了15億日元開發(fā)日文文獻(xiàn)數(shù)據(jù)庫,還投資4億美元興建“日本國會圖書館關(guān)西館工程”。此外,很多全球性的數(shù)字圖書館項目也已建成,如“G8全球信息社會電子圖書館”是由美、法、英、日、德、加、意、俄8個國家的國家圖書館共同參加的項目,已于2000年完成,其內(nèi)容涵蓋了各國的歷史文化精華。
國際上數(shù)字圖書館及相關(guān)概念出現(xiàn)后,中國國內(nèi)很多單位也開展了相應(yīng)的技術(shù)研究和開發(fā)工作。1997年中國實驗型數(shù)字圖書館啟動,經(jīng)過三年多的工作,建成了分布于全國7個地區(qū)的數(shù)字資源庫群,資源內(nèi)容包括中國法律法規(guī)、文化旅游、名人和軍事博覽4個主題的30多個資源庫。1998年國家圖書館啟動了“中國數(shù)字圖書館工程”,其目標(biāo)是建成超大規(guī)模的、高質(zhì)量的分布式中文數(shù)字資源庫并提供網(wǎng)上等多種服務(wù),該項目目前還在建設(shè)中。2001年中國科學(xué)院啟動了國家科學(xué)數(shù)字圖書館,目標(biāo)是建成一個能夠直接有效支持科研用戶信息獲取和知識創(chuàng)新活動的數(shù)字信息服務(wù)體系。此外,一些地方和大學(xué)根據(jù)自身的資源特點,也都在建個性化的數(shù)字圖書館。
?。ǘ?shù)字圖書館技術(shù)在信息資源的管理與開發(fā)中處于領(lǐng)先地位
隨著信息技術(shù)的不斷發(fā)展,數(shù)字化信息資源越來越多,如何采集、組織和管理這些海量信息資源,并通過再加工、信息共享、整合等增值服務(wù),以滿足各種用戶的多樣性需求,就成為了信息資源管理與開發(fā)的重要內(nèi)容。
數(shù)字圖書館研究和開發(fā)起步較早,它將計算機(jī)網(wǎng)絡(luò)環(huán)境下的信息資源的收藏、管理、使用和增值服務(wù)集成在一起,以支持?jǐn)?shù)字化資源整個生命周期的活動,與其他領(lǐng)域的信息資源管理與開發(fā)具有相同的內(nèi)容。因而,數(shù)字圖書館建設(shè)中所開發(fā)的很多技術(shù)、標(biāo)準(zhǔn)都可以被直接用于其他領(lǐng)域的信息資源管理與開發(fā)。目前,由于在全球范圍內(nèi)數(shù)字圖書館建設(shè)的快速發(fā)展,大大促進(jìn)了相應(yīng)技術(shù)的提升,如數(shù)字化技術(shù)、存儲技術(shù)、信息資源描述技術(shù)、互操作技術(shù)、互聯(lián)網(wǎng)查詢檢索技術(shù)等等,為其他領(lǐng)域的信息資源管理與開發(fā)提供了技術(shù)儲備。
不僅是數(shù)字圖書館建設(shè)中開發(fā)的各種技術(shù)、標(biāo)準(zhǔn)可以為其他領(lǐng)域使用,數(shù)字圖書館還可以直接作為其他領(lǐng)域的基礎(chǔ)設(shè)施被使用,如電子政務(wù)、電子商務(wù)等領(lǐng)域??梢?,數(shù)字圖書館開發(fā)和建設(shè)在現(xiàn)代信息資源管理與開發(fā)中起著龍頭和基礎(chǔ)作用。
二、數(shù)字圖書館技術(shù)的最新發(fā)展
根據(jù)數(shù)字圖書館建設(shè)業(yè)務(wù)的流程,數(shù)字圖書館技術(shù)體系大致可分為四個部分:(1)資源采集和移植,包括傳統(tǒng)信息資源采集和電子信息采集兩個方面。傳統(tǒng)信息資源采集使用的技術(shù)主要有掃描、縮微、光學(xué)字符識別、語音識別、人工智能等,電子信息采集包括文本、圖像、視頻、音頻的處理技術(shù)。(2)資源描述。資源描述技術(shù)主要是標(biāo)準(zhǔn)的制定和規(guī)范,目前主要有MARC機(jī)讀目錄、元數(shù)據(jù)標(biāo)準(zhǔn)和標(biāo)識語言標(biāo)準(zhǔn)。(3)資源組織,包括海量信息存儲、加工、管理等技術(shù)。(4)資源存取,包括信息檢索和互操作技術(shù)等。此外,資源安全技術(shù)在數(shù)字圖書館建設(shè)中也被廣泛應(yīng)用,包括網(wǎng)絡(luò)安全、信息加密等。
圖2-1 數(shù)字圖書館技術(shù)體系
數(shù)字圖書館建設(shè)的快速發(fā)展,極大地促進(jìn)了數(shù)字圖書館技術(shù)的提升。從近一段時間的發(fā)展來看,數(shù)字圖書館技術(shù)研究和應(yīng)用的主要著眼點有兩個:一是資源描述技術(shù);二是資源的互操作技術(shù)。前者主要從標(biāo)準(zhǔn)出發(fā),規(guī)范數(shù)字圖書館資源的格式,以便于管理和用戶使用。后者主要從用戶應(yīng)用出發(fā),實現(xiàn)具有異構(gòu)性的不同數(shù)字圖書館之間的共享。
數(shù)字圖書館系統(tǒng)是開放的數(shù)字信息系統(tǒng),其提供的資源與服務(wù)必須適應(yīng)多樣化、分布、甚至是動態(tài)的用戶需求?;ヂ?lián)網(wǎng)上為數(shù)眾多的數(shù)字圖書館信息建設(shè)模式的差異造成了今天數(shù)字圖書館之間信息和服務(wù)共享的困境。如何將這些已有的資源整合起來以滿足用戶的多樣性需求,是目前數(shù)字圖書館建設(shè)的一個重點。推倒并按統(tǒng)一的模式重來顯然是不現(xiàn)實也不經(jīng)濟(jì)的,因而互操作技術(shù)就成為了數(shù)字圖書館建設(shè)中的研究和發(fā)展焦點。而網(wǎng)格技術(shù)的出現(xiàn),也正好滿足了數(shù)字圖書館間的互操作要求。
?。ㄒ唬┗ゲ僮骷夹g(shù)
由于數(shù)字圖書館建設(shè)的主體不同,對數(shù)字圖書館的理解不同,并使用不同的標(biāo)準(zhǔn)、技術(shù)等,致使各個數(shù)字圖書館體系結(jié)構(gòu)不同,限制了數(shù)字圖書館的服務(wù)范圍。制約數(shù)字圖書館互操作的因素主要有兩類,一類是應(yīng)用層面的,如軟硬件系統(tǒng)互不支持;另一類是基礎(chǔ)層面的,主要是數(shù)字資源的組織和描述方面,如采用不同的元數(shù)據(jù)標(biāo)準(zhǔn)、不同的存儲格式等。
目前,主要有三種實現(xiàn)數(shù)字圖書館的互操作技術(shù):分布式搜索技術(shù)、基于中間件的互操作技術(shù)和基于協(xié)議的互操作技術(shù)。除此之外,針對目前數(shù)字圖書館建設(shè)中元數(shù)據(jù)格式眾多的局面,還專門提出了基于RDF框架的資源描述機(jī)制(這部分內(nèi)容將在標(biāo)準(zhǔn)中詳細(xì)闡述),為不同元數(shù)據(jù)之間的相互變通提供了可能性。
1、分布式搜索技術(shù)
該機(jī)制將用戶提交的查詢請求,轉(zhuǎn)換成每一個數(shù)字圖書館都可接收的形式,分別傳輸?shù)蕉鄠€數(shù)字圖書館站點執(zhí)行,并收集每個返回的結(jié)果,綜合整理后交給用戶。分布式搜索機(jī)制可以分為兩類:基于標(biāo)準(zhǔn)的方法和基于數(shù)據(jù)驅(qū)動的方法。
?。?)基于標(biāo)準(zhǔn)的方法
該方法也可稱為系統(tǒng)的方法,即所有參與互操作的數(shù)字圖書館構(gòu)成一個系統(tǒng),在系統(tǒng)內(nèi)部制定一系列的協(xié)議和規(guī)范,要求所有成員都遵守協(xié)議,并按照公共的規(guī)范提供服務(wù);要求所有組織都使用相同的平臺和軟件,并統(tǒng)一調(diào)度。網(wǎng)上計算機(jī)科學(xué)技術(shù)報告圖書館NCSTRL(Networked Computer Science Technical Reference Library)就是采用了這種方法。NCSTRL是一個擁有100多個機(jī)構(gòu)加盟的系統(tǒng)數(shù)字圖書館,它借助分布式搜索技術(shù)在系統(tǒng)內(nèi)的各個數(shù)字圖書館之間實現(xiàn)資源共享。
由于嚴(yán)格按照統(tǒng)一的標(biāo)準(zhǔn)來建立數(shù)字圖書館系統(tǒng)及館藏資源,因此該種方法能夠提供較好的、全面的互操作。但這種方法對成員圖書館的要求較高,所以難以形成大規(guī)模的系統(tǒng)。
?。?)基于數(shù)據(jù)驅(qū)動的方法
該方法對成員數(shù)字圖書館的要求比較低,既不需要變動已有的數(shù)字圖書館的結(jié)構(gòu),也不要求各成員遵從某種互操作協(xié)議,而是通過收集數(shù)字圖書館可公開訪問信息的途徑獲得最基本的互操作。這種方法通常提供統(tǒng)一的用戶界面,用戶輸入查詢請求,系統(tǒng)執(zhí)行分布式搜索,并將合并后的查詢結(jié)果返回給用戶。
該種方法的典型代表是Old Dominion大學(xué)在InterOp項目中提出的LFDL(Lightweight Federated Digital Libraries)結(jié)構(gòu)。該結(jié)構(gòu)中,統(tǒng)一的搜索界面被定義成基本的交互中間層,要求使用數(shù)字圖書館描述語言,以描述各個資源的特征、能力、交互信息,并將這些信息登記到注冊服務(wù)器中。當(dāng)用戶通過聯(lián)邦數(shù)字圖書館查詢時,聯(lián)邦圖書館根據(jù)注冊服務(wù)器中保存的信息,選擇出最適合的成員圖書館執(zhí)行用戶的查詢,并收集這些成員圖書館返回的結(jié)果,合并整理后提供給用戶。
基于數(shù)據(jù)驅(qū)動方法是在傳統(tǒng)的搜索服務(wù)之上提供一個抽象層,使其利用收集方法建立聯(lián)邦數(shù)字圖書館,對成員沒有任何要求,可操作性強。但正是由于其簡便的特點,使得其互操作性的精密度較差,難以滿足需要密切合作成員的要求。