內容提要:【目的/意義】溯源元數(shù)據(jù)是評估開放數(shù)據(jù)質量和可信度的基礎。將溯源元數(shù)據(jù)標準規(guī)范和溯源本體應用到我國政府開放數(shù)據(jù)的門戶網(wǎng)站,有望解決現(xiàn)階段存在的溯源語義不明晰和互操作水平低等問題?!痉椒?過程】總結國際上開放數(shù)據(jù)的溯源發(fā)展狀況和最佳實踐,提煉出W3C DCAT標準規(guī)范中的溯源元數(shù)據(jù);建立各省級地方政府元數(shù)據(jù)到標準詞匯表的映射,對數(shù)據(jù)發(fā)布活動的“歷史數(shù)據(jù)”和“多種數(shù)據(jù)格式”兩種典型情況進行溯源表達,給出機器可讀的PROV-JSON格式的溯源元數(shù)據(jù)記錄實例?!窘Y果/結論】研究表明,我國地方政府開放數(shù)據(jù)的元數(shù)據(jù)中含有豐富的溯源信息,但其總體質量還不高。引進DCAT/DC元數(shù)據(jù)和PROV本體,可以提升溯源記錄的規(guī)范程度和互操作水平,有利于溯源信息的大范圍應用。
引言
起始于2009年的全球開放政府數(shù)據(jù)運動發(fā)展迅速,正逐漸從原始數(shù)據(jù)的開放授權向提高數(shù)據(jù)質量、可用性和可信度等方向轉化。到2017年1月,開放政府合作組織(Open Government Partnership,OGP)的成員國已從2011年成立之初的8個發(fā)展到75個。其中,美國、英國、加拿大、巴西、意大利、挪威、希臘、羅馬尼亞、捷克、格魯吉亞、烏克蘭、亞美尼亞、愛沙尼亞、立陶宛、馬其頓、阿爾巴尼亞、保加利亞、南非、智利、巴拉圭、烏拉圭、約旦、印度尼西亞和菲律賓等24個國家陸續(xù)提交了“第三輪國家行動計劃”(Third National Action Plan,NAP)。美國在第三輪NAP(2015—2016)中承諾優(yōu)化開放數(shù)據(jù)生態(tài)系統(tǒng),進一步完善公共反饋工具和開發(fā)“國家開放數(shù)據(jù)指南”;英國在第一輪NAP(2011—2013)和第二輪NAP(2013—2015)的基礎上,2016-2018行動計劃將加大對開放數(shù)據(jù)“國家信息基礎設施”(National Information Infrastructure,NⅡ)的投入,及采取措施提高數(shù)據(jù)質量和可信度等;加拿大第三輪NAP(2016—2018)承諾政府數(shù)據(jù)“默認是開放的”,并持續(xù)提高開放數(shù)據(jù)的質量和可視化水平;南非第三輪NAP(2016—2017)將升級開放數(shù)據(jù)門戶網(wǎng)站,解決數(shù)據(jù)分散和標準不一致等問題。
可見,隨著開放數(shù)據(jù)的發(fā)展,深層次的問題和挑戰(zhàn)得到關注。領導開放數(shù)據(jù)的英國內閣辦公室下的“政府數(shù)字服務”(Government Digital Service,GDS)工作組總結了未來開放數(shù)據(jù)面臨的四個挑戰(zhàn):①完善開放政府許可OGL(Open Government Licence),使其有更廣泛的適應性,以改善開放數(shù)據(jù)的接受程度;②真正實現(xiàn)政府數(shù)據(jù)“默認是開放的”;③提高公眾對開放數(shù)據(jù)的信任程度;④將開放數(shù)據(jù)提升到“基礎設施”(如同公路、鐵路和電網(wǎng)等)的高度進行建設。為了評估數(shù)據(jù)質量和建立對數(shù)據(jù)的信任,就需要“溯源信息”。溯源元數(shù)據(jù)作為一類重要的元數(shù)據(jù),在開放數(shù)據(jù)中的作用和價值日益顯現(xiàn)。
目前,我國學者已經(jīng)開展基于溯源的群體協(xié)作信任模型、個人數(shù)據(jù)隱私安全管理和數(shù)字資源長期保存系統(tǒng)等領域的研究,但在開放數(shù)據(jù)領域還沒有較為深入的研究成果。本文首先歸納國際上開放數(shù)據(jù)的溯源發(fā)展概況,分析W3C DCAT標準規(guī)范中的溯源元數(shù)據(jù);然后以我國地方政府開放數(shù)據(jù)為背景,探討溯源元數(shù)據(jù)的應用方案,以解決現(xiàn)階段溯源語義表達不明晰和互操作水平低等問題。
1 開放政府數(shù)據(jù)的溯源發(fā)展概述
W3C溯源孵化組(Provenance Incubator Group)將一個資源的“溯源”定義為:一組信息,用以記錄資源的產(chǎn)生、交付等歷史過程,并描述其中涉及的實體,如采集者、發(fā)布機構等;溯源是對資源的真實性、可信度和可重復性進行評估的重要基礎。在開放數(shù)據(jù)領域,W3C Web數(shù)據(jù)最佳實踐(Data on the Web Best Practices,DWBP)工作組將“數(shù)據(jù)溯源”(data provenance)定義為:一組元數(shù)據(jù),幫助數(shù)據(jù)的提供者將數(shù)據(jù)的詳細歷史信息傳遞給用戶。
2010年2月,開放政府數(shù)據(jù)的起步期,參與英國數(shù)據(jù)門戶data.gov.uk建設,來自國家檔案館的John Sheridan就曾說過:“溯源是將數(shù)據(jù)發(fā)布到data.gov.uk要面對的關鍵問題之一”。此后,歐盟“開放數(shù)據(jù)監(jiān)測器”(Open Data Monitor,ODM)項目的成果驗證了這一觀點。
到2013年,開放政府數(shù)據(jù)無論深度和廣度都有了長足的發(fā)展。在世界最大的科技計劃之一的FP7(歐盟第七框架計劃)資助下,實施兩年(2013年11月—2015年11月)的ODM項目采用創(chuàng)新技術對歐洲30多個國家的173個數(shù)據(jù)門戶進行監(jiān)測、分析和評價,并將結果可視化展示在網(wǎng)站www.opendatamonitor.eu上。項目于2015年3月完成的《開放數(shù)據(jù)利益相關者需求報告》通過對商業(yè)用戶的調查發(fā)現(xiàn),影響用戶決策使用開放數(shù)據(jù)的因素有8個:數(shù)據(jù)的準確性、開放許可、訪問的便捷性、時效性、溯源、數(shù)據(jù)格式、說明文檔和技術支持。按照重要性排名,“溯源”處于時效性和開放許可之后位列第三位。項目對數(shù)據(jù)門戶的四個方面進行監(jiān)測,即數(shù)據(jù)集的開放許可、機器可讀性、可用性和元數(shù)據(jù)的完整性。元數(shù)據(jù)的完整性包含的元數(shù)據(jù)項有:開放許可、作者、機構、發(fā)布日期和更新日期,都是與溯源相關的信息:How(開放許可)、Who(作者和機構)和When(發(fā)布日期和更新日期)。
ODM的子項目,英國開放數(shù)據(jù)研究所(Open Data Institute,ODI)開發(fā)和維護的在線工具“開放數(shù)據(jù)證書”(certificates.theodi.org),則是通過收集每個數(shù)據(jù)集的DCAT(Data Catalog Vocabulary)元數(shù)據(jù)評價其質量和可信度,評價結果從低到高分為四類證書:銅牌、銀牌、金牌和白金證書。項目考察開放數(shù)據(jù)集的法律、技術、社會和實踐四個方面的23個指標,“機器可讀的溯源信息”是技術方面的6個指標之一,見表1。級別越高要求達到的指標越多,“溯源”是最高級別的“白金證書”所必需的。
2013年11月1日頒布的《G8開放數(shù)據(jù)憲章英國國家行動計劃》規(guī)定NⅡ中的開放數(shù)據(jù)集要經(jīng)歷“開放數(shù)據(jù)證書”的評估過程。美國和澳大利亞等國的開放數(shù)據(jù)門戶網(wǎng)站也采納了這項評估,用以向用戶推薦數(shù)據(jù)集。表2給出了來自三個國家的5個數(shù)據(jù)集的例子,它們均是銀牌證書,其中4個有機器可讀的溯源信息,1個沒有。
與ODI的工作類似,法國的開放質量標準項目Opquast推薦的“開放數(shù)據(jù)檢查表”中包含72個指標,其中兩個是溯源(Historique)相關的:①每個數(shù)據(jù)集都應有一個記錄變化的日志;②可以訪問不同版本的數(shù)據(jù)集。維也納大學的“開放數(shù)據(jù)網(wǎng)站監(jiān)測”(Open Data Portal Watch)項目對260個網(wǎng)站的元數(shù)據(jù)質量進行評價,其評價體系包含五個維度下的18個指標,涉及的溯源元數(shù)據(jù)有:dct:issued,dct:modifed,dct:publisher、dcat:contactPoint和dcat:accessURL等。
2013年12月11日,W3C發(fā)起了新的數(shù)據(jù)標準行動計劃(Data Activity),致力于將Web的數(shù)據(jù)互操作能力推向一個新的水平。目前,該標準計劃包括六個工作組,Web數(shù)據(jù)最佳實踐(DWBP)工作組是最早成立的工作組之一,其任務是:①開發(fā)開放數(shù)據(jù)生態(tài)系統(tǒng),在開發(fā)者和數(shù)據(jù)發(fā)布者之間建立更好的交流溝通平臺;②為數(shù)據(jù)發(fā)布者提供指南,指導他們提升數(shù)據(jù)管理過程中的一致性,以提升數(shù)據(jù)的可重用性;③采用各種技術建立開發(fā)者對數(shù)據(jù)的信任度,提升數(shù)據(jù)應用創(chuàng)新的巨大空間。
2016年8月30日,DWBP工作組的主要成果——在Web中發(fā)布數(shù)據(jù)的最佳實踐,成為W3C的候選標準[15]。工作組為開放數(shù)據(jù)推薦了35個最佳實踐(Best Practice,BP),其中19個有助于提升數(shù)據(jù)的可信度,而與溯源相關的最佳實踐有8個,見表3。
溯源記錄是元數(shù)據(jù)的子集。DWBP工作組建議采用標準化的共享詞匯表(即本體)表達數(shù)據(jù)和元數(shù)據(jù)(Best Practice 15:Reuse vocabularies,preferably standardized ones),以避免含義的模糊性并提高發(fā)布者和消費者之間的互操作性和一致性。
2 開放數(shù)據(jù)的溯源元數(shù)據(jù)
2014年1月16日,W3C政府關聯(lián)數(shù)據(jù)工作組(Government Linked Data Working Group)發(fā)布正式推薦標準DCAT(Data Catalog Vocabulary)。因其支持數(shù)據(jù)目錄之間的互操作性而成為各國政府普遍采用的開放數(shù)據(jù)元數(shù)據(jù)標準規(guī)范,如美國、英國、澳大利亞、愛爾蘭和歐盟等。DCAT詞匯表定義了7個類和17個屬性,并復用了都柏林核心詞匯表(Dublin Core Vocabulary)、FOAF本體和SKOS本體。同都伯林元數(shù)據(jù)一樣,DCAT是通用意義下的元數(shù)據(jù),雖然包含了溯源相關的數(shù)據(jù)項,但沒有明晰的溯源語義定義。
歐盟于2015年10月頒布的開放數(shù)據(jù)元數(shù)據(jù)方案DCAT-AP vl.1(DCAT Application Profile,DCAT應用綱要)建議DCAT與W3C PROV本體(PROV-O)相結合表達開放數(shù)據(jù)的溯源信息,以實現(xiàn)系統(tǒng)間溯源信息的交換和互操作。
PROV-O是W3C溯源工作組(Provenance Working Group)在溯源數(shù)據(jù)模型(PROV Data Model,PROV-DM)基礎上開發(fā)的OWL本體,已于2013年4月30日成為正式推薦標準。這是Web溯源的關鍵性里程碑事件,使得溯源信息的大范圍發(fā)布和交換成為可能。PROV-O定義了50個類和83個屬性,已廣泛應用到Web應用和服務、開放數(shù)據(jù)等領域,如OECE關聯(lián)開放數(shù)據(jù)(http://oecd.270a.info/.html)和英國南安普頓大學開放數(shù)據(jù)(http://data.southampton.ac.uk/)等。
下面結合PROV-O,分析DCAT所包含的溯源元數(shù)據(jù)及其語義。
2.1 描述對象 根據(jù)DCAT概念模型,一個數(shù)據(jù)目錄門戶網(wǎng)站的結構如圖1所示,其中的三個實體分別對應類dcat:Catalog,dcat:Dataset和dcat:Distribution(前綴dcat代表命名空間http://www.w3.org/ns/dcat#)。這三個實體都是溯源元數(shù)據(jù)的描述對象,因此都是實體類(prov:Entity)的子類(前綴prov代表命名空間http://www.w3.org/ns/prov#),其語義關系見表4。
圖1 數(shù)據(jù)目錄門戶網(wǎng)站的結構——數(shù)據(jù)目錄、數(shù)據(jù)集和數(shù)據(jù)資源
結合我國地方政府開放數(shù)據(jù)門戶網(wǎng)站的實際情況,考慮到適當?shù)摹八菰戳6取保疚闹攸c關注“數(shù)據(jù)集”和“數(shù)據(jù)資源”這兩個溯源對象。
2.2 描述數(shù)據(jù)集的溯源元數(shù)據(jù) 在DCAT中,描述dcat:Dataset類的元數(shù)據(jù)項有15個,其中10個元素來自都柏林核心詞匯表。這些元素可分為三類:9個描述型元數(shù)據(jù)(dct:title,dct:description,dct:language,dct:accrualPeriodicity,dct:identifier,dct:spatial,dct:temporal,dcat:theme,dcat:keyword),1個結構型元數(shù)據(jù)(dcat:distribution)和5個溯源元數(shù)據(jù),見表5。表5的第一列是溯源類別,第二列是DCAT元素,第四列是PROV-O詞匯,第三列是兩者的語義關系。
2.3 描述數(shù)據(jù)資源的元數(shù)據(jù) 描述dcat:Distribution類的元數(shù)據(jù)項有11個,其中7個元素來自都柏林核心詞匯表。這些元素可分為兩類:5個描述型元數(shù)據(jù)(dct:title,dct:description,dct:format,dcat:byteSize,dcat:mediaType)和6個溯源元數(shù)據(jù),見表6。
綜合表5和表6,DCAT中的溯源信息涵蓋四個方面:When、Who、Where和How。同DC中的溯源信息相比[8],多了Where方面的三個元數(shù)據(jù)項,滿足了開放數(shù)據(jù)“到哪里找到數(shù)據(jù)”的需求。
3 在我國地方政府開放數(shù)據(jù)中的應用
開放數(shù)據(jù)是我國各級政府大數(shù)據(jù)戰(zhàn)略的基本內容。2015年9月5日,國務院印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》(國發(fā)[2015]50號),提出未來5~10年我國大數(shù)據(jù)發(fā)展和應用的目標,包括2018年底前建成國家政府數(shù)據(jù)統(tǒng)一開放平臺[31]。2016年,北京、上海、廣東、江蘇、福建、浙江、山東和江西等省級政府相繼出臺政策文件貫徹落實國家的行動綱要。“建設政府數(shù)據(jù)開放平臺,建立標準規(guī)范體系(如分類目錄、訪問接口、數(shù)據(jù)質量、安全保密等)”等內容是開放政府數(shù)據(jù)建設的重點,而保障數(shù)據(jù)質量、可追溯和安全性等更是關注的焦點。例如,于2016年6月18日發(fā)布的《福建省促進大數(shù)據(jù)發(fā)展實施方案(2016~2020年)》的主要任務之一就是:“建設全省統(tǒng)一的政府數(shù)據(jù)開放平臺,向公眾提供數(shù)據(jù)產(chǎn)品查詢、數(shù)據(jù)下載、應用接口等服務。實施應用身份統(tǒng)一認證,實現(xiàn)開放數(shù)據(jù)可追溯。利用統(tǒng)一開放平臺匯聚和發(fā)布政府數(shù)據(jù),保障數(shù)據(jù)權威性和安全性……”
目前,我國已建有十幾個地方政府開放數(shù)據(jù)的門戶網(wǎng)站,均通過元數(shù)據(jù)對資源進行描述。但各地的元數(shù)據(jù)數(shù)量、類型都不盡相同,普遍缺乏規(guī)范的元數(shù)據(jù)標準體系,造成用戶難以了解數(shù)據(jù)的各項信息,包括溯源信息。
3.1 現(xiàn)有的溯源元數(shù)據(jù) 首先,通過對代表性的5個省級網(wǎng)站(見表7)的調研,依據(jù)DCAT和DC元數(shù)據(jù)標準規(guī)范,提煉和總結出現(xiàn)有的溯源元數(shù)據(jù),見表8。其他元數(shù)據(jù)項主要是描述型的,如資源名稱、摘要、分類、關鍵字、文件名和文件大小等,未列在表8中。
需要指出的是,在元數(shù)據(jù)的使用上各地(重慶除外)并沒有明顯區(qū)分“數(shù)據(jù)集”和“數(shù)據(jù)資源”。通過分析,我們將表8中的前7個元數(shù)據(jù)歸為描述“數(shù)據(jù)集”(dcat:Dataset)、而后6個元數(shù)據(jù)是描述“數(shù)據(jù)資源”(dcat:Distribution)的。
從表8可見我國地方政府在開放數(shù)據(jù)的溯源元數(shù)據(jù)上呈現(xiàn)如下特點或不足:①各種溯源信息是元數(shù)據(jù)的核心內容,這與國際趨勢是一致的;②除重慶外,普遍缺失“開放許可”(dct:license)元數(shù)據(jù),這與我國這方面的法律缺失有關;③元數(shù)據(jù)的標準化、規(guī)范化程度不高,與DCAT規(guī)范和先進水平(如美國、英國、歐盟等)差距較大;④各地的元數(shù)據(jù)在名稱、數(shù)量、取值類型上差異很大,互操作水平低,不利于各方數(shù)據(jù)門戶聚合到統(tǒng)一平臺,也不利于應用程序跨平臺讀取溯源信息;⑤沒有采用溯源本體,語義表達不夠清晰和完善。
通過采用DCAT和DC元數(shù)據(jù)標準及PROV-O詞匯表,可以克服上述③、④和⑤等不足。下面以數(shù)據(jù)發(fā)布活動中的兩種典型情形為例,給出具體的方案。
3.2 歷史數(shù)據(jù)的溯源表達 北京和佛山市南海區(qū)(data.nanhai.gov.cn)提供了“歷史數(shù)據(jù)”元數(shù)據(jù),重慶通過“活動流”記錄數(shù)據(jù)集的更新情況,這些做法都符合W3C的與溯源相關的最佳實踐BP8(見表3)。而為了顯式和規(guī)范表達“當前數(shù)據(jù)”與“歷史數(shù)據(jù)”之間的溯源關系,則要引進DC詞匯dct:isVersionOf和PROV-O屬性prov:wasRevisionOf,后者有著更加明晰的溯源語義。
例如,北京市“公益性圖書館”數(shù)據(jù)集(見表4)的最新發(fā)布日期是2015-12-25,歷史數(shù)據(jù)的發(fā)布日期是2013-12-19,它們之間的溯源關系可以通過下面的Turtle記錄表達。
@prefix:<http://www.example.org/>.
@prefix prov:<http://www.w3.org/ns/prov#>.
@prefixpav:<http://purl.org/pav/>.
@prefixdcat:<http://www.w3.org/ns/dcat#>.
@prefixdct:<http://purl.org/dc/terms/>.
@prefix owl:<http://www.w3.org/2002/07/owl#>.
@prefix xsd:<http://www.w3.org/2001/XMLSchema#>.
:library-2015-12-25 a dcat:Dataset; a prov:Entity;
dct:title"公益性圖書館";
dcat:landingPage
?。糷ttp://www.bjdata.gov.cn/zyml/azt/wtyy/whcs/whgz/3077.htm>:
dct:issued "2015-12-25"^^xsd:dateTime;
prov:generatedAtTime"2015-12-25"^^xsd:dateTime;
owl:versionInfo"2.0"; pav:version"2.0";
dct:isVersionOf:library-2013-12-19;
prov:wasRevisionOf:library-2013-12-19.
:library-2013-12-19 a dcat:Dataset; a prov:Entity;
dct:title"公益性圖書館";dct:issued "2013-12-19"^^xsd:dateTime;
prov:generatedAtTime"2013-12-19"^^xsd:dateTime;
owl:versionInfo"1.0"; pav:version"1.0";
dct:hasVersion:library-2015-12-25;
prov:hadRevision:library-2015-12-25.
其中,pav代表另一個輕量級的溯源本體(http://pav-ontology.github.io/pav/); dct:hasVersion是dct:isVersionOf的逆屬性,prov:hadRevision是prov:wasRevisionOf的逆屬性。
在這段元數(shù)據(jù)記錄中,兩個版本的“公益性圖書館”數(shù)據(jù)集都是PROV-O類prov:Entity的實例(參見表4),它們的產(chǎn)生時間(prov:generatedAtTime)和演化情況(prov:wasRevisionOf)得到了描述。
3.3 多種數(shù)據(jù)格式的溯源表達 為了滿足不同用戶的需求和降低使用成本,W3C最佳實踐BP14(見表3)推薦以多種格式發(fā)布同一數(shù)據(jù)資源,而且至少一種是機器可讀的格式。重慶為一個數(shù)據(jù)資源提供了兩種格式的文件:CSV和XLS,廣州市(datagz.gov.cn)有四種格式:XML、JSON、CSV和XLS,佛山市南海區(qū)提供了五種格式:XML、JSON、CSV、XLS和TXT。
不同于上小節(jié)的歷史版本的變化意味著實質性內容的改變,不同格式的數(shù)據(jù)內容應是一致的。為表達不同格式的文件間的溯源關系,應引進dct:isFormatOf(或逆屬性dct:hasFormat),prov:wasDerivedFrom(或逆屬性prov:hadDerivation)和prov:alternateOf。
例如,“2010—2014年重慶市公共圖書館相關信息”數(shù)據(jù)集(http://cqckan.chinacloudapp.cn/dataset/201602231353)提供了兩種格式的數(shù)據(jù)文件,它們之間的溯源關系由下面的元數(shù)據(jù)記錄表達。
:library-2016-02-24.csv a dcat:Distribution;a prov:Entity;
dcat:downloadURL<http://cqckan.chinacloudapp.cn/zh_CN/dataset/
992bf4f0-809d-4a35-822b-90748aaf9bb3/resource/
c9068e2d-2928-403c-b36a-t9a1d2b5a692/download/2010-2014.csv>:
dct:title"2010—2014年重慶市公共圖書館相關信息",
dcat:mediaType"text/csv; charset=GB2312";
dct:isFormatOf:library-2016-02-24.xlsx;
prov:wasDerivedFrom:library-2016-02-24.xlsx;
prov:alternateOf:library-2016-02-24.xlsx.
:library-2016-02-24.xlsx a dcat:Distribution;a prov:Entity;
dcat:downloadURL <http://cqckan.chinacloudapp.cn/zh_CN/dataset/
992bf4f0-809d-4a35-822b-90748aaf9bb3/resource/
ce6525f1-6bb2-4076-951f-f80fde5896f2/download/2010-2014.xlsx>:
dct:title"2010—2014年重慶市公共圖書館相關信息";
dcat:mediaType "application/vnd.ms-excel";
dct:hasFormat:library-2016-02-24.csv;
當用戶的應用程序讀取并解析這段代碼后,就可以依據(jù)溯源記錄從當前格式的文件導航到其他格式的文件,實現(xiàn)客戶端驅動的“內容協(xié)商”。
4 基于JSON的溯源元數(shù)據(jù)實例
W3C DWBP工作組推薦以機器可讀的、標準化的格式編碼溯源記錄(BP12),如CSV、XML、HDF5、JSON、RDF/XML、JSON-LD和Turtle等格式。合適的元數(shù)據(jù)格式是實現(xiàn)元數(shù)據(jù)“記錄級”互操作的基礎,是對DCAT和PROV-O建立起的“模式級”互操作的補充。目前,JSON是DCAT和PROV-O均采納的一種編碼方式[36,37],也是美國、英國等普遍采用的元數(shù)據(jù)文件格式。
我國各地的元數(shù)據(jù)格式還是面向人的閱讀的HTML網(wǎng)頁或TXT文本,不是機器可讀的,要比描述的數(shù)據(jù)本身的開放程度(即機器可讀)低一個等級。而DWBP工作組總結的各國最佳實踐是將“元數(shù)據(jù)”和描述的“數(shù)據(jù)”視為同等重要,應采用一樣的開放標準和格式。
下面以PROV-JSON格式給出“2010—2014年重慶市公共圖書館相關信息”數(shù)據(jù)集(參見3.3節(jié))的較為完整的元數(shù)據(jù)記錄。
?。?quot;prefix":{"ex":"http://cqckan.chinacloudapp.cn/dataset/",
"dct":"http://purl.org/dc/terms/",
"dcat":"http://www.w3.org/ns/dcat#"},
"entity":{
"ex:201602231353":{
"prov:type":"dcat:Dataset",
"dct:identifier":"201602231353",
"dct:title":"2010—2014年重慶市公共圖書館相關信息",
"dcat:landingPage":“http://cqckan.chinacloudapp.cn/dataset/201602231353”,
"dct:issued":"2016-02-23","dct:modified":"2016-02-23",
"dcat:keyword":["教育","文化"],
"dcat:distribution":
["ex:201602231353/resource/c9068e2d-2928-403c-b36a-f9a1d2b5a692",
"ex:201602231353/resource/ce6525f1-6bb2-4076-951f-f80fde5896f2"]},
"ex:201602231353/resource/c9068e2d-2928-403c-b36af9a1d2b5a692":{
"prov:type":"dcat:Distribution",
"dct:title":"2010-2014.csv","dct:forrnat":"text/csv",
"dcat:downloadURL":"http://cqckan.chinacloudapp.cn/……/2010-2014.csv",
"dct:license":"http://opendefinition.org/licenses/cc-by/",
"prov:alternateOf":
"ex:201602231353/resource/ce6525f1-6bb2-4076-951f-f80fde5896f2",
"prov:wasDerivedFrom":
"ex:201602231353/resource/ce6525f1-6bb2-4076-951f-f80fde5896f2"},
"ex:201602231353/resource/ce6525f1-6bb2-4076-951f-f80fde5896f2":{
"prov:type":"dcat:Distribution",
"dct:title":"2010-2014.xlsx","dct:format":"application/vnd.ms-excel",
"dcat:downloadURL":"http://cqckan.chinacloudapp.cn/……/2010-2014.xlsx",
"dct:license":"http://opendefinition.org/licenses/cc-by/",
"prov:hadDerivation":
"ex:201602231353/resource/c9068e2d-2928-403c-b36a-f9a1d2b5a692"}
其中前綴prov默認指向命名空間http://www.w3.org/ns/prov#。
這段代碼中共有三個溯源實體(entity,即prov:Entity):數(shù)據(jù)集(ex:201602231353)和它所包含的兩個數(shù)據(jù)文件,元數(shù)據(jù)值全部來自實際值。
5 結論
開放政府數(shù)據(jù)被社會各界關注、接納和利用的前提之一是有效解決“信任”問題,這離不開具有互操作性的高質量的溯源元數(shù)據(jù)的支持。國際上開放數(shù)據(jù)實踐的發(fā)展趨勢是“溯源信息”已經(jīng)同被描述的數(shù)據(jù)本身一樣重要。
本文的分析表明,我國地方政府開放數(shù)據(jù)實際采用的元數(shù)據(jù)中含有較為豐富的溯源信息,但其總體質量還不高,主要表現(xiàn)在:①沒有采用標準詞匯表(即本體),溯源語義表達不明晰;②缺乏通用的元數(shù)據(jù)標準,互操作水平較低;③溯源記錄不是機器可讀的,不利于應用程序自動讀取。為此,本文引進W3C DCAT元數(shù)據(jù)和PROV本體,在建立各地方政府元數(shù)據(jù)到標準詞匯表映射的基礎上,對數(shù)據(jù)發(fā)布環(huán)節(jié)實際存在的“歷史數(shù)據(jù)”和“多種數(shù)據(jù)格式”兩種典型情況進行了溯源表達,并給出了JSON格式的溯源記錄實例。
這些工作為解決現(xiàn)有問題給出了初步的方案。下一步的工作是開發(fā)開放數(shù)據(jù)全生命周期的“溯源元數(shù)據(jù)”模型和規(guī)范,建立較為完備的溯源管理體系。