內(nèi)容提要:【目的/意義】溯源元數(shù)據(jù)是評(píng)估開(kāi)放數(shù)據(jù)質(zhì)量和可信度的基礎(chǔ)。將溯源元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范和溯源本體應(yīng)用到我國(guó)政府開(kāi)放數(shù)據(jù)的門(mén)戶網(wǎng)站,有望解決現(xiàn)階段存在的溯源語(yǔ)義不明晰和互操作水平低等問(wèn)題。【方法/過(guò)程】總結(jié)國(guó)際上開(kāi)放數(shù)據(jù)的溯源發(fā)展?fàn)顩r和最佳實(shí)踐,提煉出W3C DCAT標(biāo)準(zhǔn)規(guī)范中的溯源元數(shù)據(jù);建立各省級(jí)地方政府元數(shù)據(jù)到標(biāo)準(zhǔn)詞匯表的映射,對(duì)數(shù)據(jù)發(fā)布活動(dòng)的“歷史數(shù)據(jù)”和“多種數(shù)據(jù)格式”兩種典型情況進(jìn)行溯源表達(dá),給出機(jī)器可讀的PROV-JSON格式的溯源元數(shù)據(jù)記錄實(shí)例?!窘Y(jié)果/結(jié)論】研究表明,我國(guó)地方政府開(kāi)放數(shù)據(jù)的元數(shù)據(jù)中含有豐富的溯源信息,但其總體質(zhì)量還不高。引進(jìn)DCAT/DC元數(shù)據(jù)和PROV本體,可以提升溯源記錄的規(guī)范程度和互操作水平,有利于溯源信息的大范圍應(yīng)用。

  引言

  起始于2009年的全球開(kāi)放政府?dāng)?shù)據(jù)運(yùn)動(dòng)發(fā)展迅速,正逐漸從原始數(shù)據(jù)的開(kāi)放授權(quán)向提高數(shù)據(jù)質(zhì)量、可用性和可信度等方向轉(zhuǎn)化。到2017年1月,開(kāi)放政府合作組織(Open Government Partnership,OGP)的成員國(guó)已從2011年成立之初的8個(gè)發(fā)展到75個(gè)。其中,美國(guó)、英國(guó)、加拿大、巴西、意大利、挪威、希臘、羅馬尼亞、捷克、格魯吉亞、烏克蘭、亞美尼亞、愛(ài)沙尼亞、立陶宛、馬其頓、阿爾巴尼亞、保加利亞、南非、智利、巴拉圭、烏拉圭、約旦、印度尼西亞和菲律賓等24個(gè)國(guó)家陸續(xù)提交了“第三輪國(guó)家行動(dòng)計(jì)劃”(Third National Action Plan,NAP)。美國(guó)在第三輪NAP(2015—2016)中承諾優(yōu)化開(kāi)放數(shù)據(jù)生態(tài)系統(tǒng),進(jìn)一步完善公共反饋工具和開(kāi)發(fā)“國(guó)家開(kāi)放數(shù)據(jù)指南”;英國(guó)在第一輪NAP(2011—2013)和第二輪NAP(2013—2015)的基礎(chǔ)上,2016-2018行動(dòng)計(jì)劃將加大對(duì)開(kāi)放數(shù)據(jù)“國(guó)家信息基礎(chǔ)設(shè)施”(National Information Infrastructure,NⅡ)的投入,及采取措施提高數(shù)據(jù)質(zhì)量和可信度等;加拿大第三輪NAP(2016—2018)承諾政府?dāng)?shù)據(jù)“默認(rèn)是開(kāi)放的”,并持續(xù)提高開(kāi)放數(shù)據(jù)的質(zhì)量和可視化水平;南非第三輪NAP(2016—2017)將升級(jí)開(kāi)放數(shù)據(jù)門(mén)戶網(wǎng)站,解決數(shù)據(jù)分散和標(biāo)準(zhǔn)不一致等問(wèn)題。

  可見(jiàn),隨著開(kāi)放數(shù)據(jù)的發(fā)展,深層次的問(wèn)題和挑戰(zhàn)得到關(guān)注。領(lǐng)導(dǎo)開(kāi)放數(shù)據(jù)的英國(guó)內(nèi)閣辦公室下的“政府?dāng)?shù)字服務(wù)”(Government Digital Service,GDS)工作組總結(jié)了未來(lái)開(kāi)放數(shù)據(jù)面臨的四個(gè)挑戰(zhàn):①完善開(kāi)放政府許可OGL(Open Government Licence),使其有更廣泛的適應(yīng)性,以改善開(kāi)放數(shù)據(jù)的接受程度;②真正實(shí)現(xiàn)政府?dāng)?shù)據(jù)“默認(rèn)是開(kāi)放的”;③提高公眾對(duì)開(kāi)放數(shù)據(jù)的信任程度;④將開(kāi)放數(shù)據(jù)提升到“基礎(chǔ)設(shè)施”(如同公路、鐵路和電網(wǎng)等)的高度進(jìn)行建設(shè)。為了評(píng)估數(shù)據(jù)質(zhì)量和建立對(duì)數(shù)據(jù)的信任,就需要“溯源信息”。溯源元數(shù)據(jù)作為一類(lèi)重要的元數(shù)據(jù),在開(kāi)放數(shù)據(jù)中的作用和價(jià)值日益顯現(xiàn)。

  目前,我國(guó)學(xué)者已經(jīng)開(kāi)展基于溯源的群體協(xié)作信任模型、個(gè)人數(shù)據(jù)隱私安全管理和數(shù)字資源長(zhǎng)期保存系統(tǒng)等領(lǐng)域的研究,但在開(kāi)放數(shù)據(jù)領(lǐng)域還沒(méi)有較為深入的研究成果。本文首先歸納國(guó)際上開(kāi)放數(shù)據(jù)的溯源發(fā)展概況,分析W3C DCAT標(biāo)準(zhǔn)規(guī)范中的溯源元數(shù)據(jù);然后以我國(guó)地方政府開(kāi)放數(shù)據(jù)為背景,探討溯源元數(shù)據(jù)的應(yīng)用方案,以解決現(xiàn)階段溯源語(yǔ)義表達(dá)不明晰和互操作水平低等問(wèn)題。

  1 開(kāi)放政府?dāng)?shù)據(jù)的溯源發(fā)展概述

  W3C溯源孵化組(Provenance Incubator Group)將一個(gè)資源的“溯源”定義為:一組信息,用以記錄資源的產(chǎn)生、交付等歷史過(guò)程,并描述其中涉及的實(shí)體,如采集者、發(fā)布機(jī)構(gòu)等;溯源是對(duì)資源的真實(shí)性、可信度和可重復(fù)性進(jìn)行評(píng)估的重要基礎(chǔ)。在開(kāi)放數(shù)據(jù)領(lǐng)域,W3C Web數(shù)據(jù)最佳實(shí)踐(Data on the Web Best Practices,DWBP)工作組將“數(shù)據(jù)溯源”(data provenance)定義為:一組元數(shù)據(jù),幫助數(shù)據(jù)的提供者將數(shù)據(jù)的詳細(xì)歷史信息傳遞給用戶。

  2010年2月,開(kāi)放政府?dāng)?shù)據(jù)的起步期,參與英國(guó)數(shù)據(jù)門(mén)戶data.gov.uk建設(shè),來(lái)自國(guó)家檔案館的John Sheridan就曾說(shuō)過(guò):“溯源是將數(shù)據(jù)發(fā)布到data.gov.uk要面對(duì)的關(guān)鍵問(wèn)題之一”。此后,歐盟“開(kāi)放數(shù)據(jù)監(jiān)測(cè)器”(Open Data Monitor,ODM)項(xiàng)目的成果驗(yàn)證了這一觀點(diǎn)。

  到2013年,開(kāi)放政府?dāng)?shù)據(jù)無(wú)論深度和廣度都有了長(zhǎng)足的發(fā)展。在世界最大的科技計(jì)劃之一的FP7(歐盟第七框架計(jì)劃)資助下,實(shí)施兩年(2013年11月—2015年11月)的ODM項(xiàng)目采用創(chuàng)新技術(shù)對(duì)歐洲30多個(gè)國(guó)家的173個(gè)數(shù)據(jù)門(mén)戶進(jìn)行監(jiān)測(cè)、分析和評(píng)價(jià),并將結(jié)果可視化展示在網(wǎng)站www.opendatamonitor.eu上。項(xiàng)目于2015年3月完成的《開(kāi)放數(shù)據(jù)利益相關(guān)者需求報(bào)告》通過(guò)對(duì)商業(yè)用戶的調(diào)查發(fā)現(xiàn),影響用戶決策使用開(kāi)放數(shù)據(jù)的因素有8個(gè):數(shù)據(jù)的準(zhǔn)確性、開(kāi)放許可、訪問(wèn)的便捷性、時(shí)效性、溯源、數(shù)據(jù)格式、說(shuō)明文檔和技術(shù)支持。按照重要性排名,“溯源”處于時(shí)效性和開(kāi)放許可之后位列第三位。項(xiàng)目對(duì)數(shù)據(jù)門(mén)戶的四個(gè)方面進(jìn)行監(jiān)測(cè),即數(shù)據(jù)集的開(kāi)放許可、機(jī)器可讀性、可用性和元數(shù)據(jù)的完整性。元數(shù)據(jù)的完整性包含的元數(shù)據(jù)項(xiàng)有:開(kāi)放許可、作者、機(jī)構(gòu)、發(fā)布日期和更新日期,都是與溯源相關(guān)的信息:How(開(kāi)放許可)、Who(作者和機(jī)構(gòu))和When(發(fā)布日期和更新日期)。

  ODM的子項(xiàng)目,英國(guó)開(kāi)放數(shù)據(jù)研究所(Open Data Institute,ODI)開(kāi)發(fā)和維護(hù)的在線工具“開(kāi)放數(shù)據(jù)證書(shū)”(certificates.theodi.org),則是通過(guò)收集每個(gè)數(shù)據(jù)集的DCAT(Data Catalog Vocabulary)元數(shù)據(jù)評(píng)價(jià)其質(zhì)量和可信度,評(píng)價(jià)結(jié)果從低到高分為四類(lèi)證書(shū):銅牌、銀牌、金牌和白金證書(shū)。項(xiàng)目考察開(kāi)放數(shù)據(jù)集的法律、技術(shù)、社會(huì)和實(shí)踐四個(gè)方面的23個(gè)指標(biāo),“機(jī)器可讀的溯源信息”是技術(shù)方面的6個(gè)指標(biāo)之一,見(jiàn)表1。級(jí)別越高要求達(dá)到的指標(biāo)越多,“溯源”是最高級(jí)別的“白金證書(shū)”所必需的。

  2013年11月1日頒布的《G8開(kāi)放數(shù)據(jù)憲章英國(guó)國(guó)家行動(dòng)計(jì)劃》規(guī)定NⅡ中的開(kāi)放數(shù)據(jù)集要經(jīng)歷“開(kāi)放數(shù)據(jù)證書(shū)”的評(píng)估過(guò)程。美國(guó)和澳大利亞等國(guó)的開(kāi)放數(shù)據(jù)門(mén)戶網(wǎng)站也采納了這項(xiàng)評(píng)估,用以向用戶推薦數(shù)據(jù)集。表2給出了來(lái)自三個(gè)國(guó)家的5個(gè)數(shù)據(jù)集的例子,它們均是銀牌證書(shū),其中4個(gè)有機(jī)器可讀的溯源信息,1個(gè)沒(méi)有。

  與ODI的工作類(lèi)似,法國(guó)的開(kāi)放質(zhì)量標(biāo)準(zhǔn)項(xiàng)目Opquast推薦的“開(kāi)放數(shù)據(jù)檢查表”中包含72個(gè)指標(biāo),其中兩個(gè)是溯源(Historique)相關(guān)的:①每個(gè)數(shù)據(jù)集都應(yīng)有一個(gè)記錄變化的日志;②可以訪問(wèn)不同版本的數(shù)據(jù)集。維也納大學(xué)的“開(kāi)放數(shù)據(jù)網(wǎng)站監(jiān)測(cè)”(Open Data Portal Watch)項(xiàng)目對(duì)260個(gè)網(wǎng)站的元數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),其評(píng)價(jià)體系包含五個(gè)維度下的18個(gè)指標(biāo),涉及的溯源元數(shù)據(jù)有:dct:issued,dct:modifed,dct:publisher、dcat:contactPoint和dcat:accessURL等。

  2013年12月11日,W3C發(fā)起了新的數(shù)據(jù)標(biāo)準(zhǔn)行動(dòng)計(jì)劃(Data Activity),致力于將Web的數(shù)據(jù)互操作能力推向一個(gè)新的水平。目前,該標(biāo)準(zhǔn)計(jì)劃包括六個(gè)工作組,Web數(shù)據(jù)最佳實(shí)踐(DWBP)工作組是最早成立的工作組之一,其任務(wù)是:①開(kāi)發(fā)開(kāi)放數(shù)據(jù)生態(tài)系統(tǒng),在開(kāi)發(fā)者和數(shù)據(jù)發(fā)布者之間建立更好的交流溝通平臺(tái);②為數(shù)據(jù)發(fā)布者提供指南,指導(dǎo)他們提升數(shù)據(jù)管理過(guò)程中的一致性,以提升數(shù)據(jù)的可重用性;③采用各種技術(shù)建立開(kāi)發(fā)者對(duì)數(shù)據(jù)的信任度,提升數(shù)據(jù)應(yīng)用創(chuàng)新的巨大空間。

  2016年8月30日,DWBP工作組的主要成果——在Web中發(fā)布數(shù)據(jù)的最佳實(shí)踐,成為W3C的候選標(biāo)準(zhǔn)[15]。工作組為開(kāi)放數(shù)據(jù)推薦了35個(gè)最佳實(shí)踐(Best Practice,BP),其中19個(gè)有助于提升數(shù)據(jù)的可信度,而與溯源相關(guān)的最佳實(shí)踐有8個(gè),見(jiàn)表3。

  溯源記錄是元數(shù)據(jù)的子集。DWBP工作組建議采用標(biāo)準(zhǔn)化的共享詞匯表(即本體)表達(dá)數(shù)據(jù)和元數(shù)據(jù)(Best Practice 15:Reuse vocabularies,preferably standardized ones),以避免含義的模糊性并提高發(fā)布者和消費(fèi)者之間的互操作性和一致性。

  2 開(kāi)放數(shù)據(jù)的溯源元數(shù)據(jù)

  2014年1月16日,W3C政府關(guān)聯(lián)數(shù)據(jù)工作組(Government Linked Data Working Group)發(fā)布正式推薦標(biāo)準(zhǔn)DCAT(Data Catalog Vocabulary)。因其支持?jǐn)?shù)據(jù)目錄之間的互操作性而成為各國(guó)政府普遍采用的開(kāi)放數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,如美國(guó)、英國(guó)、澳大利亞、愛(ài)爾蘭和歐盟等。DCAT詞匯表定義了7個(gè)類(lèi)和17個(gè)屬性,并復(fù)用了都柏林核心詞匯表(Dublin Core Vocabulary)、FOAF本體和SKOS本體。同都伯林元數(shù)據(jù)一樣,DCAT是通用意義下的元數(shù)據(jù),雖然包含了溯源相關(guān)的數(shù)據(jù)項(xiàng),但沒(méi)有明晰的溯源語(yǔ)義定義。

  歐盟于2015年10月頒布的開(kāi)放數(shù)據(jù)元數(shù)據(jù)方案DCAT-AP vl.1(DCAT Application Profile,DCAT應(yīng)用綱要)建議DCAT與W3C PROV本體(PROV-O)相結(jié)合表達(dá)開(kāi)放數(shù)據(jù)的溯源信息,以實(shí)現(xiàn)系統(tǒng)間溯源信息的交換和互操作。

  PROV-O是W3C溯源工作組(Provenance Working Group)在溯源數(shù)據(jù)模型(PROV Data Model,PROV-DM)基礎(chǔ)上開(kāi)發(fā)的OWL本體,已于2013年4月30日成為正式推薦標(biāo)準(zhǔn)。這是Web溯源的關(guān)鍵性里程碑事件,使得溯源信息的大范圍發(fā)布和交換成為可能。PROV-O定義了50個(gè)類(lèi)和83個(gè)屬性,已廣泛應(yīng)用到Web應(yīng)用和服務(wù)、開(kāi)放數(shù)據(jù)等領(lǐng)域,如OECE關(guān)聯(lián)開(kāi)放數(shù)據(jù)(http://oecd.270a.info/.html)和英國(guó)南安普頓大學(xué)開(kāi)放數(shù)據(jù)(http://data.southampton.ac.uk/)等。

  下面結(jié)合PROV-O,分析DCAT所包含的溯源元數(shù)據(jù)及其語(yǔ)義。

  2.1 描述對(duì)象 根據(jù)DCAT概念模型,一個(gè)數(shù)據(jù)目錄門(mén)戶網(wǎng)站的結(jié)構(gòu)如圖1所示,其中的三個(gè)實(shí)體分別對(duì)應(yīng)類(lèi)dcat:Catalog,dcat:Dataset和dcat:Distribution(前綴dcat代表命名空間http://www.w3.org/ns/dcat#)。這三個(gè)實(shí)體都是溯源元數(shù)據(jù)的描述對(duì)象,因此都是實(shí)體類(lèi)(prov:Entity)的子類(lèi)(前綴prov代表命名空間http://www.w3.org/ns/prov#),其語(yǔ)義關(guān)系見(jiàn)表4。

  圖1 數(shù)據(jù)目錄門(mén)戶網(wǎng)站的結(jié)構(gòu)——數(shù)據(jù)目錄、數(shù)據(jù)集和數(shù)據(jù)資源

  結(jié)合我國(guó)地方政府開(kāi)放數(shù)據(jù)門(mén)戶網(wǎng)站的實(shí)際情況,考慮到適當(dāng)?shù)摹八菰戳6取保疚闹攸c(diǎn)關(guān)注“數(shù)據(jù)集”和“數(shù)據(jù)資源”這兩個(gè)溯源對(duì)象。

  2.2 描述數(shù)據(jù)集的溯源元數(shù)據(jù) 在DCAT中,描述dcat:Dataset類(lèi)的元數(shù)據(jù)項(xiàng)有15個(gè),其中10個(gè)元素來(lái)自都柏林核心詞匯表。這些元素可分為三類(lèi):9個(gè)描述型元數(shù)據(jù)(dct:title,dct:description,dct:language,dct:accrualPeriodicity,dct:identifier,dct:spatial,dct:temporal,dcat:theme,dcat:keyword),1個(gè)結(jié)構(gòu)型元數(shù)據(jù)(dcat:distribution)和5個(gè)溯源元數(shù)據(jù),見(jiàn)表5。表5的第一列是溯源類(lèi)別,第二列是DCAT元素,第四列是PROV-O詞匯,第三列是兩者的語(yǔ)義關(guān)系。

  2.3 描述數(shù)據(jù)資源的元數(shù)據(jù) 描述dcat:Distribution類(lèi)的元數(shù)據(jù)項(xiàng)有11個(gè),其中7個(gè)元素來(lái)自都柏林核心詞匯表。這些元素可分為兩類(lèi):5個(gè)描述型元數(shù)據(jù)(dct:title,dct:description,dct:format,dcat:byteSize,dcat:mediaType)和6個(gè)溯源元數(shù)據(jù),見(jiàn)表6。

  綜合表5和表6,DCAT中的溯源信息涵蓋四個(gè)方面:When、Who、Where和How。同DC中的溯源信息相比[8],多了Where方面的三個(gè)元數(shù)據(jù)項(xiàng),滿足了開(kāi)放數(shù)據(jù)“到哪里找到數(shù)據(jù)”的需求。

  3 在我國(guó)地方政府開(kāi)放數(shù)據(jù)中的應(yīng)用

  開(kāi)放數(shù)據(jù)是我國(guó)各級(jí)政府大數(shù)據(jù)戰(zhàn)略的基本內(nèi)容。2015年9月5日,國(guó)務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》(國(guó)發(fā)[2015]50號(hào)),提出未來(lái)5~10年我國(guó)大數(shù)據(jù)發(fā)展和應(yīng)用的目標(biāo),包括2018年底前建成國(guó)家政府?dāng)?shù)據(jù)統(tǒng)一開(kāi)放平臺(tái)[31]。2016年,北京、上海、廣東、江蘇、福建、浙江、山東和江西等省級(jí)政府相繼出臺(tái)政策文件貫徹落實(shí)國(guó)家的行動(dòng)綱要。“建設(shè)政府?dāng)?shù)據(jù)開(kāi)放平臺(tái),建立標(biāo)準(zhǔn)規(guī)范體系(如分類(lèi)目錄、訪問(wèn)接口、數(shù)據(jù)質(zhì)量、安全保密等)”等內(nèi)容是開(kāi)放政府?dāng)?shù)據(jù)建設(shè)的重點(diǎn),而保障數(shù)據(jù)質(zhì)量、可追溯和安全性等更是關(guān)注的焦點(diǎn)。例如,于2016年6月18日發(fā)布的《福建省促進(jìn)大數(shù)據(jù)發(fā)展實(shí)施方案(2016~2020年)》的主要任務(wù)之一就是:“建設(shè)全省統(tǒng)一的政府?dāng)?shù)據(jù)開(kāi)放平臺(tái),向公眾提供數(shù)據(jù)產(chǎn)品查詢、數(shù)據(jù)下載、應(yīng)用接口等服務(wù)。實(shí)施應(yīng)用身份統(tǒng)一認(rèn)證,實(shí)現(xiàn)開(kāi)放數(shù)據(jù)可追溯。利用統(tǒng)一開(kāi)放平臺(tái)匯聚和發(fā)布政府?dāng)?shù)據(jù),保障數(shù)據(jù)權(quán)威性和安全性……”

  目前,我國(guó)已建有十幾個(gè)地方政府開(kāi)放數(shù)據(jù)的門(mén)戶網(wǎng)站,均通過(guò)元數(shù)據(jù)對(duì)資源進(jìn)行描述。但各地的元數(shù)據(jù)數(shù)量、類(lèi)型都不盡相同,普遍缺乏規(guī)范的元數(shù)據(jù)標(biāo)準(zhǔn)體系,造成用戶難以了解數(shù)據(jù)的各項(xiàng)信息,包括溯源信息。

  3.1 現(xiàn)有的溯源元數(shù)據(jù) 首先,通過(guò)對(duì)代表性的5個(gè)省級(jí)網(wǎng)站(見(jiàn)表7)的調(diào)研,依據(jù)DCAT和DC元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,提煉和總結(jié)出現(xiàn)有的溯源元數(shù)據(jù),見(jiàn)表8。其他元數(shù)據(jù)項(xiàng)主要是描述型的,如資源名稱(chēng)、摘要、分類(lèi)、關(guān)鍵字、文件名和文件大小等,未列在表8中。

  需要指出的是,在元數(shù)據(jù)的使用上各地(重慶除外)并沒(méi)有明顯區(qū)分“數(shù)據(jù)集”和“數(shù)據(jù)資源”。通過(guò)分析,我們將表8中的前7個(gè)元數(shù)據(jù)歸為描述“數(shù)據(jù)集”(dcat:Dataset)、而后6個(gè)元數(shù)據(jù)是描述“數(shù)據(jù)資源”(dcat:Distribution)的。

  從表8可見(jiàn)我國(guó)地方政府在開(kāi)放數(shù)據(jù)的溯源元數(shù)據(jù)上呈現(xiàn)如下特點(diǎn)或不足:①各種溯源信息是元數(shù)據(jù)的核心內(nèi)容,這與國(guó)際趨勢(shì)是一致的;②除重慶外,普遍缺失“開(kāi)放許可”(dct:license)元數(shù)據(jù),這與我國(guó)這方面的法律缺失有關(guān);③元數(shù)據(jù)的標(biāo)準(zhǔn)化、規(guī)范化程度不高,與DCAT規(guī)范和先進(jìn)水平(如美國(guó)、英國(guó)、歐盟等)差距較大;④各地的元數(shù)據(jù)在名稱(chēng)、數(shù)量、取值類(lèi)型上差異很大,互操作水平低,不利于各方數(shù)據(jù)門(mén)戶聚合到統(tǒng)一平臺(tái),也不利于應(yīng)用程序跨平臺(tái)讀取溯源信息;⑤沒(méi)有采用溯源本體,語(yǔ)義表達(dá)不夠清晰和完善。

  通過(guò)采用DCAT和DC元數(shù)據(jù)標(biāo)準(zhǔn)及PROV-O詞匯表,可以克服上述③、④和⑤等不足。下面以數(shù)據(jù)發(fā)布活動(dòng)中的兩種典型情形為例,給出具體的方案。

  3.2 歷史數(shù)據(jù)的溯源表達(dá) 北京和佛山市南海區(qū)(data.nanhai.gov.cn)提供了“歷史數(shù)據(jù)”元數(shù)據(jù),重慶通過(guò)“活動(dòng)流”記錄數(shù)據(jù)集的更新情況,這些做法都符合W3C的與溯源相關(guān)的最佳實(shí)踐BP8(見(jiàn)表3)。而為了顯式和規(guī)范表達(dá)“當(dāng)前數(shù)據(jù)”與“歷史數(shù)據(jù)”之間的溯源關(guān)系,則要引進(jìn)DC詞匯dct:isVersionOf和PROV-O屬性prov:wasRevisionOf,后者有著更加明晰的溯源語(yǔ)義。

  例如,北京市“公益性圖書(shū)館”數(shù)據(jù)集(見(jiàn)表4)的最新發(fā)布日期是2015-12-25,歷史數(shù)據(jù)的發(fā)布日期是2013-12-19,它們之間的溯源關(guān)系可以通過(guò)下面的Turtle記錄表達(dá)。

  @prefix:<http://www.example.org/>.

  @prefix prov:<http://www.w3.org/ns/prov#>.

  @prefixpav:<http://purl.org/pav/>.

  @prefixdcat:<http://www.w3.org/ns/dcat#>.

  @prefixdct:<http://purl.org/dc/terms/>.

  @prefix owl:<http://www.w3.org/2002/07/owl#>.

  @prefix xsd:<http://www.w3.org/2001/XMLSchema#>.

  :library-2015-12-25 a dcat:Dataset; a prov:Entity;

  dct:title"公益性圖書(shū)館";

  dcat:landingPage

 ?。糷ttp://www.bjdata.gov.cn/zyml/azt/wtyy/whcs/whgz/3077.htm>:

  dct:issued "2015-12-25"^^xsd:dateTime;

  prov:generatedAtTime"2015-12-25"^^xsd:dateTime;

  owl:versionInfo"2.0"; pav:version"2.0";

  dct:isVersionOf:library-2013-12-19;

  prov:wasRevisionOf:library-2013-12-19.

  :library-2013-12-19 a dcat:Dataset; a prov:Entity;

  dct:title"公益性圖書(shū)館";dct:issued "2013-12-19"^^xsd:dateTime;

  prov:generatedAtTime"2013-12-19"^^xsd:dateTime;

  owl:versionInfo"1.0"; pav:version"1.0";

  dct:hasVersion:library-2015-12-25;

  prov:hadRevision:library-2015-12-25.

  其中,pav代表另一個(gè)輕量級(jí)的溯源本體(http://pav-ontology.github.io/pav/); dct:hasVersion是dct:isVersionOf的逆屬性,prov:hadRevision是prov:wasRevisionOf的逆屬性。

  在這段元數(shù)據(jù)記錄中,兩個(gè)版本的“公益性圖書(shū)館”數(shù)據(jù)集都是PROV-O類(lèi)prov:Entity的實(shí)例(參見(jiàn)表4),它們的產(chǎn)生時(shí)間(prov:generatedAtTime)和演化情況(prov:wasRevisionOf)得到了描述。

  3.3 多種數(shù)據(jù)格式的溯源表達(dá) 為了滿足不同用戶的需求和降低使用成本,W3C最佳實(shí)踐BP14(見(jiàn)表3)推薦以多種格式發(fā)布同一數(shù)據(jù)資源,而且至少一種是機(jī)器可讀的格式。重慶為一個(gè)數(shù)據(jù)資源提供了兩種格式的文件:CSV和XLS,廣州市(datagz.gov.cn)有四種格式:XML、JSON、CSV和XLS,佛山市南海區(qū)提供了五種格式:XML、JSON、CSV、XLS和TXT。

  不同于上小節(jié)的歷史版本的變化意味著實(shí)質(zhì)性內(nèi)容的改變,不同格式的數(shù)據(jù)內(nèi)容應(yīng)是一致的。為表達(dá)不同格式的文件間的溯源關(guān)系,應(yīng)引進(jìn)dct:isFormatOf(或逆屬性dct:hasFormat),prov:wasDerivedFrom(或逆屬性prov:hadDerivation)和prov:alternateOf。

  例如,“2010—2014年重慶市公共圖書(shū)館相關(guān)信息”數(shù)據(jù)集(http://cqckan.chinacloudapp.cn/dataset/201602231353)提供了兩種格式的數(shù)據(jù)文件,它們之間的溯源關(guān)系由下面的元數(shù)據(jù)記錄表達(dá)。

  :library-2016-02-24.csv a dcat:Distribution;a prov:Entity;

  dcat:downloadURL<http://cqckan.chinacloudapp.cn/zh_CN/dataset/

  992bf4f0-809d-4a35-822b-90748aaf9bb3/resource/

  c9068e2d-2928-403c-b36a-t9a1d2b5a692/download/2010-2014.csv>:

  dct:title"2010—2014年重慶市公共圖書(shū)館相關(guān)信息",

  dcat:mediaType"text/csv; charset=GB2312";

  dct:isFormatOf:library-2016-02-24.xlsx;

  prov:wasDerivedFrom:library-2016-02-24.xlsx;

  prov:alternateOf:library-2016-02-24.xlsx.

  :library-2016-02-24.xlsx a dcat:Distribution;a prov:Entity;

  dcat:downloadURL <http://cqckan.chinacloudapp.cn/zh_CN/dataset/

  992bf4f0-809d-4a35-822b-90748aaf9bb3/resource/

  ce6525f1-6bb2-4076-951f-f80fde5896f2/download/2010-2014.xlsx>:

  dct:title"2010—2014年重慶市公共圖書(shū)館相關(guān)信息";

  dcat:mediaType "application/vnd.ms-excel";

  dct:hasFormat:library-2016-02-24.csv;

  當(dāng)用戶的應(yīng)用程序讀取并解析這段代碼后,就可以依據(jù)溯源記錄從當(dāng)前格式的文件導(dǎo)航到其他格式的文件,實(shí)現(xiàn)客戶端驅(qū)動(dòng)的“內(nèi)容協(xié)商”。

  4 基于JSON的溯源元數(shù)據(jù)實(shí)例

  W3C DWBP工作組推薦以機(jī)器可讀的、標(biāo)準(zhǔn)化的格式編碼溯源記錄(BP12),如CSV、XML、HDF5、JSON、RDF/XML、JSON-LD和Turtle等格式。合適的元數(shù)據(jù)格式是實(shí)現(xiàn)元數(shù)據(jù)“記錄級(jí)”互操作的基礎(chǔ),是對(duì)DCAT和PROV-O建立起的“模式級(jí)”互操作的補(bǔ)充。目前,JSON是DCAT和PROV-O均采納的一種編碼方式[36,37],也是美國(guó)、英國(guó)等普遍采用的元數(shù)據(jù)文件格式。

  我國(guó)各地的元數(shù)據(jù)格式還是面向人的閱讀的HTML網(wǎng)頁(yè)或TXT文本,不是機(jī)器可讀的,要比描述的數(shù)據(jù)本身的開(kāi)放程度(即機(jī)器可讀)低一個(gè)等級(jí)。而DWBP工作組總結(jié)的各國(guó)最佳實(shí)踐是將“元數(shù)據(jù)”和描述的“數(shù)據(jù)”視為同等重要,應(yīng)采用一樣的開(kāi)放標(biāo)準(zhǔn)和格式。

  下面以PROV-JSON格式給出“2010—2014年重慶市公共圖書(shū)館相關(guān)信息”數(shù)據(jù)集(參見(jiàn)3.3節(jié))的較為完整的元數(shù)據(jù)記錄。

  {"prefix":{"ex":"http://cqckan.chinacloudapp.cn/dataset/",

  "dct":"http://purl.org/dc/terms/",

  "dcat":"http://www.w3.org/ns/dcat#"},

  "entity":{

  "ex:201602231353":{

  "prov:type":"dcat:Dataset",

  "dct:identifier":"201602231353",

  "dct:title":"2010—2014年重慶市公共圖書(shū)館相關(guān)信息",

  "dcat:landingPage":“http://cqckan.chinacloudapp.cn/dataset/201602231353”,

  "dct:issued":"2016-02-23","dct:modified":"2016-02-23",

  "dcat:keyword":["教育","文化"],

  "dcat:distribution":

  ["ex:201602231353/resource/c9068e2d-2928-403c-b36a-f9a1d2b5a692",

  "ex:201602231353/resource/ce6525f1-6bb2-4076-951f-f80fde5896f2"]},

  "ex:201602231353/resource/c9068e2d-2928-403c-b36af9a1d2b5a692":{

  "prov:type":"dcat:Distribution",

  "dct:title":"2010-2014.csv","dct:forrnat":"text/csv",

  "dcat:downloadURL":"http://cqckan.chinacloudapp.cn/……/2010-2014.csv",

  "dct:license":"http://opendefinition.org/licenses/cc-by/",

  "prov:alternateOf":

  "ex:201602231353/resource/ce6525f1-6bb2-4076-951f-f80fde5896f2",

  "prov:wasDerivedFrom":

  "ex:201602231353/resource/ce6525f1-6bb2-4076-951f-f80fde5896f2"},

  "ex:201602231353/resource/ce6525f1-6bb2-4076-951f-f80fde5896f2":{

  "prov:type":"dcat:Distribution",

  "dct:title":"2010-2014.xlsx","dct:format":"application/vnd.ms-excel",

  "dcat:downloadURL":"http://cqckan.chinacloudapp.cn/……/2010-2014.xlsx",

  "dct:license":"http://opendefinition.org/licenses/cc-by/",

  "prov:hadDerivation":

  "ex:201602231353/resource/c9068e2d-2928-403c-b36a-f9a1d2b5a692"}

  其中前綴prov默認(rèn)指向命名空間http://www.w3.org/ns/prov#。

  這段代碼中共有三個(gè)溯源實(shí)體(entity,即prov:Entity):數(shù)據(jù)集(ex:201602231353)和它所包含的兩個(gè)數(shù)據(jù)文件,元數(shù)據(jù)值全部來(lái)自實(shí)際值。

  5 結(jié)論

  開(kāi)放政府?dāng)?shù)據(jù)被社會(huì)各界關(guān)注、接納和利用的前提之一是有效解決“信任”問(wèn)題,這離不開(kāi)具有互操作性的高質(zhì)量的溯源元數(shù)據(jù)的支持。國(guó)際上開(kāi)放數(shù)據(jù)實(shí)踐的發(fā)展趨勢(shì)是“溯源信息”已經(jīng)同被描述的數(shù)據(jù)本身一樣重要。

  本文的分析表明,我國(guó)地方政府開(kāi)放數(shù)據(jù)實(shí)際采用的元數(shù)據(jù)中含有較為豐富的溯源信息,但其總體質(zhì)量還不高,主要表現(xiàn)在:①?zèng)]有采用標(biāo)準(zhǔn)詞匯表(即本體),溯源語(yǔ)義表達(dá)不明晰;②缺乏通用的元數(shù)據(jù)標(biāo)準(zhǔn),互操作水平較低;③溯源記錄不是機(jī)器可讀的,不利于應(yīng)用程序自動(dòng)讀取。為此,本文引進(jìn)W3C DCAT元數(shù)據(jù)和PROV本體,在建立各地方政府元數(shù)據(jù)到標(biāo)準(zhǔn)詞匯表映射的基礎(chǔ)上,對(duì)數(shù)據(jù)發(fā)布環(huán)節(jié)實(shí)際存在的“歷史數(shù)據(jù)”和“多種數(shù)據(jù)格式”兩種典型情況進(jìn)行了溯源表達(dá),并給出了JSON格式的溯源記錄實(shí)例。

  這些工作為解決現(xiàn)有問(wèn)題給出了初步的方案。下一步的工作是開(kāi)發(fā)開(kāi)放數(shù)據(jù)全生命周期的“溯源元數(shù)據(jù)”模型和規(guī)范,建立較為完備的溯源管理體系。

責(zé)任編輯:qinpeng