各級政府掌握著全社會(huì)80%的數(shù)據(jù)資源,“開放政府?dāng)?shù)據(jù)”(Open Government Data,OGD)能夠最大限度地推動(dòng)全社會(huì)數(shù)據(jù)資源的有效配置和充分利用,成為各國政府實(shí)踐和學(xué)術(shù)研究的熱點(diǎn)。全球范圍興起的“開放政府?dāng)?shù)據(jù)運(yùn)動(dòng)”始于2009年美國政府推動(dòng)的“開放政府行動(dòng)計(jì)劃”(Open Government Initiative),兩年后的2011年9月美國、英國、巴西等8個(gè)國家成立了“開放政府合作組織”(Open Government Partnership,OGP)。到2016年8月其成員國已發(fā)展到70個(gè),相繼推出“國家行動(dòng)計(jì)劃”,從法律、技術(shù)、信息基礎(chǔ)設(shè)施和應(yīng)用等維度推動(dòng)各層次的政府?dāng)?shù)據(jù)開放。根據(jù)世界銀行的統(tǒng)計(jì),目前已有超過250個(gè)政府(含中央政府和地方政府)實(shí)施“開放數(shù)據(jù)行動(dòng)計(jì)劃”。

  構(gòu)建政府?dāng)?shù)據(jù)管理、開放、查詢和再利用的官方平臺,發(fā)布開放數(shù)據(jù)目錄(Open Data Catalogs)的“一站式”門戶網(wǎng)站(Portals)是各國在開放政府?dāng)?shù)據(jù)運(yùn)動(dòng)中普遍采取的關(guān)鍵舉措。到2016年8月,DataPortals.org收集的數(shù)據(jù)門戶網(wǎng)站已達(dá)520個(gè)。我國從2012年開始,北京、上海、浙江、重慶、武漢和青島等地方政府相繼推出了十余個(gè)開放數(shù)據(jù)的門戶網(wǎng)站。2015年9月5日國務(wù)院印發(fā)的《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》明確在2018年底前要建成國家政府?dāng)?shù)據(jù)統(tǒng)一開放平臺。

  開放數(shù)據(jù)是政府信息公開在大數(shù)據(jù)時(shí)代的發(fā)展和深化。正如“元數(shù)據(jù)對政府公開信息的描述、發(fā)現(xiàn)和管理有著極其重要的作用”一樣,數(shù)據(jù)目錄平臺的核心功能是開放數(shù)據(jù)集的元數(shù)據(jù)管理。復(fù)旦大學(xué)鄭磊等構(gòu)建的“中國政府開放數(shù)據(jù)整體評估框架”中,“元數(shù)據(jù)”是13個(gè)評估維度之一;英國開放數(shù)據(jù)研究所(Open Data Institute,ODI)開發(fā)和維護(hù)開放數(shù)據(jù)質(zhì)量的在線評估工具“開放數(shù)據(jù)合格證書”(Open Data Certificate),將標(biāo)準(zhǔn)的、機(jī)器可讀的元數(shù)據(jù)作為考查的基本指標(biāo)之一。隨著開放數(shù)據(jù)運(yùn)動(dòng)的逐步深入,元數(shù)據(jù)從提高開放數(shù)據(jù)集的可發(fā)現(xiàn)性到幫助用戶理解、選擇數(shù)據(jù)集,正在向標(biāo)準(zhǔn)化、語義化和機(jī)器可讀的方向發(fā)展。

  在政府實(shí)踐和學(xué)術(shù)研究領(lǐng)域,我國已開始加快追趕全球開放數(shù)據(jù)浪潮的腳步。在元數(shù)據(jù)上,雖然目前各地方政府對于開放的數(shù)據(jù)都能提供基本的元數(shù)據(jù)信息,但元數(shù)據(jù)的方案各不相同、對數(shù)據(jù)集的描述尚不全面、格式以HTML網(wǎng)頁和文本文件為主,離規(guī)范化、標(biāo)準(zhǔn)化、互操作和機(jī)器可讀的目標(biāo)還存在著不小的差距,這將影響到數(shù)據(jù)開放的效果。為此,本文借鑒國際先進(jìn)經(jīng)驗(yàn),在分析地方政府開放數(shù)據(jù)平臺元數(shù)據(jù)不足的基礎(chǔ)上,設(shè)計(jì)基于W3C DCAT標(biāo)準(zhǔn)的核心元數(shù)據(jù)方案,為我國各級政府開放數(shù)據(jù)平臺的建設(shè)和升級提供借鑒和參考。

  1 國外開放政府?dāng)?shù)據(jù)的元數(shù)據(jù)現(xiàn)狀

  1.1 開放數(shù)據(jù)的元數(shù)據(jù)標(biāo)準(zhǔn)

       由蒂姆·伯納斯-李領(lǐng)導(dǎo)的W3C是政府?dāng)?shù)據(jù)開放運(yùn)動(dòng)的積極推動(dòng)者。W3C電子政務(wù)標(biāo)準(zhǔn)行動(dòng)計(jì)劃(eGov Activity)設(shè)有電子政務(wù)興趣小組(eGovernment Interest Group)和政府關(guān)聯(lián)數(shù)據(jù)工作組(Government Linked Data Working Group)。經(jīng)歷兩年的研制,2014年1月16日,政府關(guān)聯(lián)數(shù)據(jù)工作組最終發(fā)布了由愛爾蘭國立大學(xué)DERI(Digital Enterprise Research Institute)起草、電子政務(wù)興趣小組修改的政府開放數(shù)據(jù)元數(shù)據(jù)的正式推薦標(biāo)準(zhǔn)——DCAT(Data Catalog Vocabulary)。

  DCAT是RDF詞匯表,支持?jǐn)?shù)據(jù)目錄之間的互操作性(interoperability)。DCAT詞匯表共有7個(gè)類、17個(gè)屬性,主要類和屬性如圖1所示,其中復(fù)用了都柏林核心元數(shù)據(jù)(Dublin Core)、FOAF本體和SKOS本體的相關(guān)詞匯。從圖1可見,對于開放數(shù)據(jù)集(dataset),DCAT提供了15個(gè)屬性(帶dcat前綴的5個(gè)為新屬性)。這些屬性幫助用戶“認(rèn)識”(如dct:title和dct:description)、“查找”(如dcat:theme和dcat:keyword)、“選擇”(如dct:modified和dct:spatial)、“訪問、讀取或下載”(如dcat:distribution和dcat:landing-Page)和“使用”(如dct:identifier和dcat:contactPoint)數(shù)據(jù),能夠滿足各類數(shù)據(jù)集“開放”的基本需求。


圖1 DCAT詞匯表的主要類及其屬性

  根據(jù)W3C的統(tǒng)計(jì),DCAT及其應(yīng)用綱要(Application Profile)已被歐盟、美國、英國、西班牙、愛爾蘭和意大利等國家廣泛采用。歐盟DCAT-AP(DCAT Application Profile for Data Portals in Europe)已應(yīng)用到歐盟28國統(tǒng)一的數(shù)據(jù)目錄門戶(www.europeandataportal.eu)上,描述的58萬多個(gè)數(shù)據(jù)集涉及文化教育、環(huán)境、交通和能源等13個(gè)門類。根據(jù)歐盟2016年8月的最新統(tǒng)計(jì),意大利(Dati.Gov.IT)和羅馬尼亞(Data.Gov.RO)等14個(gè)數(shù)據(jù)門戶元數(shù)據(jù)對DCAT-AP的符合率為100%,奧地利(Data.Gv.AT)的這一比例為99%。值得一提的是,英國和法國的地理數(shù)據(jù)集對DCAT-AP的符合率分別是93%、97%,立陶宛和北愛爾蘭的空間數(shù)據(jù)則為100%,表明了DCAT的廣泛適應(yīng)性。愛爾蘭的元數(shù)據(jù)方案在歐盟DCAT-AP的基礎(chǔ)上,增加了描述地理數(shù)據(jù)集的元數(shù)據(jù)。

  1.2 美國紐約州開放數(shù)據(jù)的元數(shù)據(jù)方案

       美國是開放政府?dāng)?shù)據(jù)的發(fā)起者和領(lǐng)跑者。從2009年5月21日上線發(fā)布國家層面的數(shù)據(jù)門戶Data.Gov,到2016年8月各級地方政府(州、縣和市)的開放數(shù)據(jù)門戶網(wǎng)站已達(dá)到88個(gè)。美國各級政府開放數(shù)據(jù)的元數(shù)據(jù)非常重視標(biāo)準(zhǔn)化工作,2014年11月6日更新的國家數(shù)據(jù)門戶的元數(shù)據(jù)方案(Project Open Data Metadata Schemav1.1,POD v1.1)已建立了到DCAT和Schema.org的映射。由于本文主要關(guān)注地方政府,就以紐約州為例介紹一個(gè)具體的元數(shù)據(jù)方案。

  紐約州政府于2013年3月11日推出開放數(shù)據(jù)平臺Open.ny.gov,隨后信息技術(shù)服務(wù)辦公室于2013年11月6日發(fā)表《開放數(shù)據(jù)手冊》,詳盡描述了元數(shù)據(jù)的構(gòu)建原則和方案。表1是根據(jù)《開放數(shù)據(jù)手冊》和Open.ny.gov上的元數(shù)據(jù)實(shí)例總結(jié)的紐約州元數(shù)據(jù)方案的主要元素,可見與DCAT有著很高的兼容程度并做了一定的本土化擴(kuò)展。

  2 我國地方政府開放數(shù)據(jù)的元數(shù)據(jù)分析

  2.1 目前使用的元數(shù)據(jù)

       不同于美國、英國等國家從中央政府到地方政府的發(fā)展路徑,目前我國開放數(shù)據(jù)門戶網(wǎng)站主要發(fā)端和實(shí)踐于地方政府。表2列出了當(dāng)前活躍的、代表性的網(wǎng)站的URL。在詳盡調(diào)查各數(shù)據(jù)門戶使用的元數(shù)據(jù)的基礎(chǔ)上,限于篇幅本文以北京市和浙江省為例,給出分析結(jié)果。

  “北京市政務(wù)數(shù)據(jù)資源網(wǎng)”由北京市經(jīng)濟(jì)和信息化委員會(huì)(經(jīng)信委)牽頭建設(shè)、北京市各政務(wù)部門共同參與,于2012年10月推出測試版、2013年年底正式開通。目前已開放來自市教委、市交通委、市旅游委等近40個(gè)部門的300多個(gè)數(shù)據(jù)集,并為每個(gè)數(shù)據(jù)集提供了txt文本格式的元數(shù)據(jù)文件。表3總結(jié)了元數(shù)據(jù)情況,其中第一列的元素名稱取自元數(shù)據(jù)文件,第二列的元素標(biāo)簽取自HTML頁面,實(shí)例數(shù)據(jù)取自“公益性圖書館”數(shù)據(jù)集的描述信息(http://www.bjdata.gov.cn/zyml/azt/wtyy/whcs/whgz/3077.htm)。需要說明的是,實(shí)際中并沒有“數(shù)據(jù)資源”這一元素,它是本文為了元數(shù)據(jù)的結(jié)構(gòu)更加簡潔、明晰而引入的,實(shí)際使用的7個(gè)元素(文件名稱、下載次數(shù)、上傳日期、原始數(shù)據(jù)下載、空間數(shù)據(jù)下載、資源記錄數(shù)、數(shù)據(jù)文件大小)歸結(jié)為它的“修飾詞”。

  2015年9月23日,浙江政務(wù)服務(wù)網(wǎng)“數(shù)據(jù)開放”專題網(wǎng)站正式上線。這是國家《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》發(fā)布后,全國各省份中第一個(gè)推出的政府?dāng)?shù)據(jù)統(tǒng)一開放平臺,現(xiàn)已開放出200多個(gè)數(shù)據(jù)集。表4給出了網(wǎng)站的元數(shù)據(jù)使用情況,由于只有HTML格式的元數(shù)據(jù)信息,所以不區(qū)分元素的名稱與標(biāo)簽,實(shí)例數(shù)據(jù)取自“公共圖書館信息”數(shù)據(jù)集的描述信息(http://data.zjzwfw.gov.cn/catedetail.action?resid=210551/20150610110144613008&catecode=SJLY005)。同表3一樣,實(shí)際中也沒有“數(shù)據(jù)資源”這一元素,表4中的“元素修飾詞”是我們根據(jù)實(shí)際情況總結(jié)的。

  2.2 元數(shù)據(jù)的不足

      目前的元數(shù)據(jù)雖然能滿足各地方政府開放數(shù)據(jù)的基本需求,但同國際上的發(fā)展趨勢相比有如下不足:

  a.各地方政府的元數(shù)據(jù)方案之間差異較大,表現(xiàn)為元素的個(gè)數(shù)、名稱與格式上的不一致,這為應(yīng)用程序跨多個(gè)數(shù)據(jù)目錄讀取數(shù)據(jù)集的元數(shù)據(jù)帶來困難,增加了處理的復(fù)雜性和代價(jià);

  b.對數(shù)據(jù)集的描述不夠全面,表現(xiàn)為沒有規(guī)范、持久、穩(wěn)定的唯一標(biāo)識符,沒有數(shù)據(jù)的時(shí)空覆蓋范圍,沒有問題反饋渠道,沒有數(shù)據(jù)的開放許可等;

  c.沒有區(qū)分?jǐn)?shù)據(jù)集與數(shù)據(jù)集包含的數(shù)據(jù)資源(可下載的文件或訪問端點(diǎn)等),造成描述兩者的元數(shù)據(jù)之間的混淆,如“資源類型”“資源記錄數(shù)”“點(diǎn)擊下載”等描述的應(yīng)是數(shù)據(jù)文件而不是數(shù)據(jù)集本身;

  d.普遍沒有采用機(jī)器可讀的元數(shù)據(jù)格式,不利于程序的自動(dòng)處理和互操作;

  e.同一個(gè)開放數(shù)據(jù)網(wǎng)站中,元數(shù)據(jù)的取值也不規(guī)范。如浙江省網(wǎng)站中“數(shù)據(jù)文件大小”的取值既有帶單位的(如172KB),也有沒帶單位的(如10);北京市“資源更新周期”的取值有“一年”的、也有“每年”的,而“在線資源鏈接地址”的取值都是“www.bjdata.gov.cn”,造成用戶不能從這個(gè)元數(shù)據(jù)直接找到數(shù)據(jù)資源,也就失去了元數(shù)據(jù)的價(jià)值。

  3 核心元數(shù)據(jù)方案設(shè)計(jì)

  下面從現(xiàn)有的元數(shù)據(jù)出發(fā),以W3C DCAT為標(biāo)準(zhǔn)化方向,以克服現(xiàn)有不足和滿足核心功能(即數(shù)據(jù)集的可發(fā)現(xiàn)性、可訪問性及數(shù)據(jù)目錄間的互操作)為目標(biāo),設(shè)計(jì)我國地方政府?dāng)?shù)據(jù)目錄的核心元數(shù)據(jù)方案,主要做法是:a.將元素分為兩組,分別描述數(shù)據(jù)集和數(shù)據(jù)資源;b.依據(jù)DCAT規(guī)范元素的名稱和語義;c.保留各地方政府與DCAT共有的元素項(xiàng);d.補(bǔ)充DCAT中核心的、但各地方政府普遍缺失的元素項(xiàng);e.采用機(jī)器可讀的元數(shù)據(jù)格式。

  3.1 描述對象

       本文將“數(shù)據(jù)集”和“數(shù)據(jù)資源”作為元數(shù)據(jù)的描述對象。

  世界銀行開放政府?dāng)?shù)據(jù)工作組將元數(shù)據(jù)定義為“對開放數(shù)據(jù)集(dataset)各方面的描述數(shù)據(jù)”。DCAT認(rèn)為“數(shù)據(jù)集是由一個(gè)機(jī)構(gòu)或部門發(fā)布和維護(hù)的數(shù)據(jù)的集合”,對應(yīng)圖1中的dcat:Dataset類。數(shù)據(jù)集包含一個(gè)或多個(gè)數(shù)據(jù)資源,數(shù)據(jù)資源對應(yīng)圖1中的dcat:Distribution類,可以是能被下載的數(shù)據(jù)文件、訪問數(shù)據(jù)的端點(diǎn)(endpoint)或RSS源(feed)等。數(shù)據(jù)集與數(shù)據(jù)資源之間的關(guān)系是“整體-部分”關(guān)系,對應(yīng)圖1中的dcat:distribution屬性。

  3.2 描述數(shù)據(jù)集的元數(shù)據(jù)

       表5給出了描述數(shù)據(jù)集的核心元數(shù)據(jù),第一列是規(guī)范化的元素中文名稱、第二列是對應(yīng)的DCAT元素,最后兩列對應(yīng)北京和浙江實(shí)際使用的元數(shù)據(jù)。19個(gè)元素全部來自DCAT詞匯表和DC元數(shù)據(jù),不僅能覆蓋北京、浙江等目前使用的絕大多數(shù)元數(shù)據(jù),也補(bǔ)充了“標(biāo)識符”“開放許可”和“聯(lián)系方式”等基本元素。

  3.3 描述數(shù)據(jù)資源的元數(shù)據(jù)

       表6給出了描述數(shù)據(jù)資源的10個(gè)核心元素,規(guī)范和補(bǔ)充了數(shù)據(jù)文件的“名稱”“格式”“類型”“字節(jié)大小”和“文件下載的URL”“數(shù)據(jù)訪問的URL”等重要的元素項(xiàng)。

image.png

  3.4 擴(kuò)展原則

       隨著開放數(shù)據(jù)種類的日益增加,數(shù)據(jù)集的本征特征會(huì)向多樣化發(fā)展,對核心元數(shù)據(jù)的擴(kuò)展勢在必行。各國的主要策略是對DCAT的本土化和專業(yè)化擴(kuò)展,例如美國POD v1.1引進(jìn)了accessLevel(訪問級別)、dataQuality(數(shù)據(jù)質(zhì)量)、bureauCode(機(jī)構(gòu)代碼)和primaryITInvestmentUII(IT唯一投資標(biāo)識符)等體現(xiàn)美國政府信息化特點(diǎn)的元數(shù)據(jù)項(xiàng),歐盟DCAT-AP引進(jìn)歐盟范圍的受控詞表(如EuroVoc)規(guī)范元素的取值,愛爾蘭對地理數(shù)據(jù)增加了“空間參照系”(Spatial Reference System)、“空間分辨率”(SpatialResolution)等元數(shù)據(jù)項(xiàng)。

  我國在進(jìn)行本土化時(shí)更應(yīng)考慮中文信息的特點(diǎn),并結(jié)合政府信息資源公開及開放共享的現(xiàn)狀和發(fā)展的需要。

  4 元數(shù)據(jù)實(shí)例

  支持互操作的元數(shù)據(jù)格式有XML、RDF等,它們都是機(jī)器可讀的。作為DCAT的補(bǔ)充,DCIP(Data Catalog Interoperability Protocol)建議以XML/RDF和JSON格式編碼開放數(shù)據(jù)的元數(shù)據(jù),已被美國、英國和歐盟等采納。

  本文以北京市“公益性圖書館”數(shù)據(jù)集的元數(shù)據(jù)(參見2.1節(jié)的表3)為例,將現(xiàn)有的文本格式轉(zhuǎn)換為XML/RDF格式(見圖2)。其中,元素的名稱來自DCAT詞匯表,除了“標(biāo)識符”的值(圖中黑體),其余值都是實(shí)際數(shù)據(jù)??梢栽O(shè)想,如果各地方政府都以這種格式提供元數(shù)據(jù),應(yīng)用程序就能以一致的方式跨多個(gè)數(shù)據(jù)目錄讀取和解析它們,實(shí)現(xiàn)自動(dòng)查找、比較和選擇數(shù)據(jù)集,進(jìn)而自動(dòng)下載或訪問數(shù)據(jù)。

  該例也表明,上述核心元數(shù)據(jù)方案能夠基本滿足各類開放數(shù)據(jù)集的可發(fā)現(xiàn)性和可訪問性的描述需求,同時(shí)提高了現(xiàn)有元數(shù)據(jù)的規(guī)范程度和互操作性。對于專業(yè)領(lǐng)域數(shù)據(jù)集的特殊描述需求,則要引進(jìn)新的元數(shù)據(jù)項(xiàng)。

  5 結(jié)語

  數(shù)據(jù)的開放共享離不開元數(shù)據(jù)的支持,為開放數(shù)據(jù)集附加高質(zhì)量的元數(shù)據(jù)描述,是實(shí)現(xiàn)數(shù)據(jù)目錄之間互操作的基礎(chǔ),更有利于用戶發(fā)現(xiàn)、理解和使用數(shù)據(jù)。我國地方政府開放數(shù)據(jù)元數(shù)據(jù)的規(guī)范化和標(biāo)準(zhǔn)化程度還不高,借鑒和參考國際通用的元數(shù)據(jù)標(biāo)準(zhǔn)將是一個(gè)重要的發(fā)展方向。本文在這方面做了初步的嘗試,構(gòu)建了基于W3C DCAT標(biāo)準(zhǔn)的描述開放數(shù)據(jù)集和數(shù)據(jù)資源的核心元數(shù)據(jù)方案。顯然,該方案在實(shí)際應(yīng)用中還會(huì)有很多不足,如還需要補(bǔ)充和完善編碼體系修飾詞、規(guī)范元數(shù)據(jù)的取值類型、設(shè)計(jì)數(shù)據(jù)集標(biāo)識符的規(guī)范、根據(jù)需求增加新的描述對象和屬性等。

  相信從“元數(shù)據(jù)方案”到“元數(shù)據(jù)規(guī)范”、再到“元數(shù)據(jù)標(biāo)準(zhǔn)”的演化,將見證我國開放政府?dāng)?shù)據(jù)從起步、成長到成熟的發(fā)展歷程。

  (作者簡介:于夢月,女,大連海事大學(xué)交通運(yùn)輸管理學(xué)院碩士研究生,研究方向:元數(shù)據(jù),開放數(shù)據(jù);翟軍,男,大連海事大學(xué)交通運(yùn)輸管理學(xué)院教授,博士生導(dǎo)師,研究方向:開放數(shù)據(jù),關(guān)聯(lián)數(shù)據(jù);林巖,男,大連海事大學(xué)交通運(yùn)輸管理學(xué)院副教授,碩士生導(dǎo)師,研究方向:知識管理。)

責(zé)任編輯:lihui