一、 現(xiàn)狀與問題
政府信息公開與數(shù)據(jù)開放的關(guān)系是什么?這不僅是一個政策問題,也是一個理論問題。
2008年《政府信息公開條例》正式頒布后,我國逐步形成以國務(wù)院辦公廳為全國主管部門,縣級以上地方人民政府辦公廳(室)為主管單位的政府信息公開行政管理體系,政府網(wǎng)站成為信息公開的“第一平臺”。近年來,我國部分地方政府在借鑒英美國家經(jīng)驗基礎(chǔ)上,初步建設(shè)了數(shù)據(jù)開放平臺,相關(guān)情況如下表1所示。
續(xù)表
地方數(shù)據(jù)開放平臺的牽頭或負(fù)責(zé)部門主要是政府辦公廳(室)或信息(化)主管部門,前者沿襲政府網(wǎng)站、信息公開等行政職責(zé),后者則將其定位為政務(wù)信息化的一部分。大部分?jǐn)?shù)據(jù)開放網(wǎng)站(欄目)獨立于政府信息公開欄目,少數(shù)將數(shù)據(jù)開放置于信息公開欄目下;兩個欄目之間往往存在交集,比如上海市“數(shù)據(jù)服務(wù)網(wǎng)”提供了諸如權(quán)力清單、事業(yè)單位招錄信息等通常被納入信息公開的內(nèi)容,武漢市信息公開和數(shù)據(jù)開放網(wǎng)站上都有公共財政預(yù)算表和數(shù)據(jù),浙江省政府公報也同時在兩個欄目出現(xiàn);“信息”和“數(shù)據(jù)”在平臺上經(jīng)?;煊谩km然各地實踐仍在摸索之中,但上述現(xiàn)象至少說明,實務(wù)部門對“數(shù)據(jù)開放”和“信息公開”的定義和關(guān)系尚未形成明確、統(tǒng)一的認(rèn)識。
我國政府在政策中較少對概念進(jìn)行嚴(yán)格定義?!墩畔⒐_條例》雖然界定了政府信息即“行政機關(guān)在履行職責(zé)過程中制作或者獲取的,以一定形式記錄、保存的信息”,但是沒有定義信息是什么。近年來理論界對數(shù)據(jù)開放的研究,主要是針對國內(nèi)外觀點和政策實踐的總結(jié),并試圖構(gòu)建與其他相關(guān)政策(比如信息公開)相區(qū)別的理論范式和政策理念,卻有意或無意地造成在數(shù)據(jù)開放和信息公開關(guān)系上的模糊不清:試圖在技術(shù)可行性、數(shù)據(jù)結(jié)構(gòu)等方面對數(shù)據(jù)與信息做出區(qū)分,但不得不應(yīng)對由“非結(jié)構(gòu)化”數(shù)據(jù)帶來的困擾。文獻(xiàn)中的研究對象往往是有選擇性的:一些擁有大量“原生”數(shù)據(jù)尤其是數(shù)值數(shù)據(jù)的政府部門往往是研究典范,如氣象、交通等部門;其他數(shù)據(jù)集則可能因為較易造成混淆而鮮有討論,比如政府預(yù)算究竟屬于信息還是數(shù)據(jù)?
數(shù)據(jù)和信息都是政府管理中的“非物質(zhì)資源”,雖然在日常工作中常常混用,但是一旦涉及制度化就必須明確它們的內(nèi)涵及其關(guān)系。如果說,政府信息公開平臺發(fā)布的就是信息,數(shù)據(jù)開放平臺發(fā)布的就是數(shù)據(jù),顯然顛倒了邏輯關(guān)系。如果說,信息公開側(cè)重于政治權(quán)利,數(shù)據(jù)開放傾向于經(jīng)濟效益,這似乎只是學(xué)術(shù)或政策營銷上有意放大的差別,因為在管理上其實很難區(qū)分政治價值和經(jīng)濟價值的明確界限。如果說,數(shù)據(jù)和信息的本體差別才能詮釋兩者關(guān)系,那么就必須搞清楚究竟哪些屬于政府?dāng)?shù)據(jù),哪些屬于政府信息。由此引申的是數(shù)據(jù)傳播和信息傳播,數(shù)據(jù)平臺和信息平臺在概念和技術(shù)架構(gòu)上的區(qū)別是什么?深究概念的目的不是為了做無謂爭辯,而是在討論政策對象時至少能夠?qū)Α坝懻摰木烤故鞘裁础边_(dá)成共識。
二、 文獻(xiàn)討論
(一)政府?dāng)?shù)據(jù)開放和信息公開關(guān)系的三種視角
第一,政府行政管理的視角。文獻(xiàn)以網(wǎng)絡(luò)平臺為研究對象,將平臺作為區(qū)分?jǐn)?shù)據(jù)和信息的標(biāo)志。這種視角盡管有助于微觀實證研究,但是由于管理體系仍在探索之中,簡單將政策概念和平臺劃上等號不僅顛倒了邏輯關(guān)系,也無助于提供深入的認(rèn)知。
第二,政策目標(biāo)或價值差異的視角。有觀點認(rèn)為,政府信息公開強調(diào)公眾知情權(quán)和政府透明度,公開本身是目標(biāo),主要考慮政治價值;開放數(shù)據(jù)的重心是開發(fā)數(shù)據(jù),更看重經(jīng)濟價值,重視政府和用戶雙方面的價值實現(xiàn)。由于傳統(tǒng)信息公開研究主要是在法學(xué)背景下探討信息資源的權(quán)力分配,數(shù)據(jù)開放則在互聯(lián)網(wǎng)和大數(shù)據(jù)背景下討論數(shù)據(jù)資源的社會化增值,所以這個觀點對理解信息政策和相關(guān)研究范式變遷具有合理性。然而,一方面政策價值取向的差異不能用來證明“讓公眾獲取政府信息以使政府更透明”和“讓公眾獲取數(shù)據(jù)以讓政府?dāng)?shù)據(jù)增值”之間在邏輯和管理機制上存在顯著差別;另一方面既然開放數(shù)據(jù)的支持者也同意,數(shù)據(jù)要轉(zhuǎn)換成信息才能產(chǎn)生經(jīng)濟或政治價值,那么顯然不能簡單斷定政府信息公開不能產(chǎn)生經(jīng)濟價值。強調(diào)價值差異在某種程度上是刻意地將兩者放在不同的技術(shù)、政治和歷史背景下而已。還有人提出“政府信息公開一經(jīng)公布就再無下文”,“數(shù)據(jù)開放是數(shù)據(jù)流動”。這似乎混淆了概念、制度以及制度落實之間的差別。
第三,數(shù)據(jù)和信息關(guān)系的視角。主要存在以下觀點。首先將數(shù)據(jù)視為信息。信息公開學(xué)者認(rèn)為,《政府信息公開條例》對政府信息的定義過于狹窄,導(dǎo)致政府?dāng)?shù)據(jù)作為承載政府履行職能過程中所收集到的原始信息,可能被排除在政府信息定義之外。其次將信息視為數(shù)據(jù)。信息政策專家指出,數(shù)據(jù)是原始的,未經(jīng)加工的,不具有明確意義的,信息是經(jīng)過人為解讀和二次加工的并被賦予意義的數(shù)據(jù)。這種觀點沒有進(jìn)一步界定“原始”、“加工”、“意義”等概念,也就無法給出明晰的邊界。再次,數(shù)據(jù)是信息的載體。情報學(xué)文獻(xiàn)同意信息是數(shù)據(jù),開放數(shù)據(jù)是原生數(shù)據(jù),而數(shù)據(jù)是信息的載體。理論上數(shù)據(jù)與信息具有層次遞進(jìn)關(guān)系,實際使用中信息也可能是數(shù)據(jù)。這種概念“循環(huán)”與其說是理論和實踐間的矛盾,不如說是界定的邏輯本身存在缺陷。最后,技術(shù)決定論。電子政務(wù)專家認(rèn)為,過去的“窄帶”只能提供信息(公開),現(xiàn)在基于寬帶可以開放更多數(shù)據(jù)資源。顯然技術(shù)可行性不能用來說明制度差異,信息公開制度在前互聯(lián)網(wǎng)時代就已經(jīng)存在了。
上述前兩種視角持有特定價值取向,卻無法說明實質(zhì)的差別;第三種視角雖然抓住問題關(guān)鍵,但依然沒有厘清“數(shù)據(jù)”和“信息”之間關(guān)系。究其根源,無論學(xué)術(shù)界和實務(wù)界都從資源管理角度將信息和數(shù)據(jù)看作是以不同形式存在的非物質(zhì)資源,因而各自產(chǎn)生、存儲、傳播和展現(xiàn)——人們能夠“左眼”看信息,“右眼”看數(shù)據(jù)。
(二)對“數(shù)據(jù)開放”政策運動中若干原則的分析
公共管理研究對數(shù)據(jù)和信息的關(guān)注主要始于電子政務(wù)研究。電子政務(wù)的跨學(xué)科特性導(dǎo)致文獻(xiàn)中常常將數(shù)據(jù)和信息作為默認(rèn)概念不做詳細(xì)分析。數(shù)據(jù)開放興起后,國外學(xué)者和國際組織提出的若干觀點成為學(xué)界和政界評判數(shù)據(jù)開放的基本條件。這些條件原本只是界定什么是“好”的數(shù)據(jù)開放,但卻常常被視為數(shù)據(jù)(開放)的基本特征并與信息(公開)相區(qū)分。
這里討論兩組經(jīng)典觀點。第一組是“開放政府工作組”(簡稱OGWG)提出的八項基本條件:完整性、原生性、及時性、可獲取性、可機讀性、非歧視性、非私有性和免于授權(quán)。不難發(fā)現(xiàn),除“原生性”和“可機讀性”外,其余都與數(shù)據(jù)本身性質(zhì)無關(guān),而是資源的權(quán)利分配原則。第二組是“互聯(lián)網(wǎng)之父”伯納思·李的“五星數(shù)據(jù)”,這被認(rèn)為是開放數(shù)據(jù)的重要標(biāo)準(zhǔn):一星級即在互聯(lián)網(wǎng)上可獲取的數(shù)據(jù),二星級即可獲取的結(jié)構(gòu)化、可機讀的數(shù)據(jù),三星級即基于非專有格式的二星級數(shù)據(jù),四星級即符合W3C開放標(biāo)準(zhǔn)的三星級數(shù)據(jù),五星級即在四星級基礎(chǔ)上提供與其他主體(包括政府)的數(shù)據(jù)集產(chǎn)生關(guān)聯(lián)的背景數(shù)據(jù)(即語義)。
第一,可機讀性。OGWG的界定是“結(jié)構(gòu)合理(Reasonably Structured)”且可被自動處理。這個界定除了表明數(shù)據(jù)以電子形式存在外,并沒有給出清晰的內(nèi)涵。首先,所謂“結(jié)構(gòu)合理”是不明確的。OGWG特別指出“自由格式(Free-form)”或者以圖像格式存儲的文本是結(jié)構(gòu)不合理的,也即沒有預(yù)設(shè)結(jié)構(gòu)以實現(xiàn)“自動處理”。比如電話號碼和通訊地址通常是結(jié)構(gòu)化的,政府公文同時具有結(jié)構(gòu)化和非結(jié)構(gòu)化成分,新聞報道則是非結(jié)構(gòu)化的。然而“不合理”是相對的。一方面通過某種預(yù)設(shè)結(jié)構(gòu)將數(shù)據(jù)組合成更大的數(shù)據(jù)(組),自由格式文本作為獨立數(shù)據(jù)項而成為更大數(shù)據(jù)(結(jié)構(gòu))的組成部分便是結(jié)構(gòu)化的;絕大部分的互聯(lián)網(wǎng)資源至少遵循最低程度的元數(shù)據(jù)標(biāo)準(zhǔn)。另一方面,之所以要求“結(jié)構(gòu)合理”是為了方便自動處理,然而后者其實取決于使用目的和采用技術(shù)。比如文本挖掘技術(shù)將自由格式文本作為基礎(chǔ)數(shù)據(jù);數(shù)據(jù)庫中超長文本格式允許任意程度的文本存儲在特定數(shù)據(jù)記錄中。因此有學(xué)者指出,開放數(shù)據(jù)的類型包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),但是這導(dǎo)致“結(jié)構(gòu)”對于辨析數(shù)據(jù)(開放)和信息(公開)失去了實際意義。其次,所謂“自動處理”是狹隘的?!白詣印钡闹黧w顯然是指計算機,這是“可機讀”的本義,即“可被計算機自動抓取和處理”。然而除非設(shè)置特定訪問權(quán)限,互聯(lián)網(wǎng)數(shù)據(jù)資源只要能夠在客戶端被訪問就能夠被“抓取”,能否自動處理取決于用戶是否擁有技術(shù),而非數(shù)據(jù)。隨著技術(shù)發(fā)展,大部分在線資源,包括文本、圖片、錄音錄像等都可轉(zhuǎn)化為可編輯格式,除非數(shù)據(jù)中包含過強的“噪音”——這可能是唯一影響“自動處理”的因素,但是除非有特定權(quán)限要求,通過“降噪”來提高質(zhì)量適用于所有網(wǎng)絡(luò)資源??傊?,“可機讀性”不能作為數(shù)據(jù)(開放)的特征,而是關(guān)于如何(更好地)在線發(fā)布政府資源的技術(shù)特征。
第二,原生性。OGWG的界定是數(shù)據(jù)必須從源頭采集并擁有最高的粒度,不是聚合或修改的形式。上文介紹國內(nèi)學(xué)者也認(rèn)為“原生性”即“一手性”;信息是被加工處理的數(shù)據(jù)。然而問題在于,首先,如果說原生性只是“好”數(shù)據(jù)開放的原則,那么公開(開放)的除了原生數(shù)據(jù)和信息外,是否還有非原生數(shù)據(jù)?如果說信息是對數(shù)據(jù)加工的產(chǎn)物,那么信息是否即非原生數(shù)據(jù)?只要不是原生數(shù)據(jù)是否就屬于信息公開?很難回答GDP、CPI等對經(jīng)濟現(xiàn)象進(jìn)行計算的產(chǎn)物,或者電子商務(wù)交易數(shù)據(jù)衍生的用戶偏好是數(shù)據(jù)或信息。如果信息不是非原生數(shù)據(jù),那么兩者區(qū)別是什么?無論是結(jié)構(gòu)化標(biāo)準(zhǔn)還是其載體形式,比如數(shù)字、文本、圖像、音視頻等都無法做出區(qū)分。其次,信息也可以有原生性。一方面,數(shù)據(jù)未必經(jīng)過加工才能提供信息。比如,“×”是一個圖形數(shù)據(jù),和試題放在一起傳遞了答題錯誤的信息,但是“×”未做改變;照片數(shù)據(jù)可以傳遞出時空信息;雞蛋價格數(shù)據(jù)可以反映市場信息。另一方面,信息也可能直接“從源頭采集”?!皬脑搭^采集”即利用數(shù)字、文字、圖像、音頻、視頻等對自然或社會信號(現(xiàn)象、事件等)進(jìn)行觀察或調(diào)查所做的記錄,得到諸如空間數(shù)據(jù)、經(jīng)濟數(shù)據(jù)等,但也可以得到信息,比如電視現(xiàn)場采訪產(chǎn)生的新聞是數(shù)據(jù)還是信息?第三個方面是信息也可以來源于對已有“信息”的再加工,比如研究論文或報告基于前人已經(jīng)完成的研究基礎(chǔ)。再次,對“加工”也需要更清晰的定義。即便不考慮信息可以從數(shù)據(jù)加工之外的途徑獲得,如果說加工數(shù)據(jù)既可能獲得數(shù)據(jù),也可能產(chǎn)生信息,那么就必須對“加工”做出辨析。至少存在兩種形式。第一是數(shù)學(xué)計算,只適用于數(shù)值型數(shù)據(jù)。按照OGWG定義,所有經(jīng)過運算的結(jié)果都非原生,然而數(shù)值結(jié)果顯然仍是所謂數(shù)據(jù)。第二是資料編輯,適用于文本、圖像、音視頻等類型,這又有兩條路徑:一是通過加工變得結(jié)構(gòu)化,結(jié)果類似于數(shù)據(jù),但如前所述,結(jié)構(gòu)化本身不能區(qū)分?jǐn)?shù)據(jù)和信息;二則相反,最復(fù)雜情況是文本編輯,既包括基于某種直觀邏輯的資料整合(比如紀(jì)實新聞可以按照時間順序羅列資料),也包括基于理論模式的分析(比如政策解讀是綜合理論和實踐知識進(jìn)行思考的產(chǎn)物),還包括基于調(diào)查后發(fā)揮創(chuàng)造力提出的解決方案(比如政策建議)等。如果說前兩者在某種程度上仍可視為加工的產(chǎn)物,那么原創(chuàng)性的解決方案是否也可以具有“原生性”特征?
第三,“五星”標(biāo)準(zhǔn)。如伯納思·李所說,五星標(biāo)準(zhǔn)針對“關(guān)聯(lián)數(shù)據(jù)(Linked Data)”而非“開放數(shù)據(jù)”。他指出,即使是五星級“關(guān)聯(lián)數(shù)據(jù)”也不一定是“開放數(shù)據(jù)”。雖然他受邀參與英國“開放政府?dāng)?shù)據(jù)網(wǎng)站”的建設(shè),但是作為互聯(lián)網(wǎng)之父,他顯然是在技術(shù)框架下討論的,沒有刻意區(qū)分信息和數(shù)據(jù)。他更關(guān)心如何讓互聯(lián)網(wǎng)上沉淀的數(shù)據(jù)通過互操作產(chǎn)生更大價值。對“四星級”的定義做出了明確闡述:數(shù)據(jù)應(yīng)當(dāng)遵循“資源描述框架(RDF)”,并使用“統(tǒng)一資源標(biāo)識(URI)”作為資源名稱。對此的通俗解釋是,應(yīng)當(dāng)建立一套統(tǒng)一標(biāo)準(zhǔn)來組織互聯(lián)網(wǎng)數(shù)據(jù)資源,讓數(shù)據(jù)遵循同樣的“語法”而實現(xiàn)互相“溝通”和快速檢索。在伯納思眼里,無論是一篇新聞報道,數(shù)字記錄或博客,無論采用什么格式,無論是否結(jié)構(gòu)化,無論是否開放,都是互聯(lián)網(wǎng)數(shù)據(jù)資源。事實上,“開放數(shù)據(jù)”在IT界的歷史遠(yuǎn)早于政府。“開放數(shù)據(jù)”是與“開(放)源代碼(Open Source)”相對應(yīng)的,而“開放政府”被認(rèn)為部分借鑒了“開源”運動的理念和方法?!伴_源”運動起源于“自由軟件(Free Software)”運動,后者興起于上世紀(jì)80年代初。開源促使將越來越多數(shù)據(jù)發(fā)布到網(wǎng)上,并提倡“自由使用數(shù)據(jù)、自由研究數(shù)據(jù)并依據(jù)自己的需要修改它”?!伴_放政府”三大特征,即透明性、參與性、合作性,恰是開源軟件所提倡的,而美國也曾提出開放其數(shù)據(jù)開放平臺的源代碼。
(三)英、美兩國政策中的定義
美國《信息自由法》于1967年獲得通過,迄今有近50年歷史;政府?dāng)?shù)據(jù)開放政策始于2009年奧巴馬總統(tǒng)發(fā)布的主題為“透明與開放政府”(Transparency and Open Government)的備忘錄,要求由政府首席技術(shù)官(CIO)牽頭,和管理與預(yù)算辦公室(OMB)、總務(wù)署(AGS)一同協(xié)調(diào)其他部門根據(jù)《信息自由法》制定《開放政府指令》(OGD)。2000年,OMB修訂《行政通告第A-130號》(?OMB Circular A-130),全面闡述了美國聯(lián)邦政府信息資源管理政策,其中將“信息”定義為“對在文本、數(shù)字、圖形、制圖、敘述或視聽等任何媒介或格式中的事實(Facts)、數(shù)據(jù)或觀點(Opinions)等知識的任何溝通(Communication)和陳述(Representation)”。這里“信息”既不是數(shù)據(jù)也不是知識,而是建立在數(shù)據(jù)基礎(chǔ)上傳遞知識的產(chǎn)物。2005年,美國政府發(fā)布《數(shù)據(jù)參考模型第二版》(The Data Reference Model Version 2.0),特別提到“數(shù)據(jù)”是“一個或一組反映一個或一些特定概念的值”,“如果對某個數(shù)據(jù)(或與其他數(shù)據(jù)聯(lián)合起來)進(jìn)行分析并從中獲取其含義和提供語境,就能形成信息”。2009年,《開放政府指令》(OGD)規(guī)定行政部門分四步實現(xiàn)開放政府使命,其中第一步“在線開放政府信息”中指出,為促進(jìn)公眾知情參與以及創(chuàng)造經(jīng)濟機會,所有機構(gòu)必須按照“開放格式(Open Formats)”開放格式即支持檢索、下載、索引以及商業(yè)搜索引擎的查找,并符合平臺獨立、可機讀的和可復(fù)用。在線主動提供信息,包括在政府?dāng)?shù)據(jù)網(wǎng)(Data.gov)發(fā)布高質(zhì)量數(shù)據(jù)集。2012年,美國政府發(fā)布《數(shù)字政府:構(gòu)建更好服務(wù)美國人民的21世紀(jì)平臺》(Digital Government: Building a 21st Century Platform to Better Serve the American People)報告,其中“數(shù)字政府”模型中的信息層被分為數(shù)據(jù)(即結(jié)構(gòu)化信息)和內(nèi)容(即非結(jié)構(gòu)化信息)兩方面。2013年,主題為“開放數(shù)據(jù)政策——管理信息資產(chǎn)”(Open Data Policy-Managing Information as an Asset)的OMB備忘錄指出,非結(jié)構(gòu)化信息(即內(nèi)容),比如新聞稿和事實性表格(fact sheets)等,也可轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),比如基于網(wǎng)頁的事實表格可以分解成標(biāo)題、正文、圖片和相關(guān)鏈接等數(shù)據(jù)片段。
盡管直到2000年才通過《信息自由法》且2005年才正式生效,英國政府在開放政府?dāng)?shù)據(jù)運動中十分積極。2014年,英國政府出版的《關(guān)于公共部門信息的英國政府許可框架》(UK Government Licensing Framework for Public Sector Information)“對許可使用和復(fù)用公共部門信息做出政策和法律上的安排”,并承諾在“版權(quán)”和“數(shù)據(jù)庫權(quán)(Database Right)”前提下對社會開放公共部門信息,其意義包括促進(jìn)創(chuàng)新互動以提高社會和經(jīng)濟效益,增加工作機會等。其中“信息”在形式上包括數(shù)據(jù)、公共部門網(wǎng)站上的文本、年度報告、統(tǒng)計、圖表、圖形、圖像和軟件等,在范圍上則從空間和氣候數(shù)據(jù)、健康和犯罪記錄到各種照片,還包括由公共部門開發(fā)的開源軟件和代碼。2012年,英國政府頒布《自由保護法》(Protection of Freedoms Act),其中第102條修訂了《信息自由法》,規(guī)定當(dāng)申請者向政府部門申請的信息是該部門擁有的“數(shù)據(jù)集”時,只要合理可行,該部門應(yīng)提供這些信息的電子版本。所謂“數(shù)據(jù)集”即以電子形式存在的包含“事實(factual)信息”的“信息集合(collection)”;而所謂“事實信息”不包括經(jīng)過“分析(Analysis)”或“解讀(Interpretation) ”的產(chǎn)品(數(shù)學(xué)計算除外),也不包括官方統(tǒng)計,而是仍然處于未被組織和調(diào)整或尚未在物理上發(fā)生改變的狀態(tài)。2012年《開放數(shù)據(jù)白皮書:釋放潛能》(Open Data White Paper: Unleashing the Potential)中定義數(shù)據(jù)是“被假定為事實的定性或定量的陳述或數(shù)字,但不是分析和解讀的產(chǎn)物”,信息是“對數(shù)據(jù)進(jìn)行總結(jié)、解讀或陳述以獲取(其中)含義的過程的產(chǎn)物”。
綜上所述,美、英政府?dāng)?shù)據(jù)開放政策是在《信息自由法》的法律框架下制定的?!缎畔⒆杂煞ā吩诹⒎▽用?,開放數(shù)據(jù)則在行政層面,是《信息自由法》在行政上的延伸,數(shù)據(jù)集的開放無論從法律還是形式上都是信息公開(自由)的一部分。數(shù)據(jù)或信息開放(公開)的目的都包含政治訴求(公眾知情權(quán))和經(jīng)濟利益。同時開放性、可機讀性等不僅是開放數(shù)據(jù),也是現(xiàn)有技術(shù)條件下實現(xiàn)信息公開(自由)的基本要求。在基本概念上,美國將信息分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化內(nèi)容,英國將所有對事實的定量或定性陳述或數(shù)字都視為數(shù)據(jù)。雖然兩者存在差別,但都認(rèn)為信息是對數(shù)據(jù)分析和解讀的產(chǎn)物。不過所謂分析和解讀依然模糊。比如,對于一篇完全白描事實的新聞報道,一篇對該新聞的分析以及一篇上述事實和分析的合集,應(yīng)當(dāng)如何歸類呢?
三、 對數(shù)據(jù)和信息概念與關(guān)系的理論重構(gòu)
(一)概念重構(gòu)
綜合上述討論,辨析信息公開和數(shù)據(jù)開放的關(guān)鍵在于信息和數(shù)據(jù)的關(guān)系,這要求對信息和數(shù)據(jù)給出嚴(yán)格定義。對此,一則不能陷入概念“循環(huán)”,二則應(yīng)與技術(shù)、權(quán)利、結(jié)構(gòu)、政策目標(biāo)等無關(guān),三則應(yīng)當(dāng)適用于所有資源類型或格式。
本研究認(rèn)為,數(shù)據(jù)是按照一定的形式規(guī)則和意義規(guī)則對若干符號進(jìn)行排列組合并且反映另一事物屬性的產(chǎn)物或呈現(xiàn)物;信息是數(shù)據(jù)載荷或記錄另一事物屬性的內(nèi)容或意義,符號是數(shù)據(jù)呈現(xiàn)的形式,兩者分別構(gòu)成數(shù)據(jù)的信息屬性和物質(zhì)屬性;數(shù)據(jù)可以在不同符號體系之間轉(zhuǎn)換,從而使信息得以傳播。詳細(xì)討論將另文再述,這里僅指出,要理解數(shù)據(jù)和信息的本質(zhì),關(guān)鍵是處理好數(shù)據(jù)、信息、符號以及事物之間的關(guān)系。
第一,數(shù)據(jù)不是符號,而是符號排列的產(chǎn)物或呈現(xiàn)物。現(xiàn)有對數(shù)據(jù)的定義很多,可參見有關(guān)文獻(xiàn)。馬費成的定義較有代表性,即數(shù)據(jù)是“載荷或記錄信息的按照一定規(guī)則排列組合的物理符號”。這個定義明確指出了數(shù)據(jù)與符號之間存在必然聯(lián)系,而且符號具有物理性或物質(zhì)性。符號可能是自然物,更多是人工設(shè)計產(chǎn)物,比如數(shù)字、文字、語音、圖像、圖示等。但是應(yīng)當(dāng)注意,符號和符號排列的產(chǎn)物是不同的概念,如果認(rèn)為符號本身載荷了信息,那就不需要數(shù)據(jù)了。因此準(zhǔn)確的說,數(shù)據(jù)是符號排列的產(chǎn)物或呈現(xiàn)物,符號及其排列是人類用來記錄數(shù)據(jù)的工具,賦予數(shù)據(jù)以形式,而非數(shù)據(jù)本身。同一數(shù)據(jù)可以用不同的符號(及其排列)體系記錄或呈現(xiàn),并在這些符號體系之間轉(zhuǎn)移。比如用阿拉伯?dāng)?shù)字和中文數(shù)字記錄的2015年中國GDP是同一數(shù)據(jù)。同時,任何符號體系都有其特定形式規(guī)則,是為記錄數(shù)據(jù)而對其形式做出的規(guī)定。比如,阿拉伯?dāng)?shù)字都由10個一位數(shù)字組成;二進(jìn)制數(shù)據(jù)不存在3、4,十六進(jìn)制數(shù)據(jù)則包括A、B等。
第二,信息不是數(shù)據(jù),而是數(shù)據(jù)載荷或記錄事物屬性的內(nèi)容或意義。對信息的定義更加多樣。情報學(xué)早已指出,信息是數(shù)據(jù)、消息、情報或信號等載體中“載荷”或“記錄”的內(nèi)容和含義等,明確揭示了信息和數(shù)據(jù)是內(nèi)容和載體的關(guān)系。比如,GDP數(shù)據(jù)載荷了經(jīng)濟總量信息;人物照片載荷了人物外形信息;政策文件載荷了政府做什么或者不做什么的信息。信息科學(xué)或信息哲學(xué)則將“載體”推至所有事物。鐘義信的“信息是事物運動的狀態(tài)和狀態(tài)變化方式的自我表述/自我顯示”,倪鵬云的“信息是以一事物屬性為形式所反映的另一事物的屬性內(nèi)容”等都試圖在本體上定義信息。這些觀點揭示了數(shù)據(jù)所載荷內(nèi)容的實質(zhì),即另一事物的屬性。事物可能具有名稱、數(shù)量、質(zhì)量、體積、形狀、結(jié)構(gòu)、過程、關(guān)系等屬性。所謂“另一事物”是相對于數(shù)據(jù)(符號)“這一事物”而言的。要注意,數(shù)據(jù)記錄事物屬性應(yīng)遵循一定的意義規(guī)則,后者決定數(shù)據(jù)蘊含什么樣的信息。符號本身沒有意義,只有人們?yōu)槌尸F(xiàn)數(shù)據(jù)而使用符號時賦予其意義后才具有意義,因此所謂“意義規(guī)則”與符號無關(guān),而是數(shù)據(jù)之所以為數(shù)據(jù)的規(guī)則。
第三,信息和符號分別構(gòu)成數(shù)據(jù)的信息屬性和物質(zhì)(形式)屬性,信息借助于數(shù)據(jù)物質(zhì)屬性的變化實現(xiàn)傳播。信息沒有形式,符號沒有意義,它們共同構(gòu)成數(shù)據(jù),是數(shù)據(jù)的不同屬性。正如控制論的創(chuàng)始人維納所提出的,信息就是信息,不是物質(zhì)也不是能量,物質(zhì)、能量和信息是構(gòu)成客觀世界的三大要素。由此如果說符號是物質(zhì)的,那么依附于特定符號的數(shù)據(jù)也是物質(zhì)的,符號是數(shù)據(jù)的物質(zhì)(形式)屬性。同時,數(shù)據(jù)所載荷的意義是數(shù)據(jù)的信息屬性,是指向或者反映另一種事物的屬性。進(jìn)一步的,正是由于信息是數(shù)據(jù)的屬性,信息隨著數(shù)據(jù)在(物質(zhì))符號之間的轉(zhuǎn)換而實現(xiàn)傳播。那些認(rèn)為信息仍然是一種數(shù)據(jù)的觀點,潛在地為信息賦予了符號形式;一旦如此就不得不做出哪些形式是數(shù)據(jù),哪些是信息的模糊判斷;而且由于符號本身具有物質(zhì)性,這樣信息也就變成物質(zhì)了。
(二)數(shù)據(jù)開放與信息公開的關(guān)系重構(gòu)
第一,在不否認(rèn)理論淵源上的信息公開更強調(diào)知情權(quán),數(shù)據(jù)開放政策更側(cè)重資源利用的前提下,所有公開(開放)的都是數(shù)據(jù)。按照上述定義,無論信息公開還是數(shù)據(jù)開放,政府對外發(fā)布(公開或開放)的都是“數(shù)據(jù)”資源,而信息是數(shù)據(jù)資源中蘊含的內(nèi)容或意義。所謂“知情”即從數(shù)據(jù)中獲取信息的過程。因此,人們可以獲得同樣的數(shù)據(jù),但不一定獲得相同信息。能否獲取以及獲得多少信息,取決于需求方或觀察者的目標(biāo)與信息分析的能力。
第二,無論社會主體是在信息公開體系下,還是在數(shù)據(jù)開放體系下獲取數(shù)據(jù)、分析信息,其價值目標(biāo)都是為獲取或維護某種私人或者公共的利益??桃庥谜蝺r值和經(jīng)濟價值區(qū)分兩者,無論在理論邏輯還是在政策實踐中都不可行。理論上獲取信息是為了從不確定性中盡可能降低風(fēng)險。在信息公開案例中,信息申請的目的常常是為了維護經(jīng)濟權(quán)益;數(shù)據(jù)開放本身是“開放政府”這場政治運動的產(chǎn)物,相對于利用開放數(shù)據(jù)的創(chuàng)業(yè)者,對于大部分社會公眾而言更具有政治意義。
第三,數(shù)據(jù)開放是信息公開在大數(shù)據(jù)時代的新的發(fā)展階段。在互聯(lián)網(wǎng)出現(xiàn)之前或者窄帶時期,政府部門電子化數(shù)據(jù)積累少,無法提供大規(guī)模數(shù)據(jù)下載,只能主動發(fā)布有限的文本數(shù)據(jù)和統(tǒng)計數(shù)據(jù),更多需要公眾依申請公開。隨著技術(shù)進(jìn)步,尤其是互聯(lián)網(wǎng)寬帶普及和電子化數(shù)據(jù)大規(guī)模積累形成后,為社會公眾提供大規(guī)模政府?dāng)?shù)據(jù)資源便有了可行性。
第四,數(shù)據(jù)開放范圍不限于“原生”數(shù)據(jù),而是政府?dāng)?shù)據(jù)(或信息)資源。雖然應(yīng)鼓勵政府盡可能開放“原生”數(shù)據(jù),但是開放數(shù)據(jù)應(yīng)基于信息公開的基本原則,要求開放政府各類數(shù)據(jù)(信息)資源,其中既包括“原生”數(shù)據(jù),也包括經(jīng)過“加工”后的數(shù)據(jù)資源。目前各國和地區(qū)政府已經(jīng)開放的數(shù)據(jù)中許多都不是原生數(shù)據(jù)。
四、 對政策的進(jìn)一步討論
第一,在技術(shù)層面劃分?jǐn)?shù)據(jù)和信息的邊界。首先,按照本文觀點這是一個偽命題,因為兩者不在同一層面,不存在邊界問題,因此政策上應(yīng)將數(shù)據(jù)開放和信息公開進(jìn)行融合,提供統(tǒng)一的數(shù)據(jù)資源服務(wù)。當(dāng)然這個思路必然對現(xiàn)有政策實踐形成巨大挑戰(zhàn)。其次,在保證政策邏輯基本自洽的前提下可以適當(dāng)放松本文的界定。如果同意數(shù)據(jù)既包括結(jié)構(gòu)化,也包括非結(jié)構(gòu)化,那么除數(shù)值型外,圖片(尤其是照片、地圖、規(guī)劃圖等)、音頻、視頻等非結(jié)構(gòu)化資源也經(jīng)由特定設(shè)備直接采集,可納入數(shù)據(jù)范疇;文本資源中,無論短文本(諸如姓名等)或長文本(比如政策條文、新聞等),基于特定“元數(shù)據(jù)”標(biāo)準(zhǔn)后也可以實現(xiàn)結(jié)構(gòu)化。按照英、美兩國政策,法規(guī)、政策、決定、命令等雖然或多或少地依賴于某種分析過程,但是本身不是分析(過程)而是具有原創(chuàng)性的決定、規(guī)則或分析結(jié)果,也應(yīng)劃入數(shù)據(jù)范疇;其他展現(xiàn)分析、解讀等加工過程的文本才可納入信息范疇。
第二,在政策層面構(gòu)建統(tǒng)一的政府?dāng)?shù)據(jù)資源管理體系。政府信息公開和數(shù)據(jù)開放都是政府?dāng)?shù)據(jù)(信息)資源管理政策的組成部分。任何政策的形成都有其特定技術(shù)基礎(chǔ)、社會需求、政治發(fā)展等條件,因此形成各自不同的政策體系、行政機制、利益相關(guān)者等,或稱之為政策子系統(tǒng)。按照政策科學(xué)理論,政策子系統(tǒng)中擁有相同的政策信念,并通過共同行動促進(jìn)實現(xiàn)某種共享的價值目標(biāo);信念和價值目標(biāo)決定了子系統(tǒng)的差別。信息公開和數(shù)據(jù)開放是在不同政策子系統(tǒng)的推動下發(fā)展的,雖然相互聯(lián)系密切,但是按照不同路徑倡導(dǎo)各自的政策創(chuàng)新。由于我國在政府信息資源管理方面缺少系統(tǒng)規(guī)劃,政策子系統(tǒng)的活動加固了管理體系的分散狀態(tài)。這種分散管理模式能夠滿足過去的治理需求,隨著信息技術(shù)的快速發(fā)展,政府如何因時而動,利用自身龐大的信息資源提供更有效的治理和服務(wù)就成為公共管理中的重要課題。無論是數(shù)據(jù)開放、信息公開,還是電子政務(wù)、智慧城市等,信息資源管理必然涉及所有行政部門,因此需要能夠綜合協(xié)調(diào)所有行政部門的部門來統(tǒng)管。應(yīng)當(dāng)注意到,與發(fā)改、財務(wù)、人力等綜合部門職能側(cè)重于資源分配所不同,信息或數(shù)據(jù)綜合管理部門需要實現(xiàn)資源集中和再分配,因此信息或數(shù)據(jù)資源的統(tǒng)籌管理需要更加強有力的行政秩序。由此,本文內(nèi)容不僅是概念上的辨析,也為信息或數(shù)據(jù)資源在政府行政管理上的統(tǒng)籌提供理論基礎(chǔ)。