本講座選自復旦大學數(shù)字與移動治理實驗室主任、國際關(guān)系與公共事務學院副教授、院長助理鄭磊于2015年11月29日在 RONG 系列論壇之六——大數(shù)據(jù)與政府治理研討會上所做的題為《開放數(shù)據(jù)的價值與進展》的演講。
首先非常感謝清華大學的邀請,從去年4月第一次來清華做開放數(shù)據(jù)講座到現(xiàn)在已經(jīng)是第四次到清華講開放數(shù)據(jù)了。每次都有壓力,一方面,既要講新東西,準備新的干貨,另一方面,每次又有新的人,有一些基本的東西看來還要講第四遍了。
我首先把基本概念先講一下,然后重點將開放數(shù)據(jù)的實踐,尤其是上海剛舉辦的SODA大賽,整個組織過程我都在參與,可以介紹一下這方面的情況。
首先看看開放數(shù)據(jù)是什么?現(xiàn)在在理論界和實踐界,還沒有完全說清楚“政府信息公開”、“開放政府數(shù)據(jù)”、“信息共享”等概念之間的差別。今天我重點講一下政府開放數(shù)據(jù)和政府信息公開的差別。
第一個最大的差別是開放數(shù)據(jù)要把數(shù)據(jù)開放到底層的、原始的數(shù)據(jù),而傳統(tǒng)的政府信息公開是公開經(jīng)過加工和分析的信息,甚至是一些文件。
第二個區(qū)別是政府信息公開最主要的目的是保證公眾的知情權(quán),更多是政治和行政上的責任,要讓公眾知道政府在做什么,然后參與和監(jiān)督;而開放數(shù)據(jù)的主要原因是由于政府在履行行政職責的過程中采集了大量的數(shù)據(jù),這些數(shù)據(jù)原來只放在政府自己的后臺,現(xiàn)在這些數(shù)據(jù)要不僅政府自己用,也要開放給社會來開發(fā)利用,推動大數(shù)據(jù)時代的到來。所以開放政府數(shù)據(jù)更多是要保障公眾對政府數(shù)據(jù)的利用。
下面舉幾個例子,美國最早通過《信息自由法》來推動信息公開,第一張USAspeding.gov是關(guān)于財政數(shù)據(jù)的公開,第二張recovery.gov是美國金融危機后七千億美元救市計劃的公開,你可以看到加州和紐約州投的錢比較多,點開地圖上的每一個點,會告訴你這個地方多少錢,給到哪些機構(gòu),已經(jīng)花了多少錢,創(chuàng)造了多少工作機會等等。
下面這個是關(guān)于空氣質(zhì)量數(shù)據(jù)的公開,你可以看到全美實時的空氣質(zhì)量情況,綠色的空氣質(zhì)量比較好,黃色的有一點問題,紅色的就是有毒了。中國近些年北京上海也開展了類似的環(huán)境信息公開工作。
但是,以上所舉的這些例子都不叫政府開放數(shù)據(jù),這些叫政府信息公開。因為在這些網(wǎng)站上并不能下載數(shù)據(jù)集進行深度的挖掘利用。在這些網(wǎng)站上只能看到和知道數(shù)據(jù),只能這樣一條一條地查詢,但不能把這些數(shù)據(jù)集拿走。所以這些網(wǎng)站還是在信息公開的層面,提供的是信息查詢服務,還不是政府數(shù)據(jù)開放。
上面是DATA.GOV,有美國聯(lián)邦政府十幾萬個數(shù)據(jù)集可以下載,這樣才是開放數(shù)據(jù)。還有英國的DATA.GOV.U也是,我們這周五還跟他們交流過經(jīng)驗。
在這張表上,橫向是從知情到利用,縱向是從信息層到數(shù)據(jù)層。開放政府數(shù)據(jù)在右上角,要開放到數(shù)據(jù)層,并且保證社會對數(shù)據(jù)的利用。政府信息公開是為了保障知情權(quán),開放的是信息層。一些政府網(wǎng)站上也發(fā)布了一些數(shù)據(jù),但這就像政府在大門上貼出一張告示,說這就是政府的數(shù)據(jù)分析結(jié)果,而政府數(shù)據(jù)開放是政府打開一個門,說這里面的數(shù)據(jù),你們可以拿去用。過去還提過政府信息資源再利用,這和開放數(shù)據(jù)的差別是數(shù)據(jù)資源只給自己指定的公司用,但這可能涉及到數(shù)據(jù)資源權(quán)利尋租的問題。開放數(shù)據(jù)應該是如果你把數(shù)據(jù)給了A,就也可以給B,只要B也滿足了基本條件。
真正的開放數(shù)據(jù)要滿足以上這些標準。數(shù)據(jù)是完整的、原始的、一手的、及時的,可獲取的,有一個平臺可以讓我下載,而不是我私下里找你要,例如DATA.GOV這樣的平臺。開放數(shù)據(jù)是非歧視、非私有的,產(chǎn)權(quán)上來說這些數(shù)據(jù)屬于公共資源,并不屬于某個政府部門,而是屬于社會的公共資源。免授權(quán),獲取過程中不再需要填一系列表格協(xié)議,就可以到網(wǎng)上下載,美國政府開放的數(shù)據(jù)我們中國人也可以去下載。
在跟英國開放數(shù)據(jù)研究院的交流中他們也提到,開放與封閉數(shù)據(jù)并不是非一即零的關(guān)系,中間有一個過渡階段,從完全封閉到完全開放中間有一個過渡階段,有些是有限度的開放,有一些是授權(quán)的開放。
為什么要開放數(shù)據(jù)?我們現(xiàn)在都在說數(shù)據(jù)是石油、是金礦。我們把數(shù)據(jù)比作一種底層的資源,他是原始素材,開放給社會以后,社會對這些數(shù)據(jù)進一步地挖掘、利用、開發(fā),產(chǎn)生各種應用或者是提供決策支持,創(chuàng)造出商業(yè)價值和社會價值。就好比把底層的米開放以后,可以做成各種各樣的飯,加工做飯的過程由社會和市場來完成,用的是他們自己的錢,來滿足各種各樣的需求。過去是數(shù)據(jù)層和應用開發(fā)層都由政府來完成,就是政府的數(shù)據(jù),由政府自己來開發(fā)成一個個應用。但是如果這些數(shù)據(jù)不涉及到機密的話,政府為什么要自己來開發(fā)?開發(fā)出來的產(chǎn)品用戶體驗能比市場開發(fā)的更好嗎?能滿足各種精細化的需求嗎?眾口難調(diào)的問題怎么解決?再接下來,有足夠的錢來推廣嗎?政府的人力財力精力可以做出一個極致化的應用嗎?過去都是自己辛苦開發(fā),做出來了老百姓還不滿意,吃力不討好,那不如把數(shù)據(jù)開放出來,讓市場和社會來開發(fā)。
這樣一來,政府的治理模式就發(fā)生變化了,過去都是自己做,現(xiàn)在是政府開放數(shù)據(jù),社會開發(fā)利用數(shù)據(jù),兩者形成一個開放式的、合作共創(chuàng)的模式,這也是創(chuàng)新2.0的思維。所以,總結(jié)起來可以說,開放數(shù)據(jù)能助力經(jīng)濟增長,走向創(chuàng)新驅(qū)動,提升公共服務,推動大眾創(chuàng)業(yè)。
2013年美國GIQ期刊的主編馬里蘭大學的教授Bertot就說:“大數(shù)據(jù)建立在開放數(shù)據(jù)的基礎上”,不然一個個都是信息孤島、數(shù)據(jù)孤島,怎么可能帶來大數(shù)據(jù)時代?在這種情況下,政府先把自己的數(shù)據(jù)開放出來,可以引領(lǐng)大數(shù)據(jù)時代的到來。
那么開放數(shù)據(jù)難在哪里?第一,數(shù)據(jù)在哪里?有些政府部門對自己有什么樣的數(shù)據(jù)資源并不完全了解,所以先要把清單整理出來。有時候你問他要數(shù)據(jù),他說我沒有,其實他是不知道他有,因為每個部門都是一條線,這個條線不知道哪條線有什么數(shù)據(jù)。
第二,能不能開放?涉及到國家安全和隱私就不能開放,但是中間有很多模糊地帶,不容易判定。
第三,愿不愿意開放?可能出于部門利益不愿意開放,或者是有些政府部門認為這些數(shù)據(jù)非常專業(yè),拿出去以后他們看得懂嗎?他們會用嗎?他們有興趣嗎?有這種想法。
第四,數(shù)據(jù)好不好?數(shù)據(jù)質(zhì)量有沒有問題?數(shù)據(jù)的清洗、脫敏等等。
第五,有沒有這個能力開放數(shù)據(jù)?開放數(shù)據(jù)對政府部門來說是一個新的挑戰(zhàn),過去沒有做過這樣的經(jīng)驗。哪個部門管?有沒有編制?有沒有人?有沒有這樣的技能?所以體制機制和能力建設都要跟上。
開放數(shù)據(jù)就是一種服務,是有風險的,一旦沒有做好,數(shù)據(jù)出現(xiàn)質(zhì)量問題,被用錯了,還會涉及到責任,搞不好他們回過頭來告政府。這樣政府部門就會覺得不做不錯,多做多錯,少做少錯。反正沒有說一定要開放,那我就觀望,先看看別的地方怎么做。
我國開放數(shù)據(jù)的現(xiàn)狀如何?北京和上海在2012年推出平臺。今年我們選了七個有代表性的地方做了一個評估??纯撮_放數(shù)據(jù)到底做得怎么樣,這些數(shù)據(jù)我們都已經(jīng)發(fā)表過了,今天就只簡單說一下。
評估包括數(shù)據(jù)層和平臺層。各地平均公開了278個數(shù)據(jù)集。數(shù)據(jù)總量上看武漢是全國第一,但是武漢可機讀的數(shù)據(jù)只有一半,另外一半基本是PDF格式,不利于社會對數(shù)據(jù)的利用,不是真正的數(shù)據(jù)開放。
開放的數(shù)據(jù)中86.25%是靜態(tài)數(shù)據(jù),甚至沒有按照自己的承諾更新,只有17.21%按承諾在更新。只有無錫、海曙明確保障數(shù)據(jù)的永久免費,沒有“現(xiàn)階段”字眼。沒有一個地方明確賦予對數(shù)據(jù)進行增值利用和分享的權(quán)力。在數(shù)據(jù)下載過程中也遇到一些壁壘,能不能在平臺上提出數(shù)據(jù)請求,就是我需要什么數(shù)據(jù),還能讓別人也看見。目前只有寧波海曙的數(shù)據(jù)請求是完全開放的。
平臺層整體來說交互便捷性還比較差,缺乏高質(zhì)量數(shù)據(jù)應用展示,溝通交流缺乏便捷性。


上海數(shù)據(jù)開放的整體思路是未來三年以正面清單的模式,要求各部門按照清單開放數(shù)據(jù),既有數(shù)量要求、又有質(zhì)量要求,還有格式要求。三年后,則采用負面清單的思維。除了明確不能開放的,其他都要開放。
然而,開放政府數(shù)據(jù)本身不會直接產(chǎn)生價值,只有政府開放了數(shù)據(jù)并被社會充分地利用,才會產(chǎn)生價值。所以政府數(shù)據(jù)開放出來之后,政府還需要做很多事情,來推動社會利用這些數(shù)據(jù),生怕他們利用不充分。所以就搞了很多大賽。紐約搞了一個大賽叫Big APPs。
今年上海經(jīng)信委協(xié)調(diào)交通委,一共開放了1TB的數(shù)據(jù),也組織了一個大賽,名稱很好玩,叫SODA大賽。當我們把Shanghai Open Data Apps這幾個詞的首字母放在一起的時候,正好就是SODA,就是蘇打水的意思。這正符合開放數(shù)據(jù)的理念。政府的數(shù)據(jù)就像封在瓶子里的蘇打水,關(guān)著瓶蓋的時候看上去悄無聲息,但只要你把瓶子一打開,嘭的一聲,數(shù)據(jù)的能量就迸發(fā)出來了。這個瓶子的logo是我當天晚上畫了一個構(gòu)思草圖發(fā)到組委會的群里面,后來專業(yè)的設計師給畫出來了。在SODA百強派對的時候,真的找來一個大瓶的香檳酒,上面寫著SODA,嘭的一聲把瓶子打開,意思就是數(shù)據(jù)開放了。

最后來參賽的隊伍的數(shù)量超出組織方自己的想象,主辦方開始預計有兩百個團隊就不錯了,到方案截止前,組委會跟評委們說,不得了,我們評委要很辛苦了,一共有五百多個方案交上來。一半是上海的,還有一半是來自上海以外,北京16%,廣東6%,其他省4%,還有國外的團隊。在世界上,一個城市一下子開放這么大的數(shù)據(jù)集也是很轟動的事情,所以很多都過來參加這個比賽。最后選出了一百個方案進入復賽。
上禮拜SODA組委會開了復盤會慶祝一下。這個大賽的評委會是開放的,我們并沒有開過幾次正式的組委會會議,但是每天都深更半夜還在群里面討論問題,反而討論出了很多非常好的建議。用的是一種互聯(lián)網(wǎng)的方式,平等開放的模式來組織大賽。甚至有學生的創(chuàng)業(yè)公司參與了大賽的組織工作。這是大賽當時的一些照片,決賽的時候來了兩百多人。15支團隊進入決賽進行路演,最后得大獎的是交大的團隊,我當時也擔任評委。
最后交通委的領(lǐng)導上來發(fā)言,他說,本來我已經(jīng)準備了一個文字稿,但現(xiàn)在我決定脫稿講。他主要講了幾點:第一,大開眼界,還是要依靠科技創(chuàng)新;第二,大受啟發(fā),智慧在民間。第三,把這15個團隊都請到交通委和相關(guān)處室對接,想辦法讓這些創(chuàng)意落地。最后他還說,可惜這次我們開放的數(shù)據(jù)還不夠多,如果再多放一點數(shù)據(jù),你們可能能做出更好的方案。這個大賽辦完,交通委真正體會到了開放數(shù)據(jù)的價值,就有了內(nèi)生的開放數(shù)據(jù)的動力。
SODA大賽只是剛剛開始,如果只是一個大賽,那就太簡單了,接下來就是怎么讓這些方案落地,對社會產(chǎn)生價值,反過來,政府就會更愿意開放數(shù)據(jù)。大賽的第一波效果是征集了創(chuàng)新應用,聚集了一大批人才,對公眾和政府部門普及教育開放數(shù)據(jù)的理念。第二波效果就是給城市提供更好的服務,推動創(chuàng)新創(chuàng)業(yè),推動產(chǎn)業(yè)發(fā)展,最終產(chǎn)生一系列的社會價值和商業(yè)價值,同時又對政府提出了新的數(shù)據(jù)需求,政府更知道社會需要那些具體的數(shù)據(jù),也看到了給社會帶來的價值,就更有意愿開放。

我們跟英國開放數(shù)據(jù)研究院交流時,他們說在英國也搞了類似的大賽,他們做了一個投入產(chǎn)出的研究,結(jié)果是這個大賽每投一塊錢,回報是10倍。一些政府部門在考慮把數(shù)據(jù)賣錢,免費地開放數(shù)據(jù)對我有沒有直接回報,我為什么不能收一筆錢呢?但是另外一種思維是,你開放出去之后,一波兩波三波的效應能產(chǎn)生更大的價值,最后政府的稅收會上升,比你直接賣數(shù)據(jù)能產(chǎn)生有更大的回報,世界銀行的專家來復旦交流時也支持這個觀點。

所以,數(shù)據(jù)開放可以兩條路同時走,一種是自上而下、由內(nèi)而外的推動開放,通過內(nèi)部的壓力。另一種是像SODA大賽這樣由外而內(nèi)、自下而上的拉動,讓政府部門看到開放數(shù)據(jù)后產(chǎn)生的效果,意識到開放數(shù)據(jù)對政府部門自身也有好處,從而變成內(nèi)生的動力,效果甚至會自上而下地推動更好。所以,要充分調(diào)動數(shù)據(jù)的開發(fā)利用者,通過SODA大會這樣的活動,在加上產(chǎn)業(yè)孵化,讓開放數(shù)據(jù)這件事滾動起來,產(chǎn)生價值,讓政府有更大的意愿開放。

總體來說,開放數(shù)據(jù)到產(chǎn)生價值是一個非常復雜的動態(tài)的過程,涉及到各種利益相關(guān)方,有各種因果關(guān)系和利益關(guān)系,要使整個循環(huán)成為一個正循環(huán),而不是成為一個堵塞的循環(huán),就要讓這件事產(chǎn)生效果,讓政府更愿意開放。產(chǎn)生更好的效果了,也就更愿意開放,開發(fā)者也會更積極得來利用數(shù)據(jù)。



政府要有一個生態(tài)系統(tǒng)的思維。開放數(shù)據(jù)不是甲乙方外包關(guān)系、購買服務的關(guān)系,政府要做的工作是培育圍繞開放數(shù)據(jù)的生態(tài)系統(tǒng)。

最后呼應一下早上張楠老師講的觀點,安全和數(shù)據(jù)開放不是一對矛盾,他們是一個相輔相成的過程。信息政策里有一個理論框架:第一個原則是保管的原則,把數(shù)據(jù)的安全和質(zhì)量問題解決好;第二個原則是利用的原則,不僅要把數(shù)據(jù)管好,更要把數(shù)據(jù)充分利用起來,產(chǎn)生價值。兩個原則互為補充,只有管好了數(shù)據(jù),才能產(chǎn)生信任、降低風險,有利于更好地利用數(shù)據(jù),反過來,數(shù)據(jù)利用得越好,創(chuàng)造的價值越大,政府就對你越信任,也更愿意推動利用。安全有保障,才會更愿意開放,利用得越好,政府也更愿意花力氣去提升數(shù)據(jù)質(zhì)量、保證安全。如果安全出了風險,利用就進行不下去了,數(shù)據(jù)不利用了,管理數(shù)據(jù)也就沒有價值了。這就好比圖書館的工作不僅是為了管理書,管理的目的是為了讓書被更好得利用,發(fā)揮它的價值。而只有管好書,才能更好地把書借出去,書借出去了,還要能管得好,收得回來,這兩個是相輔相成的關(guān)系。開放和安全也是這樣的關(guān)系。

我們實驗室從2011年開始關(guān)注和研究開放數(shù)據(jù),2013年開始發(fā)表開放數(shù)據(jù)方面的論文,上個月剛在中國行政管理也發(fā)了一篇。今天由于時間關(guān)系,還沒有講透的地方,大家可以參考這些論文。謝謝大家!