2015 年1 月7 日我們正在經(jīng)歷一場由大數(shù)據(jù)引發(fā)的社會革命。人類生活中的一切活動,每次購買,每次對話,每次社交,每次移動,甚至我們的身份和身體的變化都成為信息收集、存儲、分析和使用的對象。多樣化的數(shù)據(jù)、巨大的數(shù)據(jù)量以及它們潛在的商業(yè)價(jià)值已經(jīng)開始對公共政策的制定,對社會經(jīng)濟(jì)和公民隱私產(chǎn)生深遠(yuǎn)的影響。毋庸置疑大數(shù)據(jù)會帶來巨大收益,無論是企業(yè)創(chuàng)新還是消除疾病。當(dāng)大數(shù)據(jù)快速向社會的各個(gè)方面滲透,當(dāng)數(shù)據(jù)分析技術(shù)快速發(fā)展和數(shù)據(jù)利用范圍迅速擴(kuò)大時(shí),政府與公民、政府與企業(yè)、政府與政府之間的關(guān)系正在發(fā)生變化。如同任何一種新科學(xué)(如核物理)出現(xiàn)一樣,政府的政策會對這門科學(xué)的應(yīng)用產(chǎn)生深遠(yuǎn)的影響。
責(zé)任編輯:admin
作為世界上最大的數(shù)據(jù)收集者和最大的數(shù)據(jù)使用者,同時(shí)又是公民基本權(quán)利的守護(hù)者,各國政府對數(shù)據(jù)科學(xué)和大數(shù)據(jù)的舉措,會嚴(yán)重影響到它的發(fā)展方向和發(fā)展速度??茖W(xué)既能造福人類也可為害人類,大數(shù)據(jù)也不例外,有遠(yuǎn)見的國家戰(zhàn)略和政策一定是在保護(hù)公民隱私權(quán)的前提下,加速數(shù)據(jù)信息的自由流動,鼓勵(lì)創(chuàng)新、催生新產(chǎn)業(yè)創(chuàng)造新就業(yè)、進(jìn)而促進(jìn)國家的經(jīng)濟(jì)繁榮。中國現(xiàn)代化進(jìn)程的起點(diǎn)和中國的文化造就了我們善于利用“后發(fā)優(yōu)勢”。因此從借鑒比較國外政府的經(jīng)驗(yàn)入手,研究制定適合國情的大數(shù)據(jù)發(fā)展戰(zhàn)略和發(fā)展路徑,是繼續(xù)深化政務(wù)電子化,加快實(shí)現(xiàn)中央提出的健全國家治理體系與治理能力現(xiàn)代化的明智之舉。
以美國為代表的發(fā)達(dá)國家在推進(jìn)大數(shù)據(jù)上已經(jīng)形成了從發(fā)展戰(zhàn)略,法律框架到行動計(jì)劃的完整布局。
2009 年1 月21 日現(xiàn)任美國總統(tǒng)奧巴馬宣誓就職后的第一個(gè)工作日就簽發(fā)了“開放政府”備忘錄(Memorandum on Transparency and Open Government),指導(dǎo)新一屆行政當(dāng)局從開放政府?dāng)?shù)據(jù)源、建設(shè)開放型政府入手,以數(shù)字革命帶動的政府變革。“開放政府”的目的簡潔明了:改進(jìn)公眾服務(wù),提升公眾信任,更有效管理公共資源和增進(jìn)政府責(zé)任?;ヂ?lián)網(wǎng)時(shí)代的開放型政府,首先必須開放政府?dāng)?shù)據(jù)。5 月20 日,美國政府開放數(shù)據(jù)的門戶Data.gov 上線,第一批47 個(gè)政府?dāng)?shù)據(jù)源向社會開放。2009 年12 月8 日,總統(tǒng)簽發(fā)“開放政府?dāng)?shù)據(jù)”行政令 (The Open Government Directive),要求在45 天內(nèi)所有政府部門無一例外的必須向社會開放3個(gè)有價(jià)值的數(shù)據(jù)源。2010 年5 月經(jīng)過12 個(gè)月的運(yùn)行,Data.gov 升級到2.0。政府開放的數(shù)據(jù)源達(dá)到2.5 萬個(gè)。2011 年9 月20 日白宮正式啟動 “開放政府國家行動計(jì)劃 1.0”,首批26 個(gè)開放政府項(xiàng)目向社會公開。2012 年3 月29 日,在公開政府?dāng)?shù)據(jù)源的22 個(gè)月后,啟動聯(lián)邦政府大數(shù)據(jù)行動計(jì)劃,宣布了由政府資助的分布在13 個(gè)部委的84 個(gè)大數(shù)據(jù)項(xiàng)目,其中多數(shù)項(xiàng)目基于不同部門的開放數(shù)據(jù)源,聯(lián)合民間企業(yè)協(xié)同展開,如癌癥和心血管疾病研究。2013 年5 月9 日,總統(tǒng)簽署開放數(shù)據(jù)政策(Open Data Policy)。2013 年12 月5 日“開放政府國家行動計(jì)劃”進(jìn)入 2.0,又添加 23 個(gè)政府開放項(xiàng)目。
在逐步擴(kuò)大開放政府?dāng)?shù)據(jù)源,啟動開放政府項(xiàng)目和部署政府主導(dǎo)的大數(shù)據(jù)項(xiàng)目后,2014 年1 月17 日,美國總統(tǒng)指定白宮法律總顧問波德斯塔,由他領(lǐng)導(dǎo)行政當(dāng)局與總統(tǒng)科技顧問委員會合作,邀請科技專家、隱私法專家、企業(yè)界學(xué)術(shù)界和政府領(lǐng)導(dǎo),綜合評估 “大數(shù)據(jù)”和公民隱私交集后已經(jīng)帶來和將會帶來的新問題。作為綜合研究的一部分,總統(tǒng)要求超前思考“大數(shù)據(jù)”對人類社會的影響,重點(diǎn)研究現(xiàn)有技術(shù)和未來技術(shù)會對現(xiàn)行法律帶來哪些挑戰(zhàn),那些法律和政策需要修訂或制定以適應(yīng)變化。評估探討“大數(shù)據(jù)”會從那些方面影響我們的生活方式工作方式,影響和改變政府與公民之間的關(guān)系??偨y(tǒng)希望得到建議,如何在政府和民企之間合作推動創(chuàng)新,在最大限度地降低公民隱私風(fēng)險(xiǎn)的前提下,保證信息的自由流動,創(chuàng)造更多的商業(yè)機(jī)會和就業(yè)機(jī)會。
2014 年3 月,美國政府向全社會發(fā)出公開征詢,希望民眾從不同層面提出看法,為政府的大數(shù)據(jù)戰(zhàn)略獻(xiàn)計(jì)獻(xiàn)策。
征詢從五個(gè)緯度展開:
1. 收集、存儲、分析和使用大數(shù)據(jù)對公共政策的影響是什么?例如,當(dāng)政府利用大數(shù)據(jù)后,美國目前旨在保護(hù)消費(fèi)者隱私權(quán)的法律框架和以及隱私保護(hù)策略,能化解大數(shù)據(jù)大分析帶來的新問題?
2. 如果政府采取更多地舉措、給大數(shù)據(jù)的科學(xué)研究更多的資助,能為政府帶來哪些可量化的收益?那些類型的大數(shù)據(jù)分析技術(shù)會對公共政策帶來新挑戰(zhàn)?有哪些政府部門和特定行業(yè)在使用大數(shù)據(jù)技術(shù)時(shí),應(yīng)該被政府和公眾更多的關(guān)注?
3. 那些關(guān)鍵技術(shù)和技術(shù)趨勢將影響大數(shù)據(jù)的采集、存儲、分析和使用?那些新技術(shù)或新做法,在保護(hù)隱私的同時(shí)能實(shí)現(xiàn)大數(shù)據(jù)的有效利用?
4. 監(jiān)管政府和私營部門處理大數(shù)據(jù)的政策框架及法規(guī)應(yīng)該有何區(qū)別?例如,執(zhí)法部門,政府服務(wù),商業(yè),學(xué)術(shù)研究等。
5. 跨行政區(qū)、跨國家使用大數(shù)據(jù)會帶來哪些法律問題?如當(dāng)前的國際法律,法規(guī),或規(guī)范的適當(dāng)性?
2014 年5 月,由總統(tǒng)科技顧問委員會執(zhí)筆的報(bào)告提交總統(tǒng)。報(bào)告提出五大建議:
1. 政府政策制定應(yīng)更多關(guān)注大數(shù)據(jù)的實(shí)際使用較少放在數(shù)據(jù)收集和分析上
2. 在政府各個(gè)層面的政策規(guī)范制定中,不應(yīng)關(guān)聯(lián)特定技術(shù)而應(yīng)指明希望得到的結(jié)果
3. 為推進(jìn)大數(shù)據(jù)技術(shù)的應(yīng)用,白宮科技政策辦公室和政府網(wǎng)絡(luò)信息技術(shù)研發(fā)部門需大力合作,強(qiáng)化國家在用于保護(hù)隱私技術(shù)方面的研究,加強(qiáng)與隱私相關(guān)的社會科學(xué)的研究。
4. 白宮科技政策辦公室還應(yīng)與高等教育和職業(yè)教育合作,鼓勵(lì)和增加培養(yǎng)隱私保護(hù)專業(yè)人員[page]
5. 美國應(yīng)當(dāng)在立法上保持在國際上的領(lǐng)先地位,加快修訂國內(nèi)法律法規(guī),鼓勵(lì)采用新方法新技術(shù)應(yīng)對新的隱私需求。換個(gè)角度講,總統(tǒng)科技顧問委員會的評估結(jié)論是,單靠技術(shù)無法保護(hù)隱私,政府必須制定新策略,修訂現(xiàn)行的隱私保護(hù)的政策法規(guī)??偨y(tǒng)科技顧問委員會建議:新的政策應(yīng)該側(cè)重于的對個(gè)人信息的具體用途是否會對個(gè)人隱私產(chǎn)生不利影響;政策制定的重點(diǎn)應(yīng)放在利用數(shù)據(jù)的結(jié)果上,也即用個(gè)人數(shù)據(jù)分析在“做什么”,而不是“如何做”,以避免政策成為技術(shù)進(jìn)步的障礙;政策框架應(yīng)能加快開發(fā)和商業(yè)化大數(shù)據(jù)技術(shù),這些技術(shù)不僅包括新的研究領(lǐng)域和潛在的技術(shù)選項(xiàng),而且應(yīng)包含能消除對隱私權(quán)不利影響的新技術(shù)新方法。通過政策的引導(dǎo),能更有效地利用大數(shù)據(jù)技術(shù),讓美國在立法和商業(yè)上在全球繼續(xù)保持領(lǐng)先地位。只有解除對個(gè)人隱私受到侵犯的擔(dān)憂,才能最大限度地利用大數(shù)據(jù)的好處。
最后,總統(tǒng)科技顧問委員會呼吁,更多的科學(xué)和專業(yè)人士共同努力,以對隱私充分尊重的方式,開發(fā)和使用大數(shù)據(jù)技術(shù)。
美國政府的經(jīng)驗(yàn)給了其他國家很多啟示。
首先,國家的大數(shù)據(jù)發(fā)展戰(zhàn)略不僅僅是一個(gè)技術(shù)發(fā)展綱要。盡管它針對一門新興科學(xué)和相關(guān)技術(shù)而來,但它是站在此項(xiàng)技術(shù)會給未來社會和公民生活帶來的沖擊的角度,以完善法律框架、政策框架為要,配之以恰當(dāng)?shù)呢?cái)政計(jì)劃項(xiàng)目計(jì)劃以及合作計(jì)劃。
第二,因?yàn)檎羌瘮?shù)據(jù)收集,數(shù)據(jù)使用和公民隱私保護(hù)為一體的最終仲裁者,所以政府必須充分考慮科學(xué)與公民、科學(xué)與政府、科學(xué)與工業(yè)以及科學(xué)與科技之間的互動關(guān)系,制定的法律政策既要能鼓勵(lì)利用這項(xiàng)技術(shù)更多的造福人類同時(shí)又能抑制利用其為害人類。
第三,政府資助的重點(diǎn)應(yīng)放在科學(xué)研究(如數(shù)據(jù)科學(xué)),應(yīng)當(dāng)用諸如合同或購買的方式激發(fā)鼓勵(lì)民間企業(yè)開發(fā)應(yīng)用技術(shù)。
第四,科學(xué)和技術(shù)是現(xiàn)代文明的基礎(chǔ),歷史上每次重大科學(xué)技術(shù)的出現(xiàn),都引發(fā)了巨大的社會變革,因此,政府在關(guān)注特定科學(xué)和技術(shù)的同時(shí),要資助和鼓勵(lì)相關(guān)社會科學(xué)的探索爭鳴。目前無論從哪個(gè)角度看,大數(shù)據(jù)仍處在初始階段。盡管企業(yè)和媒體對大數(shù)據(jù)時(shí)代的到來表現(xiàn)出了空前的熱情,但政府的政策制定者,社會法律學(xué)者和科技人士應(yīng)當(dāng)對此保持清醒并對已經(jīng)面臨的和將會出現(xiàn)的問題有所準(zhǔn)備。今天數(shù)據(jù)積累的速度遠(yuǎn)遠(yuǎn)超過數(shù)據(jù)能被處理和能被利用的速度。2013 年全球產(chǎn)生的數(shù)據(jù)中約22%有可能被用作分析,但結(jié)果只有5%實(shí)際被分析用到(IDC)。照目前數(shù)據(jù)產(chǎn)生的速度預(yù)計(jì)到2017 年,全球又會積累超過四倍于今天的數(shù)據(jù)量。結(jié)果導(dǎo)致存儲設(shè)備、數(shù)據(jù)中心和電力消耗的快速膨脹。截至 2014 年7 月僅美國就有290 萬個(gè)被稱之為服務(wù)器農(nóng)場的數(shù)據(jù)中心,面積達(dá)6.66 億平方呎,兩年后將達(dá)7.27 億平方呎。絕大部分?jǐn)?shù)據(jù)在分立分治的系統(tǒng)中快速堆積,這些數(shù)據(jù)互不相識互不來往,除了消耗資源,還沒有產(chǎn)生任何價(jià)值??v向累積的、缺乏多維度關(guān)聯(lián)的數(shù)據(jù)的確越來越大。但這并不是 “大數(shù)據(jù)”而只不過是“數(shù)據(jù)大”而已。在我們剛剛步入大數(shù)據(jù)社會時(shí),不妨做一些前瞻性思考。這些思考應(yīng)當(dāng)以數(shù)據(jù)為源頭以人類社會為終點(diǎn)。簡單說,應(yīng)當(dāng)從物理層面審視和規(guī)劃數(shù)據(jù)如何收集、存儲、處理、傳輸和共享;應(yīng)當(dāng)從數(shù)字產(chǎn)品生產(chǎn)層面考慮研發(fā)什么樣的分析工具、使用什么樣的軟件平臺和基于什么樣的環(huán)境(如開放代碼);從使用層面考慮引進(jìn)培養(yǎng)什么樣的人才和訓(xùn)練什么技能,以及在更廣義的范疇考慮如何形成大數(shù)據(jù)思維和文化,大數(shù)據(jù)將會對未來企業(yè)與人、政府與人的關(guān)系有何影響。
大數(shù)據(jù)社會要求人們學(xué)會用一種全新的方式打量這個(gè)世界,工具、技術(shù)、技能和人才缺一不可。要及早部署和投資在以下方面:
數(shù)據(jù)分析工具和軟件平臺:人工智能(AI)技術(shù),自然語言處理、模式識別、機(jī)器學(xué)習(xí)、預(yù)測分析、數(shù)據(jù)熔煉、信號處理和元數(shù)據(jù)管理等等;大數(shù)據(jù)要求同時(shí)在數(shù)十?dāng)?shù)百甚至數(shù)千臺服務(wù)器中進(jìn)行大規(guī)模并行運(yùn)算的軟件,目前使用的大多數(shù)關(guān)系數(shù)據(jù)庫管理系統(tǒng)、桌面數(shù)據(jù)庫和可視化軟件包已很難滿足需求,因此仍需關(guān)注MPP 數(shù)據(jù)庫、分布式文件及分布式數(shù)據(jù)庫的發(fā)展。
數(shù)據(jù)分析人才和算法模型:培養(yǎng)訓(xùn)練會使用大數(shù)據(jù)分析語言工具如ECL, Cassandra,Hadoop,Hive、MongoDB 等的人才只是整個(gè)需求的表層。再深入一層,要讓大數(shù)據(jù)發(fā)揮作用,跨行業(yè)顧問、分析師和有行業(yè)經(jīng)驗(yàn)的編程序人員缺一不可。圖形及視覺表展現(xiàn)在人機(jī)對話和數(shù)據(jù)表達(dá)層作用極大,但融合技術(shù)和藝術(shù)、能將“抽象”形象化的語言、工具及人才尚不多見。沒有數(shù)學(xué)模型很難想象數(shù)據(jù)如何“大”起來,數(shù)據(jù)只有通過算法模型才能被電腦解讀,但數(shù)學(xué)模型在政治、社會和金融等領(lǐng)域只能逼近現(xiàn)實(shí)無法百分之百的重合現(xiàn)實(shí)。對于解讀數(shù)據(jù)關(guān)聯(lián)的隱喻而言,這些模式非常有用但必有局限性。所以如何建立能精準(zhǔn)模擬世間萬物的數(shù)學(xué)模型,是集理論研究與應(yīng)用開發(fā)的重要地帶。
當(dāng)人類讓數(shù)字講話、把決策權(quán)更多的移交給“大數(shù)據(jù)”時(shí),第一個(gè)重要問題就是數(shù)據(jù)的質(zhì)量。“垃圾進(jìn)、垃圾出”(Garbage-In, Garbage-Out)這句話早在50 年前就被用來描述自動化處理數(shù)據(jù)時(shí)的質(zhì)量問題,此話今天依然有效。研究表明,知識工作者平均花近一半的時(shí)間在尋找數(shù)據(jù)、驗(yàn)明數(shù)據(jù)、修正數(shù)據(jù)、剔除不靠譜的數(shù)據(jù)。數(shù)據(jù)質(zhì)量問題可能發(fā)生在收集、存儲、處理、傳輸和分享整個(gè)過程中的任何一個(gè)環(huán)節(jié),但第一個(gè)關(guān)口仍是數(shù)據(jù)錄入端(記錄或采集口)。大多數(shù)情況下,數(shù)據(jù)輸入端很少知道數(shù)據(jù)使用端為什么需要這種數(shù)據(jù),用這些數(shù)據(jù)做什么。當(dāng)使用端發(fā)現(xiàn)問題時(shí),除非是系統(tǒng)性問題,大多被隨手解決,少有追根溯源從源頭糾正問題。那么數(shù)據(jù)的質(zhì)量如何保證,誰應(yīng)對質(zhì)量負(fù)責(zé)呢?解決數(shù)據(jù)質(zhì)量的問題,更多的是在管理不在技術(shù)。行之有效的方法是把數(shù)據(jù)質(zhì)量的管控權(quán)更多地轉(zhuǎn)給使用端(業(yè)務(wù)條塊),建立數(shù)據(jù)“原料方”和“生產(chǎn)方”之間的直接的客服關(guān)系,形成制度和方法從數(shù)據(jù)源頭和元數(shù)據(jù)層面控制質(zhì)量。
進(jìn)入大數(shù)據(jù)時(shí)代,一個(gè)“大”字很容易掩蓋一切。現(xiàn)實(shí)情況是,我們可用的數(shù)據(jù)越來越多樣化,但其中大部分的數(shù)據(jù)是使用者在只知其來源不知其如何產(chǎn)生、質(zhì)量被如何管控的情況下而被使用的。因此,要想讓人們信賴基于大數(shù)據(jù)的決策,對所有數(shù)據(jù)源提前測試試驗(yàn)必不可少。不管數(shù)據(jù)是大是小,真實(shí)可靠最重要。只有逼真的模型、精準(zhǔn)的分析,才能體現(xiàn)大數(shù)據(jù)的價(jià)值。過去沒有數(shù)據(jù)是瞎子摸象,現(xiàn)在數(shù)據(jù)太多是大海撈針,瞎子摸象和大海撈針的結(jié)果相差無幾。大數(shù)據(jù)很容易使人們的關(guān)注點(diǎn)從因果關(guān)系移動到相關(guān)關(guān)系。大數(shù)據(jù)分析的結(jié)果常常能幫助人們回答“是什么”而不是“為什么”。膚淺的使用大數(shù)據(jù),有可能引導(dǎo)人們止步于探究事件背后的深層原因,滿足于了解現(xiàn)象之間的聯(lián)系并利用這種聯(lián)系得出是對非對的解讀。
綜觀世界上所有政體和政府,他們都是最大的公民信息收集者、數(shù)字產(chǎn)品的生產(chǎn)者同樣又都是保護(hù)公民隱私的最高管理者。實(shí)現(xiàn)真正的數(shù)據(jù)共享是大數(shù)據(jù)騰飛的基礎(chǔ),主管部門應(yīng)該多多關(guān)注數(shù)據(jù)開放和共享的規(guī)則,公民信息安全和隱私的保護(hù)。在可預(yù)見的未來,我們面臨諸多挑戰(zhàn):技術(shù)挑戰(zhàn)會出現(xiàn)在從信息搜索、數(shù)據(jù)捕捉,存儲,傳輸、存儲、共享、分析直到可視化全過程。另外必須面對大數(shù)據(jù)對社會人文的挑戰(zhàn)。法律層面,更開放的網(wǎng)絡(luò)會帶來更多的數(shù)據(jù)竊用、濫用和非法監(jiān)控。一旦強(qiáng)大的新型數(shù)學(xué)數(shù)據(jù)工具出現(xiàn),如何控制它不會被用在惡意方面。在人文倫理層面,在數(shù)據(jù)越來越多地獲得否決權(quán)的人工智能社會,如何對待人的經(jīng)驗(yàn)積累和直覺判斷?大數(shù)據(jù)技術(shù)日新月異,由大數(shù)據(jù)、深度學(xué)習(xí)(Deep Learning)引發(fā)的新一輪人工智能技術(shù)會對人類未來造成什么樣的沖擊,是擺在科學(xué)和社會學(xué)者面前的另一個(gè)重大課題。實(shí)事求是地講,不論擁抱或排斥這種新形式的數(shù)據(jù)科學(xué),“精靈”再也裝不回瓶子里了。(原作文金言 中國信息協(xié)會大數(shù)據(jù)專家委員會副主任)
