政府使用大數(shù)據(jù)是為了提升和改善公共服務(wù),這與企業(yè)利用其追求利潤異曲同工。
大數(shù)據(jù)是從各種各樣來源中搜集得到的海量數(shù)據(jù)信息的總稱。對于傳統(tǒng)的關(guān)系型數(shù)據(jù)分析技術(shù)來說,其數(shù)據(jù)量太大,未經(jīng)處理,同時也是非結(jié)構(gòu)化的。據(jù)統(tǒng)計,現(xiàn)在每天產(chǎn)生2.5艾字節(jié)(quintillion bytes)的數(shù)據(jù)信息,全球?qū)⒔?0%的數(shù)據(jù)是過去兩年創(chuàng)造出來的。
此外,從大數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)看,大約90%的數(shù)據(jù)是非結(jié)構(gòu)化的。來源于網(wǎng)絡(luò)和云的海量數(shù)據(jù),為發(fā)現(xiàn)、創(chuàng)造價值,以及豐富商業(yè)智能支撐機(jī)構(gòu)決策提供了新的機(jī)遇。不過,大數(shù)據(jù)也面臨復(fù)雜性、安全和隱私風(fēng)險等新挑戰(zhàn)。同時,對于新技術(shù)和人類技能的開發(fā)來說,大數(shù)據(jù)是一種需要。
大數(shù)據(jù)重新定義了數(shù)據(jù)管理的范圍,由數(shù)據(jù)提取、轉(zhuǎn)換、加載,或稱為ETL(Extraction-Transformation-Loading),演變?yōu)樵诖髷?shù)據(jù)應(yīng)用中凈化和組織非結(jié)構(gòu)化數(shù)據(jù)的新技術(shù)(如分布式架構(gòu)技術(shù))。
盡管企業(yè)部門正引導(dǎo)大數(shù)據(jù)應(yīng)用的發(fā)展,公共部門也開始對迅速增長的大數(shù)據(jù)具有洞察力,為實(shí)時決策提供幫助和支持。
大數(shù)據(jù)有多個來源,包括互聯(lián)網(wǎng)、生物和產(chǎn)業(yè)部門、視頻、電子郵件和社交媒體。許多白皮書、期刊論文和商業(yè)報告已經(jīng)提出了政府利用大數(shù)據(jù),幫助其服務(wù)公眾和應(yīng)對傳統(tǒng)挑戰(zhàn)(如醫(yī)療成本上升、創(chuàng)造就業(yè)、自然災(zāi)害和恐怖主義等)的路徑。
也有一些觀點(diǎn),就大數(shù)據(jù)是否真能改進(jìn)政府運(yùn)作效率提出質(zhì)疑,因?yàn)檎仨毎l(fā)展新的能力,并采用新技術(shù)(比如分布式和非結(jié)構(gòu)化查詢語言),通過數(shù)據(jù)組織和分析,將大數(shù)據(jù)轉(zhuǎn)變?yōu)橛杏玫男畔ⅰ?/p>
本文就政府是否能與企業(yè)一樣,將大數(shù)據(jù)應(yīng)用于公共服務(wù)部門進(jìn)行了研究。我們首先比較了政府和企業(yè)在目標(biāo)、任務(wù)、決策制定過程、決策者、組織架構(gòu)和戰(zhàn)略的差異,接著考察了部分技術(shù)領(lǐng)先的國家當(dāng)前大數(shù)據(jù)應(yīng)用的狀況,這些國家包括澳大利亞、日本、新加坡、韓國、英國和美國等。
本文也分析了一些企業(yè)的大數(shù)據(jù)應(yīng)用,這些技術(shù)也能應(yīng)用在政府事務(wù)中。最后,我們提出了國家和政府部門未來建設(shè)大數(shù)據(jù)戰(zhàn)略應(yīng)用項目的建議。
文章主要觀點(diǎn)
企業(yè)、政府和研究機(jī)構(gòu)都能夠從他們搜集的海量大數(shù)據(jù)中獲取價值;
大數(shù)據(jù)應(yīng)用領(lǐng)先的國家已實(shí)施大數(shù)據(jù)應(yīng)用項目,以提高國家運(yùn)行效率、透明度、民眾福利和公共事務(wù)參與度,確保經(jīng)濟(jì)增長和國家安全;
分析政府部門采用的大數(shù)據(jù)應(yīng)用項目,為其他國家提供未來大數(shù)據(jù)行動的引導(dǎo)。
企業(yè)和政府的比較
雖然企業(yè)和政府的主要任務(wù)并不沖突,但各自的舉措具有不同的目標(biāo)和價值。企業(yè)的主要目標(biāo)是通過提供產(chǎn)品和服務(wù)獲取利潤,發(fā)展或維持自身的競爭優(yōu)勢,創(chuàng)造令消費(fèi)者和其他利益相關(guān)者滿意的價值。政府的主要目標(biāo)則是維持國內(nèi)穩(wěn)定,實(shí)現(xiàn)可持續(xù)發(fā)展,確保公民的基本權(quán)利,改善國民福利和促進(jìn)經(jīng)濟(jì)增長。
在競爭的市場環(huán)境下,大部分企業(yè)著眼于制定短期決策,并且執(zhí)行人員數(shù)量也很有限。而政府的決策制定過程通常需要更長的時間,經(jīng)過不同群體(包括官員、利益集團(tuán)和普通民眾)反復(fù)討論和磋商,在彼此間達(dá)成一致后才能有最終結(jié)果。因此,政府制定決策要完成很多程序性步驟,以降低決策風(fēng)險,提高決策效率和確保其效果。由此看來,大數(shù)據(jù)在政府部門和私有部門的應(yīng)用具有很大不同。
數(shù)據(jù)集屬性比較
大數(shù)據(jù)環(huán)境是以信息技術(shù)為基礎(chǔ)的決策支持系統(tǒng)的演進(jìn):從上世紀(jì)60年代的數(shù)據(jù)處理,到70-80年代的信息應(yīng)用,再到90年代的決策支持模型,進(jìn)入2000年后的數(shù)據(jù)存儲和挖掘,再就是今天的大數(shù)據(jù)。大部分與大數(shù)據(jù)相關(guān)的技術(shù)和分析應(yīng)用是從2010年左右開始出現(xiàn)的,故大數(shù)據(jù)時代正處于早期階段/發(fā)展初期。
大數(shù)據(jù)的屬性和挑戰(zhàn)已經(jīng)用3V來描述:海量(volume)、速度(velocity)和多樣性(variety)。海量是大數(shù)據(jù)的基本屬性,各類機(jī)構(gòu)和組織在業(yè)務(wù)活動過程中產(chǎn)生數(shù)以百萬億字節(jié)的數(shù)據(jù),數(shù)據(jù)容量越來越大。速度是指數(shù)據(jù)量增長越來越快,對處理速度和響應(yīng)速度提出更高要求,運(yùn)用傳統(tǒng)的信息技術(shù)手段難以有效處理,以及從中提取有價值的信息。多樣性是指數(shù)據(jù)以各種各樣類型的出現(xiàn),包括結(jié)構(gòu)化的(SQL等傳統(tǒng)的數(shù)據(jù)庫);半結(jié)構(gòu)化的(具有關(guān)鍵字和規(guī)則,但數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整)和非結(jié)構(gòu)化的(非組織性的數(shù)據(jù),沒有商業(yè)智能)。
大數(shù)據(jù)的概念已經(jīng)表明,大數(shù)據(jù)不僅僅是海量的數(shù)據(jù),還包括通過處理大數(shù)據(jù)從中獲取價值。如今,大數(shù)據(jù)與商業(yè)智能、商業(yè)分析和數(shù)據(jù)挖掘是同義詞,已經(jīng)使商業(yè)智能從報告和決策支持轉(zhuǎn)移到預(yù)測和制定未來行動綱領(lǐng)。新的數(shù)據(jù)管理系統(tǒng)旨在應(yīng)對大數(shù)據(jù)帶來的挑戰(zhàn),如分布式架構(gòu)技術(shù)是一個開源平臺,目前是在管理存儲和接入,以及高速并行處理大規(guī)模數(shù)據(jù)集等方面應(yīng)用最為廣泛的技術(shù)。然而,對于很多企業(yè),特別是不少中小企業(yè)來說,分布式技術(shù)是一個挑戰(zhàn)。因?yàn)檫@些中小企業(yè)往往不具備應(yīng)用大數(shù)據(jù)需要的專業(yè)人員和經(jīng)驗(yàn),他們需要外部資源幫助。應(yīng)該看到,大數(shù)據(jù)應(yīng)用需要的不是純粹基于技術(shù)的技能,找到正確的分析大數(shù)據(jù)的技能,或許是企業(yè)應(yīng)用大數(shù)據(jù)面臨的最大難題。對于大部分企業(yè)來說,發(fā)現(xiàn)和選擇勝任的數(shù)據(jù)專家(在數(shù)據(jù)挖掘、可視化、操作和發(fā)現(xiàn)等方面)是困難而昂貴的。
其他商業(yè)大數(shù)據(jù)技術(shù)包括Casandra數(shù)據(jù)庫,它是一個動態(tài)的數(shù)據(jù)庫工具,采用行存儲格式,每一行能存儲二百萬個數(shù)據(jù)單元。對于企業(yè)的另一個挑戰(zhàn)是選擇最適合他們的大數(shù)據(jù)技術(shù):開源技術(shù)(如分布式架構(gòu)技術(shù))或者商業(yè)技術(shù)(如Casandra, Cloudera, Hortonworks, MapR)。
政府在應(yīng)用大數(shù)據(jù)時,不僅要處理多個來源、不同格式數(shù)據(jù)集成等一般問題,而且還面臨一些特殊挑戰(zhàn),最大的挑戰(zhàn)就是數(shù)據(jù)搜集。因?yàn)檎鸭臄?shù)據(jù)不僅來自于多種渠道(如社交網(wǎng)絡(luò)、互聯(lián)網(wǎng)、眾包),也來自于不同的來源(如國家、機(jī)構(gòu)和部門),搜集難度可想而知。其次,在國家之間分享數(shù)據(jù)和信息是一個特殊的挑戰(zhàn)??鐕窒硇畔ⅲ捎谏婕暗秸Z言轉(zhuǎn)換和不同的文化背景(內(nèi)容的表現(xiàn)形式),分享和傳遞的信息有可能失真。第三個挑戰(zhàn)是在一個國家不同的政府部門和機(jī)構(gòu)之間分享數(shù)據(jù)。政府?dāng)?shù)據(jù)與商業(yè)數(shù)據(jù)最重要的不同就在范圍和區(qū)域,其差異近幾年都在平穩(wěn)增長。政府(包括地方政府和中央政府)在實(shí)施法律和規(guī)章、提供公共服務(wù)和監(jiān)管金融交易的過程中積累了大量數(shù)據(jù)。這些數(shù)據(jù)的屬性、價值和帶來的挑戰(zhàn),都不同于公司運(yùn)營中產(chǎn)生的數(shù)據(jù)。政府的大數(shù)據(jù)特征屬性可以表述為存儲、安全和多樣性。通常,每個政府機(jī)構(gòu)或部門都有自己的存儲機(jī)構(gòu),用于存儲公共或機(jī)密信息,而且并不愿意分享各自的專有信息。
每個系統(tǒng)都保存有與其他系統(tǒng)隔絕的信息,這使得政府機(jī)構(gòu)和部門之間的數(shù)據(jù)集成更加復(fù)雜。彼此溝通的失敗有時是影響數(shù)據(jù)集成的重要原因。例如,在英國,警察機(jī)構(gòu)和醫(yī)院之間曾經(jīng)打算在暴力犯罪方面分享信息,但這一項目最終失敗,原因就是兩者之間溝通不足。另一個分享政府信息的挑戰(zhàn)是建立統(tǒng)一的數(shù)據(jù)格式,能夠允許不同機(jī)構(gòu)進(jìn)行分析。盡管大部分政府?dāng)?shù)據(jù)是結(jié)構(gòu)化的,但是從多種渠道和來源去搜集數(shù)據(jù)仍然是一個更大的困難。缺乏標(biāo)準(zhǔn)化的數(shù)據(jù)格式和軟件,以及從多個政府機(jī)構(gòu)的離散數(shù)據(jù)庫中提取有用信息的跨機(jī)構(gòu)解決方法,也是政府推進(jìn)大數(shù)據(jù)應(yīng)用面臨的挑戰(zhàn)。但由于政府的緊縮措施,導(dǎo)致其缺乏相應(yīng)資金去發(fā)展和推進(jìn)解決上述問題。
在使用大數(shù)據(jù)時,政府必須解決相關(guān)的法律、安全和許可要求等問題。在搜集和使用大數(shù)據(jù)用于預(yù)測分析與保障公民隱私權(quán)之間,應(yīng)該有一條清晰的界限。
在美國,美國愛國者法案允許合法監(jiān)控,有時還可以監(jiān)控公民;電子通訊隱私法案允許相關(guān)部門不經(jīng)授權(quán)便可進(jìn)入電子郵件系統(tǒng);要對網(wǎng)絡(luò)情報共享和保護(hù)法案(CISPA)加以注意,它將允許安全機(jī)構(gòu)和私人網(wǎng)絡(luò)公司之間的信息共享,這增加了人們對誤解信息不適當(dāng)應(yīng)用的關(guān)注。
數(shù)據(jù)安全是政府大數(shù)據(jù)最基本的屬性,因此,搜集、存儲和使用大數(shù)據(jù)都需要特別注意。然而,目前大部分大數(shù)據(jù)技術(shù),包括 Casandra數(shù)據(jù)庫和分布式技術(shù),都缺乏足夠的安全保護(hù)工具。對政府而言,確保安全是又一個挑戰(zhàn)。
編譯:工業(yè)和信息化部國際經(jīng)濟(jì)技術(shù)合作中心 高常水 江道輝
