11月28-29日,由中國社會科學(xué)院信息化研究中心和北京國脈互聯(lián)信息顧問有限公司聯(lián)合舉辦的“2018智慧中國年會”在北京隆重召開,以“數(shù)據(jù)賦能 智慧中國”為主題,共有來自全國部委、省、市、區(qū)縣電子政務(wù)、智慧城市、大數(shù)據(jù)主管領(lǐng)導(dǎo)、行業(yè)專家、企業(yè)代表、主流媒體千余人參會。
本文系深圳市華傲數(shù)據(jù)技術(shù)有限公司CEO賈西貝于11月29日上午在“2018智慧中國年會”分論壇六--“微服務(wù)與數(shù)據(jù)賦能平臺構(gòu)建與實(shí)踐研討會”上的演講,內(nèi)容通過現(xiàn)場速記整理,未經(jīng)本人審核。
【深圳市華傲數(shù)據(jù)技術(shù)有限公司CEO 賈西貝】
今天要和大家分享的是“數(shù)字中國的‘三融五跨’數(shù)據(jù)治理體系”,主要從三個方面來講:數(shù)據(jù)治理的指導(dǎo)思想、方法論、幾大實(shí)踐。因為時間關(guān)系講得是簡版,有些可能沒法特別深入。
一、政務(wù)數(shù)據(jù)治理的指導(dǎo)思想:三融五跨
我會以問題的形式展開,主要還是引發(fā)大家的思考。
1、數(shù)據(jù)是什么
以前我在研究生論壇講課及最近在工業(yè)大學(xué)開設(shè)的幾個研究生課上,問“數(shù)據(jù)是什么”,期待的肯定不是今天這個答案,那主要探討的是數(shù)據(jù)的科學(xué)性,今天我們講的是從國家戰(zhàn)略和城市戰(zhàn)略的實(shí)操層面“把數(shù)據(jù)定位成什么去運(yùn)用”。關(guān)于數(shù)據(jù)的定義,在國家十大戰(zhàn)略之一的“國家大數(shù)據(jù)戰(zhàn)略”中說得很清楚,數(shù)據(jù)是基礎(chǔ)戰(zhàn)略性資源。
2、政務(wù)數(shù)據(jù)是什么
按照工信部《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016-2020年)》,“政府部門、互聯(lián)網(wǎng)企業(yè)、大型集團(tuán)企業(yè)積累沉淀了大量的數(shù)據(jù)資源。我國已成為產(chǎn)生和積累數(shù)據(jù)量最大、數(shù)據(jù)類型最豐富的國家之一”,有人翻譯過來稱中國有三大“數(shù)據(jù)金礦”,其中政府?dāng)?shù)據(jù)是第一數(shù)據(jù)金礦或第一數(shù)據(jù)資源。
3、政務(wù)數(shù)據(jù)面臨的瓶頸(首要問題)是什么
2016年,李克強(qiáng)總理在全國推進(jìn)簡政放權(quán)電視電話會議上指出“目前我國信息數(shù)據(jù)資源80%以上掌握在各級政府部門手里,‘深藏閨中’是極大浪費(fèi)”,這也進(jìn)一步印證了政府?dāng)?shù)據(jù)是第一數(shù)據(jù)資源,但它并沒有像BAT等互聯(lián)網(wǎng)企業(yè)發(fā)布的數(shù)據(jù)那樣有多大價值、對我們生活產(chǎn)生多大的影響。微軟首席信息官(后來也成為了奧巴馬政府的首席信息官)也曾講過“全球99.5%的大數(shù)據(jù)資源都被浪費(fèi)了,只有不到0.5%的信息資源被利用了”。
4、造成政務(wù)數(shù)據(jù)浪費(fèi)的主要原因是什么
我們看到的一個城市、國家的數(shù)據(jù)世界,說得極端點(diǎn),其實(shí)在某種程度上散布了許多的“數(shù)據(jù)垃圾”。比如我們國家,從政府角度對數(shù)據(jù)的占有其實(shí)是高度碎片化、分散化的。深圳在政務(wù)服務(wù)方面做了很多創(chuàng)新,有個口號叫“市民辦事不出街”“企業(yè)辦事不出區(qū)”,就是市民辦事不用出街道/社區(qū)、企業(yè)辦事不用出區(qū)/縣就能把事辦了。我國一共有2500多個區(qū)/縣、4萬多個街道/鄉(xiāng)鎮(zhèn)。那我們想,如果辦事都是在區(qū)縣一級,一個區(qū)縣的委辦局一般在40個以上,我們調(diào)研了下深圳,深圳一個委辦局的業(yè)務(wù)系統(tǒng)至少10個(多的有100來個),全國12萬個部門會有多少業(yè)務(wù)系統(tǒng)和數(shù)據(jù)庫呢?初步估計業(yè)務(wù)系統(tǒng)約20-120萬個,數(shù)據(jù)庫在100萬個左右。
分散在幾十萬個數(shù)據(jù)庫中的數(shù)據(jù),大家若將一個方塊假設(shè)為一個業(yè)務(wù)系統(tǒng)、一個圓柱體假設(shè)為一個數(shù)據(jù)庫,是一個什么狀態(tài)?是“盲人摸象”。我們經(jīng)常說一個城市的市長說不清所在城市的具體人口,這里指的是實(shí)際管理人口,不是戶籍、常住人口,中國今天已不是用戶籍把大家固定在戶籍地,而是高度流動的,北京、深圳的流動人口占比已達(dá)50%以上,深圳戶籍人口是400多萬,加(流動人口等)在一起很多媒體都說深圳人口在2000萬以上。
數(shù)據(jù)的碎片化產(chǎn)生于業(yè)務(wù)的碎片化、技術(shù)的碎片化,碎片化實(shí)際是“數(shù)據(jù)氧化”的問題。無論是多么美好的組織,最后都會衍生成一個蜘蛛網(wǎng)結(jié)構(gòu),需要用一些辦法把數(shù)據(jù)利用起來。
5、解決政務(wù)數(shù)據(jù)開發(fā)利用問題的核心任務(wù)是什么
“數(shù)據(jù)浪費(fèi)”“數(shù)據(jù)碎片化”的破解之道是什么?我們總書記也給出了“數(shù)字中國”中“數(shù)據(jù)治理”的核心任務(wù),在2017年12月8日的十九屆中央政治局第2次集體學(xué)習(xí)會議上,習(xí)主席提出"以數(shù)據(jù)集中和共享為途徑,推動技術(shù)融合、業(yè)務(wù)融合、數(shù)據(jù)融合""實(shí)現(xiàn)跨層級、跨地域、跨系統(tǒng)、跨部門、跨業(yè)務(wù)的協(xié)同管理和服務(wù)",早在2016年10月十八屆中央政治局第36次集體學(xué)習(xí)會議上習(xí)總書記也曾提過,后來你人民日報和新華社總結(jié)為“三融五跨”。剛才我們提到全國保守估計12萬個部門有幾十萬個系統(tǒng),要做五跨數(shù)據(jù)融合,其實(shí)就是任務(wù)之一。
大家都覺得數(shù)據(jù)就是金錢、能賺錢。就像硬幣,正面是數(shù)據(jù)利用、背面是數(shù)據(jù)監(jiān)管,數(shù)據(jù)價格變現(xiàn)必須在良好的數(shù)據(jù)監(jiān)管和數(shù)據(jù)保護(hù)的前提下,沒有監(jiān)管,數(shù)據(jù)利用就是脫韁的野馬。數(shù)據(jù)是無界,但數(shù)據(jù)的應(yīng)用是有界的,需要自律也需要監(jiān)管。結(jié)合近期的新聞,其實(shí)基因也是無界的,所有生物體都有,但對基因的應(yīng)用也應(yīng)該是有界的。
這方面中央也予以了重視,習(xí)總書記在2017年12月十九屆中央政治局第2次集體學(xué)習(xí)會議上就提出,要切實(shí)保障國家數(shù)據(jù)安全、強(qiáng)化國家關(guān)鍵數(shù)據(jù)資源保護(hù)能力。所以數(shù)據(jù)治理,主要是治理數(shù)據(jù)的兩面(數(shù)據(jù)利用和數(shù)據(jù)監(jiān)管)。
二、政務(wù)數(shù)據(jù)治理的方法論:GLDM五跨模型
?。ㄒ唬?shù)據(jù)大發(fā)現(xiàn)時代
從領(lǐng)導(dǎo)人、國家的層面,對數(shù)據(jù)治理目前有很好的政策和指導(dǎo)思想,但要把幾百萬個數(shù)據(jù)治理好,中間還需有個橋梁,不管是做咨詢還是IT,我們在多地都期待能有一個方法論。基于我們的經(jīng)驗,我們總結(jié)了這樣一個國情:今天的時代,很像達(dá)伽馬、哥倫布那時的“地理大發(fā)現(xiàn)時代”,我們不斷能看到新的數(shù)據(jù)源、新的數(shù)據(jù)處理手段、新的數(shù)據(jù)應(yīng)用場景,所以我們覺得2016年國家大數(shù)據(jù)戰(zhàn)略發(fā)布后,政務(wù)數(shù)據(jù)進(jìn)入了一個像“地理大發(fā)現(xiàn)時代”一樣的“數(shù)據(jù)大發(fā)現(xiàn)時代”。
哥倫布式大航海是“走的時候,不知道去哪兒;到的時候,不知道在哪兒;回的時候,不知道去過哪兒”,我們現(xiàn)在經(jīng)常是“開始的時候,不知道能做什么;進(jìn)行的時候,不知道該做什么;完成的時候,還不知道做了什么”,我們需要一個方法論來避免哥倫布式的數(shù)據(jù)大航海、數(shù)據(jù)處理。
(二)GLDM--政務(wù)(五跨)邏輯數(shù)據(jù)模型
做數(shù)據(jù)庫的,應(yīng)該都熟悉LDM。在數(shù)據(jù)庫課程上,我們一般首先會講概念模式、邏輯模式、物理模式等。物理模式與系統(tǒng)相關(guān)、概念模式太粗略,所以實(shí)際應(yīng)用最廣的是易于溝通的邏輯模式。全球數(shù)倉中最有名的是Teradata(天睿公司,美國前十大上市軟件公司之一),在數(shù)倉和商業(yè)智能領(lǐng)域馳騁多年、立于不敗地位,微軟有個操作系統(tǒng)在數(shù)倉里面某種程度上壟斷了主要行業(yè)的LDM,金融領(lǐng)域FS-LDM目前主要用的是90年代開始沿襲的Teradata的那一套,電信、交通、能源、醫(yī)療行業(yè)都是一樣,但是Teradata的LDM沒有跨領(lǐng)域的LDM,主要是國外沒有大規(guī)模的“三融五跨”實(shí)踐,目前這方面還是空白,我們基于海外研究和國內(nèi)實(shí)際,組建了GLDM--政務(wù)(五跨)邏輯數(shù)據(jù)模型。
GLDM--政務(wù)(五跨)邏輯數(shù)據(jù)模型,目的是讓數(shù)據(jù)大航海,出發(fā)前“知道哪個地方是小島、有海峽、有暗溝、適合走”“有海圖、航路、指南針、輪船,知道往哪個方向去,最后還能駛向彼岸”。①數(shù)據(jù)大航海的“海圖”實(shí)際對應(yīng)信息化背景來說,是公路系統(tǒng)和元數(shù)據(jù)管理系統(tǒng),政府每個委辦局、每個部門的數(shù)據(jù)從在哪兒、從哪里來等每一步的操作都可以集中展示出來。②“指南針”是不走彎路、錯路、邪路,一個是數(shù)據(jù)標(biāo)準(zhǔn)化,減少數(shù)據(jù)清洗工作,在可預(yù)見的未來,數(shù)據(jù)清洗工作只可減少、不會消失;不走邪路,數(shù)據(jù)泄露方面,2017年共抓了一萬五千多人、辦了4999個案件,如果非法提供或者獲取超過50條,就可以判三年以下有期徒刑,500條以上可以判3年以上7年以下有期徒刑,所以立法是很嚴(yán)格的。政府的數(shù)據(jù)監(jiān)管是一條紅線,如何恪守這條紅線也是非常重要的內(nèi)容。③“輪船”,需要數(shù)據(jù)質(zhì)量治理平臺(舵)和五跨數(shù)據(jù)融合平臺(發(fā)動機(jī))。
總結(jié)起來,從海圖、航路、指南針、輪船等七個模塊構(gòu)成了走出哥倫布式“數(shù)據(jù)大航海”的要件,當(dāng)然圍繞這些,還有港口、貨物等模塊。在此也要感謝政府對我們技術(shù)研發(fā)的重視和支持。目前我們國內(nèi)外專利有290多個,并參與了深圳核心數(shù)據(jù)元標(biāo)準(zhǔn)制定等多個數(shù)據(jù)治理、數(shù)據(jù)質(zhì)量相關(guān)項目。我們希望政府?dāng)?shù)據(jù)治理、三融五跨能做好,實(shí)際上我們也是國際數(shù)據(jù)質(zhì)量管理理論的奠基團(tuán)隊之一,結(jié)合技術(shù)標(biāo)準(zhǔn)和業(yè)務(wù),特別是實(shí)踐,實(shí)戰(zhàn)的技術(shù)都是在琢磨中產(chǎn)生的。我們理解的數(shù)據(jù)治理,包括對數(shù)據(jù)目錄、元數(shù)據(jù)、主數(shù)據(jù)、參考數(shù)據(jù)、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量的治理等,政府的“主數(shù)據(jù)治理”主要是基礎(chǔ)庫和主題庫的治理。
三、政務(wù)數(shù)據(jù)治理的最佳實(shí)踐:四重治理網(wǎng)、六層流水線
最佳實(shí)踐方面,數(shù)據(jù)治理分兩大門類,一類在我們公司內(nèi)部叫數(shù)據(jù)治理(慢加工),另一個是數(shù)據(jù)融合(快加工)?!奥庸ぁ焙汀翱旒庸ぁ边_(dá)成的數(shù)據(jù)質(zhì)量不一樣,“快加工”是達(dá)成“多源一致”的數(shù)據(jù)質(zhì)量、滿足數(shù)據(jù)的分析型應(yīng)用,“慢加工”達(dá)成的是權(quán)威確認(rèn)的質(zhì)量。
“快加工”相當(dāng)于給每個城市、每個區(qū)縣、每個省建一個數(shù)據(jù)“煉油廠”,進(jìn)去的是碎片化的數(shù)據(jù),出來的是數(shù)據(jù)資源和數(shù)據(jù)資產(chǎn),包括剛才講的基礎(chǔ)庫、主題庫等。怎么去建立一個“煉油廠”呢?汽車工業(yè)的流水線是一個很高效的加工方式,數(shù)據(jù)煉油廠也像富士康的流水線工廠,只不過這里有人類、機(jī)器,能自動化的地方讓它自動化,不能自動化的地方就人來做。這里我們分了“六層流水線”,包括歷史層、標(biāo)準(zhǔn)層、原子層、整合層、主題層、應(yīng)用層,主要是對數(shù)據(jù)進(jìn)行差錯、改錯,這里有流程再造的工作,不進(jìn)行流程再造可能會持續(xù)產(chǎn)生一些錯誤,還需要改系統(tǒng)是因為軟件系統(tǒng)bug引進(jìn)的錯誤,更主要的是數(shù)據(jù)清洗等。
快加工的原理是“四定五加工”,最好是定源定目標(biāo)。像編程的一個函數(shù),如果把輸入輸出定好了,最后無外乎算法對不對、中間是否優(yōu)化的問題?!半p調(diào)”是數(shù)據(jù)調(diào)研和業(yè)務(wù)調(diào)研,雙調(diào)是為雙融服務(wù),“雙融”是數(shù)據(jù)融合和業(yè)務(wù)融合。我們會調(diào)研清楚每一個委辦局的業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)模型有沒有數(shù)據(jù)規(guī)范、數(shù)據(jù)標(biāo)準(zhǔn)、字段如何命名(尤其是數(shù)據(jù)字典遺失的時候)、數(shù)據(jù)源、每個數(shù)據(jù)的類型、數(shù)據(jù)元代碼集是怎樣的、是如何標(biāo)識每個數(shù)據(jù)的,這個都調(diào)研清楚后,其實(shí)是信息資源目錄編制和調(diào)研的內(nèi)容。
在這個基礎(chǔ)上,我們想把委辦局?jǐn)?shù)據(jù)達(dá)到一種怎樣的狀態(tài)呢?目標(biāo)是基礎(chǔ)目錄。基礎(chǔ)庫包括人口、法人等,如人用身份證標(biāo)識,房屋、項目、地址用什么標(biāo)識就沒那么簡單了,如何標(biāo)識一個實(shí)體、這個實(shí)體每個屬性如何定義和用什么類型定義、每個屬性如何命名、這些屬性最后搭建的模型和表是一個怎樣的標(biāo)準(zhǔn),由此完成定源、定目標(biāo)的工作。
但光定源、定目標(biāo)還不行,中間還要定一個附件:數(shù)據(jù)加工的過程很像手機(jī)翻新,拿來10個舊手機(jī)、最后想翻新5個新手機(jī),假設(shè)10個舊手機(jī)分布在不同的委辦局和不同的業(yè)務(wù)系統(tǒng)中,可以先把10個舊手機(jī)拆拆成最小的零件,標(biāo)識哪些零件好、哪些零件不好,好的取出來組合成新手機(jī);后面組裝的過程就是我這里寫的“后加工”;零件的標(biāo)準(zhǔn)就是數(shù)據(jù)元的標(biāo)準(zhǔn);把它拆掉的過程,就是“前加工”;前加工之前還得在共享交換平臺進(jìn)行梳理。盡量把目錄層的東西全集中起來,做數(shù)據(jù)集中到歸集層,從歸集層開始走共享數(shù)據(jù)去融合、走后面六層。所以定源頭、定部件、定目標(biāo)(兩類模型),最后給大家用還得定接口,就像微服務(wù),其實(shí)它是數(shù)據(jù)的接口,中間的加工過程我就不細(xì)講了。
基本信息對應(yīng)的是一張表或者若干張表,最后組成LDM的數(shù)據(jù)模型。模型定好后,我們要確定用什么原則來加工,不要因人而異、因時而異、因事而異,大通鋪、新鮮度原則等都會有問題。分區(qū)治理、分層加工,比如歷史層會做數(shù)據(jù)拉鏈、時間戳等,所有做錯的都可以追溯,每一個版本都會進(jìn)歷史數(shù)據(jù)管理系統(tǒng)。這個版本我們一般是每個月做一個快照,有點(diǎn)像壓縮軟件壓縮、SBN、DF原理,后邊每一層做的操作也會進(jìn)源數(shù)據(jù)管理系統(tǒng),每一層建立的新的表格、新的數(shù)據(jù)資源等用元數(shù)據(jù)管理系統(tǒng)管理起來,其標(biāo)準(zhǔn)來自于標(biāo)準(zhǔn)治理系統(tǒng)(標(biāo)準(zhǔn)圖書館)。剛才說全國幾十萬數(shù)據(jù)庫,每個數(shù)據(jù)架構(gòu)師、工程師都有自己的定義辦法,現(xiàn)有標(biāo)準(zhǔn)大家可以一起去看,這就需要一個參考數(shù)據(jù)管起來,所以我們看到這里的每一層都去操作統(tǒng)一的元數(shù)據(jù)、標(biāo)準(zhǔn)、參考數(shù)據(jù)、歷史數(shù)據(jù)管理系統(tǒng),當(dāng)然標(biāo)準(zhǔn)層是標(biāo)準(zhǔn)化、原子層是最小顆?;⒔M合層是重新組裝,在主題層之前做的類似數(shù)據(jù)預(yù)覽,往往是讓大家在商業(yè)智能、政務(wù)智能中迅速取數(shù)的加工,后面還有定制加工,讓數(shù)據(jù)能符合每個接口。一個城市的權(quán)利責(zé)任清單大概有5000多項,一個權(quán)責(zé)事項至少需填1-2張表、有一些審批和證件,接口有幾萬個,幾萬個接口去用這些數(shù)據(jù),就涉及定制。
我們對數(shù)據(jù)治理的四個圈層:第一個是委辦局業(yè)務(wù)庫。各委辦局的數(shù)據(jù)是分布式,全國來說是跨區(qū)域、跨層級的。第二層是目錄數(shù)據(jù),是業(yè)務(wù)庫中已經(jīng)調(diào)研出來在信息資源目錄中能找到的數(shù)據(jù),按照現(xiàn)在國家發(fā)布的政策,有“不予共享、有條件共享、無條件共享”三類,目錄數(shù)據(jù)是業(yè)務(wù)數(shù)據(jù)的一個子集,這里包括有條件共享、無條件共享的數(shù)據(jù)。第三層是歸集數(shù)據(jù),做了數(shù)據(jù)集中,把目錄數(shù)據(jù)中無條件共享的數(shù)據(jù)放到一個大數(shù)據(jù)中心。第四層是融合數(shù)據(jù),指在大數(shù)據(jù)中心做了深度加工融合的基礎(chǔ)庫、主題庫數(shù)據(jù)??缭饺拥脑瓌t,比如在編制目錄時候應(yīng)“能享盡享”,歸集數(shù)據(jù)時“應(yīng)采盡采”,融合數(shù)據(jù)時“以用促融”。
我們對智慧城市、數(shù)字政府的數(shù)據(jù)治理,其實(shí)是三個層面的事,包括數(shù)據(jù)、系統(tǒng)、服務(wù),三者形成政府跨部門數(shù)據(jù)加工的過程。
附:國脈,是領(lǐng)先的大數(shù)據(jù)治理和數(shù)字政府專業(yè)提供商。創(chuàng)新提出“軟件+咨詢+平臺+數(shù)據(jù)+創(chuàng)新業(yè)務(wù)”五位一體服務(wù)模型,擁有數(shù)據(jù)基因和水巢DIPS兩大系列幾十項軟件產(chǎn)品,長期為中國智慧城市、智慧政府和智慧企業(yè)提供專業(yè)咨詢規(guī)劃和數(shù)據(jù)服務(wù),廣泛服務(wù)于信息中心、大數(shù)據(jù)局、行政服務(wù)中心等政府客戶、中央企業(yè)和金融機(jī)構(gòu)。自2004年成立以來,已在全國七大區(qū)域設(shè)立20余家分支機(jī)構(gòu)、5大技術(shù)研發(fā)基地,服務(wù)客戶2000余家,執(zhí)行項目5000余個,連續(xù)多年開展中國政府網(wǎng)站、智慧城市、互聯(lián)網(wǎng)+政務(wù)、營商環(huán)境等公益評估評選活動。被業(yè)界譽(yù)為中國信息化民間智庫知名品牌、電子政務(wù)優(yōu)選咨詢機(jī)構(gòu),國內(nèi)首倡智慧政府理念,首創(chuàng)智慧城市、數(shù)據(jù)治理、互聯(lián)網(wǎng)+政務(wù)評價體系,首推數(shù)據(jù)資產(chǎn)普查、全口徑數(shù)據(jù)資源目錄、數(shù)據(jù)元標(biāo)準(zhǔn)化、數(shù)源確認(rèn)與供需對接、最多跑一次事項梳理、營商通等產(chǎn)品,信息資源編目、公共數(shù)據(jù)普查等業(yè)務(wù)全國占有率和影響力名居榜首。
注:獲取更多會議信息及嘉賓演講資料,歡迎登錄“2018智慧中國年會官網(wǎng)”。
現(xiàn)場照片直播分享: