6月2日上午,“2018數(shù)字政府與政務(wù)大數(shù)據(jù)建設(shè)高層研討會(huì)”在北京國(guó)際展覽中心召開(kāi),本次論壇由國(guó)脈數(shù)據(jù)研究院主辦,北京國(guó)脈互聯(lián)信息顧問(wèn)有限公司、浙江蟠桃會(huì)網(wǎng)絡(luò)技術(shù)有限公司承辦,國(guó)脈海洋信息發(fā)展有限公司支持,來(lái)自國(guó)內(nèi)政務(wù)大數(shù)據(jù)領(lǐng)域的管理者、研究者、實(shí)踐者等數(shù)百人到場(chǎng)參會(huì)。

blob.png

▲2018數(shù)字政府與政務(wù)大數(shù)據(jù)建設(shè)高層研討會(huì)召開(kāi)

  會(huì)上,北京神州云聯(lián)科技有限公司咨詢(xún)顧問(wèn)張瑞飛以“大緩存、大交換、大共享”為題發(fā)表演講。他從政務(wù)大數(shù)據(jù)建設(shè)趨勢(shì)出發(fā),深入分析我國(guó)大數(shù)據(jù)發(fā)展戰(zhàn)略在電子政務(wù)上的重點(diǎn)方向,并提出數(shù)字中國(guó)建設(shè)的核心能力是數(shù)據(jù)交換與共享;又從大數(shù)據(jù)業(yè)務(wù)應(yīng)用的變化出發(fā),闡述了傳統(tǒng)大數(shù)據(jù)平臺(tái)忽略的大數(shù)據(jù)交換共享問(wèn)題以及現(xiàn)有ETL數(shù)據(jù)處理不適應(yīng)數(shù)據(jù)分析業(yè)務(wù)的缺陷問(wèn)題,他表示,現(xiàn)有業(yè)務(wù)需求的變化要求數(shù)據(jù)實(shí)時(shí)響應(yīng)需求,因此必須采取新一代流數(shù)據(jù)處理架構(gòu)。

  以下是會(huì)議現(xiàn)場(chǎng)發(fā)言要點(diǎn)實(shí)錄(根據(jù)現(xiàn)場(chǎng)速記和錄音整理,未經(jīng)本人審核):

  一、電子政務(wù)大數(shù)據(jù)建設(shè)趨勢(shì)分析

  從國(guó)家一些政策來(lái)看,2015年開(kāi)始,國(guó)務(wù)院發(fā)布了《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,提出了開(kāi)放和共享做大數(shù)據(jù)治理的思路。2016、2017年,國(guó)務(wù)院、國(guó)家發(fā)改委做了互聯(lián)網(wǎng)、人工智能的強(qiáng)化活動(dòng),將人工智能和行業(yè)大數(shù)據(jù)進(jìn)行結(jié)合。去年11月10日,中央政治局在進(jìn)行第二次集中學(xué)習(xí)時(shí),提出讓信息多跑路,讓民眾少跑腿,實(shí)施數(shù)字中國(guó)戰(zhàn)略。

  關(guān)于數(shù)字中國(guó)的建設(shè),今年網(wǎng)信辦和發(fā)改委評(píng)出30個(gè)最佳實(shí)踐案例,在最佳實(shí)踐里的項(xiàng)目名稱(chēng)中有10個(gè)項(xiàng)目提到交換和共享,剩下的項(xiàng)目在內(nèi)容里也絕對(duì)產(chǎn)生了交換和共享思路。我們現(xiàn)在處在一個(gè)大數(shù)據(jù)交換和共享時(shí)代,在這個(gè)時(shí)代,我們?nèi)绾稳?shí)現(xiàn)數(shù)據(jù)匯聚?如何從數(shù)據(jù)匯聚走到數(shù)據(jù)共享、數(shù)據(jù)交換和使用?我認(rèn)為這個(gè)過(guò)程在未來(lái)五年會(huì)不斷地出現(xiàn),不斷通過(guò)數(shù)據(jù)交換、共享釋放我們的生產(chǎn)力,通過(guò)大數(shù)據(jù)釋放整個(gè)工作效率??梢钥吹浇粨Q和共享的威力,從一天時(shí)間辦一個(gè)業(yè)務(wù),現(xiàn)在可以縮短到10分鐘。

  二、大數(shù)據(jù)業(yè)務(wù)應(yīng)用正在發(fā)生變化

  傳統(tǒng)的大數(shù)據(jù)業(yè)務(wù)面臨著比較大的挑戰(zhàn),第一個(gè)是傳統(tǒng)大數(shù)據(jù)的數(shù)據(jù)源很多。過(guò)去我們?cè)鲞^(guò)一個(gè)實(shí)驗(yàn),大數(shù)據(jù)要服務(wù)很多商業(yè)、企業(yè)和政府的辦公系統(tǒng),我們逐漸建立了一些數(shù)據(jù)倉(cāng)庫(kù),希望把數(shù)據(jù)從普通交易數(shù)據(jù)庫(kù)放到數(shù)據(jù)倉(cāng)進(jìn)行統(tǒng)一保存和存儲(chǔ),但這一愿景和目標(biāo)到今天還是沒(méi)有實(shí)現(xiàn),很多數(shù)據(jù)還是割裂的,數(shù)據(jù)倉(cāng)庫(kù)能夠覆蓋的范圍很有限。隨著大數(shù)據(jù)平臺(tái)的出現(xiàn),我們會(huì)看到越來(lái)越多的這類(lèi)問(wèn)題,更多的系統(tǒng)變得更加分散。大數(shù)據(jù)平臺(tái)本身有幾十個(gè)讓我們?nèi)ナ煜?、使用,在傳統(tǒng)的數(shù)據(jù)倉(cāng)里我們又維護(hù)了一套數(shù)據(jù)系統(tǒng),數(shù)據(jù)倉(cāng)和大數(shù)據(jù)是很難打通的,在今天也沒(méi)能實(shí)現(xiàn)。90年代提出用一個(gè)統(tǒng)一的方法來(lái)統(tǒng)計(jì)數(shù)據(jù),這個(gè)目標(biāo)目前是沒(méi)辦法達(dá)成的。

  這里面有個(gè)核心問(wèn)題:做數(shù)據(jù)忽略了數(shù)據(jù)交換和共享。這個(gè)問(wèn)題以前很少被提到,第一次是Google在2014年提出的,2015年亞馬遜提出一個(gè)設(shè)計(jì)理念,支持幾十萬(wàn)個(gè)數(shù)據(jù)源不限量。舉一個(gè)公安的技偵例子,要通過(guò)技術(shù)偵查手段把互聯(lián)網(wǎng)信息、現(xiàn)場(chǎng)勘察信息、指紋信息、DNA信息進(jìn)行技術(shù)分析,可以想象公安的數(shù)據(jù)量在互聯(lián)網(wǎng)時(shí)代面臨的數(shù)據(jù)壓力。當(dāng)出現(xiàn)這個(gè)壓力時(shí),最難的是如何解決卡口、網(wǎng)監(jiān)、信令、法制、反恐、事件、接處警、詢(xún)問(wèn)、檔案等服務(wù)問(wèn)題。

  Google在2014年提到一個(gè)觀點(diǎn),當(dāng)時(shí)報(bào)道世界杯時(shí)需要一個(gè)新方法,被命名為數(shù)據(jù)流水線(xiàn),Google正在給世界貢獻(xiàn)一個(gè)全新的生態(tài),這個(gè)生態(tài)不同于早期的Hadoop開(kāi)源的生態(tài)。

  2015年,亞馬遜看到Google的動(dòng)作后,跟進(jìn)了一個(gè)策略,提了三個(gè)方向,既支持批量又支持實(shí)時(shí),這一點(diǎn)很難,目前絕大部分中國(guó)企業(yè)完全不支持。在2011年的時(shí)候提到一個(gè)架構(gòu),現(xiàn)在國(guó)內(nèi)95%左右的數(shù)據(jù)普遍采用的一個(gè)技術(shù)架構(gòu),可能很多數(shù)據(jù)是放在HDM,有些數(shù)據(jù)放在一個(gè)流水線(xiàn)上,前面做了一個(gè)緩存和Hadoop數(shù)據(jù)進(jìn)行交互,大量的系統(tǒng)是這樣的架構(gòu),但它有一個(gè)非常大的弱點(diǎn),不能同時(shí)支持實(shí)時(shí)和批量,實(shí)時(shí)和批量是兩套系統(tǒng)、兩套數(shù)據(jù)庫(kù)。2011年全球提出這個(gè)方向,那是中國(guó)大數(shù)據(jù)興起的時(shí)候,第一基于開(kāi)源系統(tǒng),第二基于云服務(wù)的生態(tài),第三是靈活擴(kuò)展,指數(shù)據(jù)不限量,可以處理PB或更大,都需要一個(gè)橫向擴(kuò)展能力,對(duì)數(shù)據(jù)源也不限量,可以是幾十個(gè),甚至是幾百,但在亞馬遜看來(lái)是不夠的,希望是幾十萬(wàn)個(gè)數(shù)據(jù)源。

  基于這樣的架構(gòu),我們?cè)趪?guó)內(nèi)的發(fā)展態(tài)勢(shì)要彌補(bǔ)過(guò)去大數(shù)據(jù)的不足,我們也沒(méi)辦法顛覆原來(lái)的大數(shù)據(jù)架構(gòu),重新構(gòu)造一套可能不現(xiàn)實(shí),希望有一個(gè)新方法來(lái)解決它的問(wèn)題,我們就提出了一個(gè)大數(shù)據(jù)前置的部分,希望建立一個(gè)大緩存,這個(gè)緩存可以基于內(nèi)存。緩存的意思好理解,把它處理到PB級(jí),達(dá)到這樣的技術(shù)手段,實(shí)現(xiàn)特別大的緩存,在這個(gè)緩存上實(shí)現(xiàn)數(shù)據(jù)交換和共享的能力,來(lái)支撐和彌補(bǔ)我們以前在大數(shù)據(jù)架構(gòu)上的不足。

  我們借鑒Google和亞馬遜的方式,建設(shè)了大數(shù)據(jù)共享平臺(tái),支持各種數(shù)據(jù)源實(shí)時(shí)和批量的數(shù)據(jù)交換。在數(shù)據(jù)源支持上,可以看到,不只支持?jǐn)?shù)據(jù)庫(kù),數(shù)據(jù)源本身不等于數(shù)據(jù)庫(kù)?,F(xiàn)在這個(gè)時(shí)代,數(shù)據(jù)源也包括網(wǎng)絡(luò)協(xié)議,從互聯(lián)網(wǎng)分裝下來(lái)的協(xié)議,包括中間件或者是各種文件,互聯(lián)網(wǎng)和公共設(shè)備所傳遞的一些設(shè)備,所以數(shù)據(jù)源不能簡(jiǎn)單看是支撐多種數(shù)據(jù)庫(kù)。實(shí)施數(shù)據(jù)管理,數(shù)據(jù)同步、對(duì)比驗(yàn)證、數(shù)據(jù)傳輸、數(shù)據(jù)交換、數(shù)據(jù)質(zhì)量管理,將歷史數(shù)據(jù)和決策數(shù)據(jù)放到一個(gè)平臺(tái),所有人都可以在這個(gè)平臺(tái)上進(jìn)行大數(shù)據(jù)處理。

  以前的大數(shù)據(jù)來(lái)自于不同的源,有不同的格式,所以我們有一個(gè)人工的苦活,全部是通過(guò)手工編寫(xiě)腳本和驗(yàn)證的方法來(lái)實(shí)現(xiàn),要統(tǒng)一成一個(gè)格式來(lái)進(jìn)行加工。我們現(xiàn)在有方法變成自動(dòng)化,通過(guò)數(shù)據(jù)流水線(xiàn)的方式來(lái)實(shí)現(xiàn)數(shù)據(jù)從采集到加工的一體化服務(wù)?,F(xiàn)在亞馬遜正跟我們合作,把它原來(lái)云上的私有云到公有云手動(dòng)遷移改造成一個(gè)自動(dòng)的遷移。這種能力在新的數(shù)據(jù)加工里,有人會(huì)叫做邊緣計(jì)算,在新的架構(gòu)里更強(qiáng)調(diào)通過(guò)統(tǒng)一的數(shù)據(jù)模式、一個(gè)數(shù)字形態(tài),在數(shù)據(jù)采集的時(shí)候就開(kāi)始計(jì)算,而不是把所有的數(shù)據(jù)匯集到一個(gè)集中的節(jié)點(diǎn)或者是集群上進(jìn)行計(jì)算,所以我們賦予了數(shù)據(jù)計(jì)算的邊緣能力。

  我們打通跨部門(mén)的數(shù)據(jù)橋梁,打通的意義在于解決了一個(gè)問(wèn)題,有時(shí)候我們建一個(gè)數(shù)據(jù)平臺(tái)比較容易,但是建一個(gè)數(shù)據(jù)平臺(tái)往往發(fā)現(xiàn)建了一套存儲(chǔ),并沒(méi)有用起來(lái),各個(gè)部門(mén)難以協(xié)調(diào),它的意義在于我們沒(méi)有強(qiáng)行要求數(shù)據(jù)上收,原來(lái)的數(shù)據(jù)邏輯還在,但是通過(guò)一個(gè)交換共享中心能夠輔助快速處理,并且處理的結(jié)果還可以返回,通過(guò)修橋梁的方式,我們更容易實(shí)現(xiàn)數(shù)據(jù)的打通和上收。

  如果只有海量的交換和集群,可能還是不夠。比如中國(guó)人民銀行總行,在未來(lái)希望把3000家銀行、銀保監(jiān)會(huì)、證監(jiān)會(huì)的數(shù)據(jù)匯聚到人民銀行里,難度可想而知,工行一家的數(shù)據(jù)可能會(huì)把人民銀行的數(shù)據(jù)做宕機(jī),3000家銀行的數(shù)據(jù)匯聚起來(lái)是更難的問(wèn)題,除了有快速的交互,還需要有更快速的處理能力,不是兩套系統(tǒng)分別寫(xiě)出來(lái)的。

  為什么選DataHouse?大家覺(jué)得傳統(tǒng)的Hadoop是比較慢,它比我們這套系統(tǒng)能夠慢到600多倍,Hadoop早期是基于批處理數(shù)據(jù),我們希望提供更快速的處理。當(dāng)處理達(dá)到幾百倍的數(shù)量級(jí),比如在公共服務(wù)方面,公安破一個(gè)案子,有可能要對(duì)案件研判和推理,一個(gè)是一周的時(shí)間計(jì)算出來(lái),一個(gè)是一分鐘計(jì)算出來(lái),這是本質(zhì)的差別,不只是性能的差別。我們33個(gè)節(jié)點(diǎn)可以支持2個(gè)PB的數(shù)據(jù)讀寫(xiě),反饋速度是0.01秒來(lái)計(jì)量。

  未來(lái)可以有一些演進(jìn),我們可以整合在datahouse架構(gòu)里面。在橫向就打通數(shù)據(jù)流,從源數(shù)據(jù)到采集、入庫(kù)、處理,實(shí)現(xiàn)了完整打通,沒(méi)有借助于很多的大數(shù)據(jù)平臺(tái),我們是在一個(gè)平臺(tái)上用S來(lái)完成的。

  下面是一些案例,我們利用了大數(shù)據(jù)的能力,也應(yīng)用了人工智能自然語(yǔ)言處理能力,給公安構(gòu)造了10套系統(tǒng),同時(shí)我們也寫(xiě)了一個(gè)數(shù)據(jù)交換共享標(biāo)準(zhǔn)。這是在公安局的一個(gè)實(shí)際測(cè)試,對(duì)技偵大數(shù)據(jù)的測(cè)試,同時(shí)也在交通研究所,把全國(guó)交通卡口所有的圖像上收,來(lái)進(jìn)行一次統(tǒng)一的數(shù)據(jù)分析處理。

  這就是我們剛才講到的技偵數(shù)據(jù)處理,既有DPI的互聯(lián)網(wǎng)分裝的數(shù)據(jù),也有通過(guò)采集和爬蟲(chóng)的數(shù)據(jù),看到分包數(shù)據(jù)的原始狀態(tài),同時(shí)也有設(shè)備上的網(wǎng)關(guān),如何把不同格式的數(shù)據(jù)匯聚到一起,最后提出一個(gè)服務(wù)。這是我們現(xiàn)在這套系統(tǒng)給大家展示的一種能力,不需要先做很多格式轉(zhuǎn)換,做一個(gè)臨時(shí)庫(kù)、臨時(shí)表,分別建數(shù)據(jù)集等,不需要這些東西,這些東西太浪費(fèi)開(kāi)發(fā)精力、周期也太長(zhǎng),我們?cè)诓杉耐瑫r(shí)就可以計(jì)算,計(jì)算的同時(shí)就可以發(fā)布。謝謝大家!

責(zé)任編輯:李泰民