政務大數(shù)據(jù)在物理上分為“數(shù)據(jù)存儲、數(shù)據(jù)計算和數(shù)據(jù)服務”三個重要層面,其物理模型示意圖如下:

政務大數(shù)據(jù)的物理模型

  就政務大數(shù)據(jù)的物理模型整體而言,存儲層是技術基礎、計算層是核心能力、服務層是核心價值。立體、全方位(全面覆蓋數(shù)據(jù)訪問鑒權認證、數(shù)據(jù)安全傳輸和數(shù)據(jù)安全存儲等全過程&全生命周期)的安全保障機制與體系建設是政務大數(shù)據(jù)提供和使用服務的基本前提。綜合、系統(tǒng)化(充分運用系統(tǒng)工程思想,不斷提升、優(yōu)化整個鏈條的價值再生&可持續(xù)能力)的運營支撐機制與體系建設是為實現(xiàn)政務大數(shù)據(jù)“自治和自優(yōu)化”這一最終目標做準備的。注:在《政務大數(shù)據(jù)的本質(zhì)》一文中提到:“政務大數(shù)據(jù)的未來是數(shù)據(jù)自治”。

  有關政務大數(shù)據(jù)的立體安全保障機制與體系建設將在后續(xù)文章《政務大數(shù)據(jù)的安全》中具體展開,有關政務大數(shù)據(jù)的綜合運營支撐機制與體系建設將在后續(xù)文章《政務大數(shù)據(jù)的運營》中具體展開,本文重點討論政務大數(shù)據(jù)的存儲、計算和服務三層物理模型。

  如同資源虛擬化是實現(xiàn)云計算的重要具體技術,大數(shù)據(jù)也離不開數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、決策支持、商業(yè)智能、分布式計算等傳統(tǒng)IT技術。然而,大數(shù)據(jù)是一個更加綜合、龐雜的生態(tài)體系,它需要IT技術的支撐但不僅僅是IT技術本身,其本質(zhì)上還是數(shù)據(jù),是能夠資源化的、有商業(yè)價值的數(shù)據(jù)。海量數(shù)據(jù)始終存在,但以前將其存儲起來是一個問題,隨著存儲軟硬件技術的發(fā)展,容量已經(jīng)不是問題,可以實際利用的海量數(shù)據(jù)就產(chǎn)生了。還有就是計算能力的快速發(fā)展,使得基于海量數(shù)據(jù)進行全樣本的計算和分析由不可能變成現(xiàn)實。具體到政務大數(shù)據(jù)而言,很多時候其體量并不大,原因在于長期以來被人為的按照地域、按照職能、按照主題、按照數(shù)據(jù)類型分割了。這種分割的現(xiàn)狀源于之前對全樣本數(shù)據(jù)進行存儲、通信和計算的能力局限,以及數(shù)據(jù)的價值密度過低而持有成本過高。隨著互聯(lián)網(wǎng)產(chǎn)業(yè)的快速發(fā)展,以及物聯(lián)網(wǎng)、工業(yè)4.0以及機器智能技術的不斷成熟,政務大數(shù)據(jù)具備了發(fā)展的土壤,也具備了發(fā)展的時機。歸根到底,政務大數(shù)據(jù)的核心價值在于政務優(yōu)化(協(xié)同、治理、服務和決策)。如果政務優(yōu)化比作一個人的綜合價值,存儲層就是其記憶的信息和知識(記憶力和記憶量),計算層是其學和做的能力(智商和反應能力),服務層是其結(jié)果規(guī)劃、產(chǎn)出能力(大局觀、情商和效率)。

  政務大數(shù)據(jù)的存儲層從大的方面來講就是要解決好結(jié)構化和非結(jié)構化兩類數(shù)據(jù)的存儲問題。這兩類數(shù)據(jù)并不孤立,而且需要相互轉(zhuǎn)化:非結(jié)構化的數(shù)據(jù)往往需要將其屬性信息結(jié)構化,如視頻、圖像、聲音、文檔等非結(jié)構化數(shù)據(jù)所表達的主題、關鍵詞、人物對象等信息往往會以結(jié)構化的方式予以展現(xiàn);同時,結(jié)構化的信息也需要轉(zhuǎn)換成非結(jié)構化的形式,比如企業(yè)或個人信用信息往往需要形成一份可讀的文檔型的信用報告,還有類似語音導航、智能設備的智能控制,根據(jù)矢量數(shù)據(jù)進行地圖繪制以及三維建模等都是在把結(jié)構化的內(nèi)容進行非結(jié)構化。因此,結(jié)構化和非結(jié)構化數(shù)據(jù)是緊密聯(lián)系的,也是可以相互轉(zhuǎn)化的。不太認同劃分出第三類數(shù)據(jù)“半結(jié)構化”,基本上這類數(shù)據(jù)就是結(jié)構化數(shù)據(jù)和非結(jié)構化數(shù)據(jù)的混合模式。

  鑒于政務信息資源的特點,其數(shù)據(jù)是結(jié)構化還是非結(jié)構化往往取決于其原始來源和用途目的的綜合作用。如攝像頭采集的是圖形、圖像信息或者音視頻信息,在交通及治安執(zhí)法時需要識別人物(人臉)、車牌,就需要把非結(jié)構化的圖像轉(zhuǎn)化為結(jié)構化的信息。又如相關物聯(lián)網(wǎng)設備傳感器采集的溫度、濕度、pm2.5、甲醛等結(jié)構化數(shù)據(jù),往往需要刻畫出圖文并茂的環(huán)境質(zhì)量報告。再如公共資源交易信息,即有非結(jié)構化的標書、投標書、技術圖紙等數(shù)據(jù),也有結(jié)構化的交易主體、交易過程及結(jié)果信息、評審專家信息等數(shù)據(jù)。結(jié)構化和非結(jié)構化混合是常態(tài),分別開來的時候往往是場景不同。

  從具體的數(shù)據(jù)庫管理平臺來講,傳統(tǒng)的數(shù)據(jù)庫如ORACLE、SQLSERVER、DB2、SYBASE、MYSQL、POSTSQL等以及達夢、人大金倉、南大通用等國產(chǎn)數(shù)據(jù)庫多為關系型數(shù)據(jù)(SQL數(shù)據(jù)庫),適合存儲結(jié)構化數(shù)據(jù)、適合事務處理(強調(diào)ACID特性:Atomicity、Consistency、Isolation和Durability)。與之對應的是NOSQL(Not only Sql)數(shù)據(jù)庫,這個種類比較龐雜,廣義來講面向文檔的MongoDB、CouchDB等,圖形(Graph)數(shù)據(jù)庫Neo4j、AllegroGrap、GraphDB等,內(nèi)存數(shù)據(jù)庫memcached、Redis、ROMA等,面向列的Cassandra、HBase等(強調(diào)CAP特性:Consistency、Availability和Partitiontolerance)。從某種程度上來講,NOSQL是在分布式存儲的飛速發(fā)展和日益成熟而逐漸登上舞臺成為SQL數(shù)據(jù)的重要補充的。當然,分布式存儲并非NOSQL數(shù)據(jù)的專屬,傳統(tǒng)的關系型數(shù)據(jù)庫也同樣對分布式存儲有較好的支持。如果說分布式計算本質(zhì)是在充分共享利用關鍵計算資源和負載分擔,那么對應于分布式計算的分布式存儲就是依賴于分布式文件系統(tǒng),來提高存儲能力的可擴展性。

  在搭建政務大數(shù)據(jù)的物理結(jié)構時,可以參考淘寶商城(采用阿里自主研發(fā)的Oceanbase和Tair),優(yōu)酷(采用開放的HBase、MongoDB和Redis)等典型方案??紤]到結(jié)構化數(shù)據(jù)和非結(jié)構化數(shù)據(jù)的綜合支持以及自主可控的指標,也可以采用國產(chǎn)數(shù)據(jù)庫組合方案(DM/GBase/KingbaseES/OpenBASE/神通數(shù)據(jù)庫等+SequoiaDB巨杉數(shù)據(jù)庫等)或者開放的存儲平臺(Mysql+HBase、MongoDB和Redis)以及基于全文檢索的ES(ElasticsSearch)/Apache Solr等。伴隨著云計算的快速發(fā)展,致力于DaaS的云數(shù)據(jù)庫也會成為搭建政務大數(shù)據(jù)存儲層的重要選擇(前提是安全、自主和可控三者的良好平衡)。

  政務大數(shù)據(jù)的計算層是圍繞著政務業(yè)務來展開的,政務大體上可以分為協(xié)同(G2G:政府對政府)、治理(G2S:政府對社會)、服務(G2C:政府對公眾&G2B:政府對企業(yè))和決策(G2S:政府對社會)四個部分。其中,政務大數(shù)據(jù)的治理和決策是政府對社會的治理和決策的重要組成部分;政務協(xié)同是政府對外提供政務服務的基礎,政府各組成部門以及公務員之間通過工作協(xié)同使政務數(shù)據(jù)協(xié)同起來、聚合起來形成統(tǒng)一的政務信息資源庫。政務的治理過程既是政府對社會的監(jiān)督、管理基礎上的治理,也是對政務信息資源庫的數(shù)據(jù)治理。政務的服務與決策是基于政務信息資源庫的,也是以政務協(xié)同和治理為前提的。在提供服務和智慧決策的過程中,政務大數(shù)據(jù)的作用十分重要。因此,在政務活動中產(chǎn)生的政務大數(shù)據(jù)的原始信息——政務信息資源庫,需要通過關聯(lián)分析、聚類分析、分類、預測、時序模式和偏差分析等數(shù)據(jù)挖掘技術以及信息組合、數(shù)學建模、相關性分析等數(shù)據(jù)計算。

  政務大數(shù)據(jù)的計算層就是要把分散在各個原始存儲單元中的數(shù)據(jù)進行重新組合、運算形成更全貌、綜合或者更深層次、全新的數(shù)據(jù)價值。從政務的特點來看,其實時/準實時計算里既包含面向業(yè)務分析的OLAP(實時在線分析),也包含面向業(yè)務的OLTP(實時事務處理);非實時[離線]計算里,既包括面向業(yè)務分析的離線分析,也包括面向業(yè)務的離線處理。

  就政務大數(shù)據(jù)而言,其計算層主要是面向業(yè)務分析的實時/準實時和離線計算。其中,政務大數(shù)據(jù)的離線計算仍是適用數(shù)據(jù)倉庫基本理論:如維度表和事實表的深度融合構成維度模型;基于數(shù)據(jù)立方體實現(xiàn)五種基本操作(consolidation/roll-up、drill-down、slice、dice和pivot);融合了ROLAP[關系型]和MOLAP[多維]的HOLAP[混合型]分析;以ODS[Operational Data Store]為主要存儲模式等)。政務大數(shù)據(jù)的離線計算可以采用MapReduce分布式計算模型(如Spark集群計算環(huán)境)和Apache Hive基于Hadoop的數(shù)據(jù)倉庫工具;實時計算可以采用Apache Storm+Redis來實現(xiàn);日志處理方面可同時使用Flume(日志收集管道)和Kafka(分布式消息隊列),日志流向可以從log到Kafka,再從kafka到Strom上,再由Flume去讀取日志消息。

  政務大數(shù)據(jù)的服務層是基于計算層的支撐來實現(xiàn)的,按照計算層的政務協(xié)同、政務治理、政務服務和政務決策四類政務大數(shù)據(jù)群組,依次衍生出“協(xié)同流程、協(xié)同成效”,“治理體系、治理收益”,“服務提供、服務優(yōu)化”和“政務研判、政務預測”等八大政務業(yè)務主題域。

  其中,協(xié)同流程重點是提供政務活動的業(yè)務流程、過程數(shù)據(jù)支持,協(xié)同成效是對政務活動的價值評估、衡量,兩者共同構成政務大數(shù)據(jù)在協(xié)同層面提供的數(shù)據(jù)基礎服務、增值服務和價值創(chuàng)新;治理體系是政務監(jiān)管評價、綜合治理在政務數(shù)據(jù)層面上進行具體保障的系統(tǒng)性規(guī)劃以及工具集、作業(yè)集,治理收益是治理效果的具體量化、數(shù)據(jù)展現(xiàn);服務提供和服務優(yōu)化也是相輔相成的,前者是基礎、后者是用于政務服務的自我改進、提升;政務研判是對政務活動的研究、分析和判定,核心目標是政務預測,即服務于對政務活動的未來預測、更好支撐未來的政務活動。從技術落地上來講,政務大數(shù)據(jù)的服務層是需要可視化技術、機器智能技術進行支撐的,前者用于展現(xiàn)展示和基礎互動,后者用于基于AI技術的虛擬“專家”智庫/團隊。其中,可視化技術未來必然是要和VR(Virtual Reality)、AR(Augmented Reality)、MR(Mixed Reality)、HR(Holographic Reality)、ER(Expander Reality)等XR技術相融合,來提高人與數(shù)據(jù)的互動。

  關于政務大數(shù)據(jù)在服務層的8大業(yè)務主題域(政務大數(shù)據(jù)的本質(zhì)就是政務,所以也是政務的8大業(yè)務主題域),計劃在漫談政務大數(shù)據(jù)系統(tǒng)文章完稿后,再分別做專題討論,所以本文就不再進一步深入闡述了。

  簡言之,政務大數(shù)據(jù)的物理模型是服務于其概念模型,依據(jù)其邏輯模型進行政務大數(shù)據(jù)的實際實施、落地的。政務大數(shù)據(jù)的范圍非常廣泛,本文僅對整體脈絡、通用業(yè)務、常用技術進行了說明。鑒于作者本人的學識、經(jīng)驗所限,相關內(nèi)容難免有偏頗甚至錯誤之處,非常歡迎感興趣的同仁一起研討。同時,也會持續(xù)在該領域進行研究,并將心得、體會及時與大家分享。

責任編輯:qinpeng