本文系國脈海洋副總經(jīng)理王路燕女士于4月21日在國脈互聯(lián)舉辦的“2017第二屆政務大數(shù)據(jù)發(fā)展與合作研討會暨數(shù)據(jù)母體產(chǎn)品發(fā)布會”上的演講,內(nèi)容通過現(xiàn)場速記整理。

 

 
  非常高興能跟大家分享我們“政務大數(shù)據(jù)基因系統(tǒng)”構建的一些思路。
 
  一、為什么會做“政務大數(shù)據(jù)基因系統(tǒng)”?
 
  我們?nèi)ズ芏嗟胤浇榻B這個產(chǎn)品時,客戶問的第一句話就是:“你們作為一家咨詢公司為什么會做這樣一個產(chǎn)品?”其實,我們從2013年開始做政府數(shù)據(jù)梳理、信息梳理,做了這么多城市的梳理后,我們發(fā)現(xiàn)存在很多問題,包括我們在做一些項目咨詢時,很多項目的咨詢規(guī)劃非常理想,但最后落地卻跟實際有差距。
 
  我們在做這些項目時積累了很多經(jīng)驗,我們在想能不能把我們的一些經(jīng)驗和方法形成一套產(chǎn)品,來實現(xiàn)“咨詢+軟件”這樣一個目標?于是,我們從去年年底開始研發(fā)這套系統(tǒng),到今年2月份發(fā)布,這過程中一直都在完善。
 
  二、“政務大數(shù)據(jù)基因系統(tǒng)”構建思路分享
 
  今天和大家分享以下幾點:第一個是我們前期的理論研究,第二個是對我們整個產(chǎn)品的概述,第三個會講一些具體的場景應用。
 
 ?。ㄒ唬├碚撗芯?/div>
 
  首先是兩個模型,一個是若蘭模型,另一個是米歇模型,大家做應用系統(tǒng)的應該都非常了解。
 
  諾蘭模型。上世紀80年代,美國著名信息管理專家諾蘭提出,整個計算機的發(fā)展應該從六個階段分為計算機時代和信息時代,但在后面大量的實踐中他發(fā)現(xiàn),級層的數(shù)據(jù)管理是不可分割的。
 
  米歇模型。上世紀90年代,米歇就明確提出“級層程序信息系統(tǒng)的級層本質(zhì),就是要做好數(shù)據(jù)的管理”,于是他提出了“米歇模型”。這個模型對整個信息體系的規(guī)劃,包括信息體系的架構,都起到了一個非?;A的作用。
 
  目前,城市數(shù)據(jù)面整合面臨一個難題,就是政府各類應用系統(tǒng)林立,形成了一個個的“信息孤島”,“數(shù)據(jù)整合”的需求可以說非常迫切。但實施起來也是困難重重,在進行系統(tǒng)整合時,隨著不同應用系統(tǒng)的數(shù)量呈算術級數(shù)增加,資源接口數(shù)就會呈N平方增加,進而“資源整合”的投入就會呈指數(shù)級數(shù)增加,因此,面向應用數(shù)據(jù)的直接整合,工作量非常龐大。
 
  田景熙教授提出了一個新概念--數(shù)據(jù)基礎設施(Data Infrastructure - DI)概念。什么是DI?它是一種為滿足社會某種需要而運行的,促進數(shù)據(jù)共享和消費的數(shù)字化基礎設施,其建設和服務體現(xiàn)一定的經(jīng)濟功能。數(shù)據(jù)源不直接交換與共享,而是通過“標準數(shù)據(jù)源”+“接口池”媒介實現(xiàn)。標準數(shù)據(jù)源和接口池就是“數(shù)據(jù)基礎設施”,對異構數(shù)據(jù)源進行交換前的數(shù)據(jù)治理。
 
  那么,怎么樣去實現(xiàn)?我們也研究了一些模型:
 
  1、信息資源“金字塔模型”。它認為數(shù)據(jù)、信息、知識、智慧是層層遞進的,我們從數(shù)據(jù)中獲取信息,而從信息中得到知識,最后從知識中獲取智慧。
 
  2、FEA-DRM聯(lián)邦企業(yè)架構數(shù)據(jù)參考模型。它包括五個模型,技術參考模型(TRM)、數(shù)據(jù)和信息參考模型(DRM)是底層基礎架構。數(shù)據(jù)參考模型的目標是通過標準的數(shù)據(jù)描述、通用數(shù)據(jù)的發(fā)現(xiàn)以及統(tǒng)一的數(shù)據(jù)管理實踐的推廣使得聯(lián)邦政府實現(xiàn)跨機構的信息共享和重用。那么,它具體是怎樣來做的呢?它其實是以整個數(shù)據(jù)元為基礎,通過梳理業(yè)務關系、數(shù)據(jù)分類,實現(xiàn)數(shù)據(jù)的交換共享。
 
 ?。ǘ┊a(chǎn)品概述
 
  數(shù)據(jù)基因(DNA)是指基于數(shù)據(jù)元的標準化編碼上可實現(xiàn)數(shù)據(jù)自由編輯、抽取、復制和關聯(lián)應用的信息技術體系。它是實現(xiàn)數(shù)據(jù)跨系統(tǒng)共享交換、創(chuàng)新應用的底層邏輯和信息規(guī)則。
 
  數(shù)據(jù)基因系統(tǒng)是通過數(shù)據(jù)元管理標準化實現(xiàn)數(shù)據(jù)規(guī)范編輯、智能管理、關聯(lián)應用和共享開放,以提升數(shù)據(jù)資源活化和管理能級,旨在為政府建立數(shù)據(jù)管理體系提供便捷、可靠的工具支撐,幫助梳理數(shù)據(jù)資產(chǎn)清單、統(tǒng)一數(shù)據(jù)口徑、建立數(shù)據(jù)標準、定位數(shù)據(jù)資源、分析資源關系、設計服務模型。整個系統(tǒng)架構包括資源桌面、資源服務、資源管理和資源模板。
 
 ?。ㄈ﹫鼍皯?/div>
 
  下面,我將結合我們做的一些咨詢項目講一下我們這個系統(tǒng)的一些創(chuàng)新服務。
 
  模塊化服務
 
  為什么我們要做模板化服務?我們在做很多項目、去各個部門調(diào)研梳理信息資源時,發(fā)現(xiàn)沒有一個部門能有人把他這個部門到底有哪些資源講清楚,他需要把業(yè)務處的相關人員都叫過來開調(diào)研會,然后我們才可能知道這個業(yè)務處是負責哪塊業(yè)務、都有什么業(yè)務資源。于是,我們在想,我們能不能在這么多咨詢項目和經(jīng)驗的基礎上,來提供一套服務,說清一個城市的核心業(yè)務部門能產(chǎn)生哪些核心業(yè)務數(shù)據(jù)。
 
  我們的模塊化服務,是圍繞基礎類、主題類、部門類提供數(shù)據(jù)元、信息資源模板制作、導入、生成功能,對比篩選設計出城市核心業(yè)務部門的核心業(yè)務信息資源作為整個系統(tǒng)核心數(shù)據(jù)元、信息資源模型,通過模板庫各單位可直接使用數(shù)據(jù)元、信息資源模板,以直接沿用或是自定義修改的方式對模板進行選擇性的編目,達到各部門政務信息資源快速梳理、信息資源體系快速架構的目標。
 
  資產(chǎn)化服務
 
  為什么做資產(chǎn)化服務?我們對很多城市部門系統(tǒng)進行調(diào)研時發(fā)現(xiàn),部門應用系統(tǒng)非常多,網(wǎng)絡也非常多,有專網(wǎng)、外網(wǎng)、內(nèi)網(wǎng),同時這些應用系統(tǒng)的數(shù)據(jù)庫、數(shù)據(jù)字段也非常多,且相互之間的關系都不清楚。
 
  因此,我們做了個資產(chǎn)化服務,數(shù)據(jù)基因系統(tǒng)通過對城市機房、服務器、應用系統(tǒng)、數(shù)據(jù)庫等數(shù)據(jù)資產(chǎn)的梳理,建立部門數(shù)據(jù)資產(chǎn)清單,通過系統(tǒng)建立之間的相互關系,理清楚系統(tǒng)與系統(tǒng)之間、系統(tǒng)與數(shù)據(jù)庫、表之間、數(shù)據(jù)與數(shù)據(jù)之間的關系,實現(xiàn)數(shù)據(jù)-數(shù)據(jù)表-數(shù)據(jù)庫-應用系統(tǒng)-服務器-機房(云)的關系展現(xiàn),建立部門數(shù)據(jù)資產(chǎn)地圖。
 
  標準化服務
 
  我們現(xiàn)在存在“一義多詞”,即使用同種文字的人們也經(jīng)常用多種不同的數(shù)據(jù)組合表示同一種概念;還存在“一詞多義”,即在不同場合用同一數(shù)據(jù)的組合來表示不同的意義。在信息系統(tǒng)里,前者會導致數(shù)據(jù)冗余浪費計算機資源,后者會因為數(shù)據(jù)的不一致導致語義理解的偏差。兩者共同影響著信息集成與交換能力,成為當前信息化建設的關鍵問題。
 
  數(shù)據(jù)元標準化是信息技術標準化的重要組成部分,是信息交換的前提,是信息系統(tǒng)建設的基礎和運行的保證。那么,我們怎么做到數(shù)據(jù)元、數(shù)據(jù)字段的標準化?讓數(shù)據(jù)元在不同環(huán)境、不同應用場景下都能夠?qū)崿F(xiàn)快速交換和共享?
 
  我們做了幾個事情。(1)重復清洗比對。就是能告訴你存在哪些重復的字段,這些字段的定義、長度、格式是不是一致?系統(tǒng)會幫你自動判斷。(2)根據(jù)同異配置進行梳理,系統(tǒng)能夠主動地判別出存在哪些同異,比如日期對應的業(yè)務是否一樣?姓名對應的標準是否一樣?(3)跟國家標準去比對。
 
  數(shù)據(jù)元的標準化是形成以標準數(shù)據(jù)元為基礎構建的穩(wěn)定數(shù)據(jù)環(huán)境的途徑,是實現(xiàn)系統(tǒng)間高層次的集成,從根本上克服“數(shù)字鴻溝”,解決“信息孤島”問題。數(shù)據(jù)源的標準化,不是說中國所有應用系統(tǒng)里面所有的字段都要進行標準化,要進行標準化的是針對各個部門都要交換共享到的核心業(yè)務數(shù)據(jù),比如最基本的人口信息、法人信息等,這些信息是要標準化的,是不能夠存在不一致現(xiàn)象的。
 
  數(shù)據(jù)基因系統(tǒng)數(shù)據(jù)元池的建立,梳理分析各部門、各應用系統(tǒng)中出現(xiàn)的相同的、近義的數(shù)據(jù)字段,通過分析其頻率、數(shù)據(jù)定義及數(shù)據(jù)相互之間關系(數(shù)據(jù)來源、數(shù)據(jù)流向等),了解各應用系統(tǒng)之間數(shù)據(jù)標準體系的建設情況,輔助數(shù)據(jù)質(zhì)量問題分析。未來各個部門在新建應用系統(tǒng)時,采用標準化的數(shù)據(jù)元池,字段要在標準數(shù)據(jù)元池里進行勾選;新建的應用系統(tǒng)不用做接口,因為數(shù)據(jù)的格式、定義都是一致的。
 
  智能化服務
 
  現(xiàn)在很多城市已建了很多的數(shù)據(jù)庫,人口庫、交換共享平臺等,但這些數(shù)據(jù)庫的運行效果怎么樣?到底有哪些資源在里面、在交換、在共享?其實,現(xiàn)在很多都是不清楚的,那么,我們怎么樣快速地實現(xiàn)把這些數(shù)據(jù)庫、各個應用系統(tǒng)中的數(shù)據(jù)、資源形成數(shù)據(jù)資源體系呢?
 
  首先,我們做了數(shù)據(jù)庫的直接采集;其次,根據(jù)數(shù)據(jù)庫采集過來的數(shù)據(jù)表結構、數(shù)據(jù)字典,快速地生成信息資源,通過跟前面的標準、模板去比對,我們能夠快速地把它匹配出來,形成資源目錄,告訴其他部門我有哪些資源可以提供,有條件共享、無條件共享或是可開放。不是我們做到字段級的共享,而是可以針對一個數(shù)據(jù)里面只有某個字段去進行共享,某幾個字段不能進行共享。
 
  模型化服務
 
  現(xiàn)在大家可以看到交換共享是在做,但是很多交換共享平臺只是為了交換而交換,做了各種各樣的交換平臺,這些平臺之間沒有進行打通,接口非?;靵y且難以擴展,把原來小的“信息孤島”變成現(xiàn)在大的“交換孤島”。那么我們怎么來解決這樣的一個現(xiàn)象,我們能不能做到系統(tǒng)與數(shù)據(jù)的一個分離?
 
  我們基于前面的基礎,提供一個模型化服務。未來各個部門可以在數(shù)據(jù)基因系統(tǒng)上,去構建自己各種各樣的模型庫。比如,可以分析地區(qū)房價與學區(qū)、人流量之間的關系;可以基于這個模型的基礎上去做很多數(shù)據(jù)庫的設計,做整個數(shù)據(jù)框架的設計,因為我們的數(shù)據(jù)云字段在這里面都提供了。我們相當于在業(yè)務人員和技術人員之間通過數(shù)據(jù)基因系統(tǒng)架了一座橋梁,業(yè)務人員可以更好地去了解技術,同時技術人員能夠快速的去理解需求。我們可以快速的把我們設計的模型導成表結構的形式、各種各樣模型的形式。
 
  最后我講一下我們上述各種服務的客戶價值:模板化服務能夠幫助客戶快速地建立信息資源體系,資產(chǎn)化服務能幫助客戶建立城市數(shù)據(jù)資產(chǎn)地圖,標準化服務能輔助數(shù)據(jù)標準落地,模型化服務可實現(xiàn)系統(tǒng)與數(shù)據(jù)分離,智能化服務能輔助數(shù)據(jù)質(zhì)量問題分析。
 
  我們希望數(shù)據(jù)基因能在更多的城市使用,幫助城市實現(xiàn)底層數(shù)據(jù)基礎扎實的工作。

責任編輯:admin