2017年2月15日國脈發(fā)布了數(shù)據基因系統(tǒng),旨在為政府建立數(shù)據管理體系提供便捷、可靠的工具支撐,幫助政府梳理數(shù)據資產清單、統(tǒng)一數(shù)據口徑、建立數(shù)據標準、定位數(shù)據資源、分析資源關系、設計管理模型,從而更加有效的提升數(shù)據資產管理能級,實現(xiàn)數(shù)據驅動服務創(chuàng)新。

 
  那么該如何理解數(shù)據基因?數(shù)據基因系統(tǒng)能解決哪些問題?價值究竟在哪里?本文從概念到問題再到實際應用場景,為大家詳細介紹數(shù)據基因系統(tǒng)。
 
  如何理解數(shù)據基因?
 
  DIKW體系認為數(shù)據(Data)、信息(Information)、知識(Knowledge)和智慧(Wisdom)之間是層層遞進的關系,從數(shù)據里挖到信息,從信息里得到知識,從知識里獲取智慧。
 
表1.數(shù)據、信息、知識、智慧四者比較
 
  在這個金字塔體系中,我們認為數(shù)據基因位于數(shù)據層和信息層,它賦予數(shù)據特定的含義,與數(shù)據一起構成了我們認知信息的基礎。
 
圖1.數(shù)據基因在DIKW體系中的位置
 
  實際上,我們認為數(shù)據基因系統(tǒng)是管理系統(tǒng)的系統(tǒng),從業(yè)務出發(fā),到應用系統(tǒng)、再到數(shù)據庫、數(shù)據表,甚至到驅動服務,是數(shù)據大管家,實現(xiàn)從管網絡、系統(tǒng)到管數(shù)據的躍遷。
 
  解決哪些問題?
 

       · 缺乏完整、統(tǒng)一的信息資源體系

 
  目前各個地方開展信息資源目錄體系建設工作,往往存在部門提供什么梳理什么,部門中很少存在某個人員完全掌握該部門信息資源,需不同科室之間進行調研、梳理,通常存在不清楚自己部門到底有哪些、不清楚其他部門有哪些信息資源,缺乏完整、統(tǒng)一的信息資源體系。
 

      · 應用系統(tǒng)建設分散、數(shù)據關系混雜

 
  各級地方政府和部門在開展信息化建設時往往各自為政,各自建設應用系統(tǒng),沒有構建統(tǒng)一的基礎信息平臺,形成了許多信息孤島。由于缺乏統(tǒng)一的信息系統(tǒng)建設標準,造成各個信息系統(tǒng)的數(shù)據口徑不一致,系統(tǒng)、數(shù)據之間的關系不清楚,使整個信息系統(tǒng)構架中數(shù)據的采集、存儲、交換、加工、利用等各部分間不能循環(huán)互動,系統(tǒng)中的數(shù)據無法有效共享,造成了信息資源利用率低。
 

         · 數(shù)據不一致、不準確

 
  在以數(shù)據交換共享時,遇到的最大問題就是數(shù)據不一致和不準確,舉幾個實際例子:
 
  1、某系統(tǒng)個人信息的姓名是20位,另一系統(tǒng)的姓名是30位,在數(shù)據同步的時候就會出現(xiàn)無法同步的問題;
 
  2、一個系統(tǒng)數(shù)字0代表男、數(shù)字1代碼女、數(shù)字2是未知,另一個系統(tǒng)字母M代表男、字母F代碼女,這是一個代碼不一致問題;
 
  3、在不同系統(tǒng)中存在“機構名稱”、“單位名稱”、“公司名稱”,不知道是否為同一個含義;
 
  4、如果是同一個企業(yè),某個系統(tǒng)里面編碼是0001,另一個系統(tǒng)里是0002,其實代表的是同一條數(shù)據。
 

      · 數(shù)據標準管理框架缺失

 
  目前很多部門的應用系統(tǒng)一般是建立在數(shù)據倉庫或基礎數(shù)據庫基礎上,數(shù)據積累已有一定的規(guī)模。但由于缺乏統(tǒng)一的數(shù)據標準規(guī)范,同時缺乏數(shù)據基于業(yè)務的理解,導致新建或改造升級的系統(tǒng)建設缺乏標準先行的原則,難以實現(xiàn)數(shù)據標準“循序漸進、不斷完善”的要求。
 
  數(shù)據基因系統(tǒng)的價值在哪里?

      · 快速建立信息資源體系
 
  數(shù)據基因系統(tǒng)對比篩選出城市核心業(yè)務部門的核心業(yè)務的信息資源建立整個信息資源體系建設的模板庫,通過模板庫城市各單位可直接查閱相關數(shù)據元、信息資源模板,以直接沿用或是自定義修改的方式對模板進行選擇性的編目,達到各部門政務信息資源快速梳理、信息資源體系快速架構的目標。

圖2.模板設計
 

          · 建立數(shù)據資產地圖

 
  數(shù)據基因系統(tǒng)通過對城市機房、服務器、應用系統(tǒng)、數(shù)據庫等數(shù)據資產的梳理,建立部門數(shù)據資產清單,通過系統(tǒng)建立之間的相互關系,理清楚系統(tǒng)與系統(tǒng)之間、系統(tǒng)與數(shù)據庫、表之間、數(shù)據與數(shù)據之間的關系,實現(xiàn)數(shù)據-數(shù)據表-數(shù)據庫-應用系統(tǒng)-服務器-機房(云)的關系展現(xiàn),建立部門數(shù)據資產地圖。

圖3.資源關系分析
 

      · 輔助數(shù)據質量問題分析

 
  通過數(shù)據基因系統(tǒng)數(shù)據元池的建立,梳理分析各部門、各應用系統(tǒng)中出現(xiàn)的相同的、近義的數(shù)據字段,通過分析其頻率、數(shù)據定義及數(shù)據相互之間關系(數(shù)據來源、數(shù)據流向等),了解各應用系統(tǒng)之間數(shù)據標準體系的建設情況,輔助數(shù)據質量問題分析。

圖4.數(shù)據元關系分析
 

      · 輔助數(shù)據標準的落地

 
  通過對各部門、各應用系統(tǒng)數(shù)據元池的清洗比對,篩選出各部門共性、關鍵的主數(shù)據,建立涉及核心數(shù)據的標準字段池,對字段的命名、格式、長度等屬性進行規(guī)范,依托標準數(shù)據元池進行信息資源信息項的編目,嚴格控制新增字段,實現(xiàn)共性數(shù)據元的統(tǒng)一標準規(guī)范,推動數(shù)據規(guī)范的落地執(zhí)行,建立數(shù)據模型標準化定義映射,推進數(shù)據標準化規(guī)范的落地實施。

圖5.數(shù)據元池管理
 

      · 輔助系統(tǒng)開發(fā)運維

 
  數(shù)據基因系統(tǒng)提供相關數(shù)據庫、基礎庫、主題的模型設計功能,實現(xiàn)不同系統(tǒng)建設需求、應用場景下,通過標準數(shù)據元池、信息資源的組合構建應用模型,圍繞構建的模型可以實現(xiàn)快速構建應用系統(tǒng)數(shù)據表結構設計。當各部門新增需求或者系統(tǒng)上線維護后提出修改時,可通過數(shù)據基因系統(tǒng)查看現(xiàn)有系統(tǒng)的結構,設計新的數(shù)據結構或修改數(shù)據結構來輔助系統(tǒng)開發(fā)運維。

圖6.模型設計服務
 
  總結
 
  目前隨著政務大數(shù)據的發(fā)展,政府對數(shù)據標準化管理的需求正日益增加,未來數(shù)據基因系統(tǒng)將是連接業(yè)務、數(shù)據、系統(tǒng)與服務的核心基礎設施,可擴展的數(shù)據基因系統(tǒng)將能夠產生更多更有價值的應用場景。

作者:國脈信息資源研發(fā)中心副主任 王路燕
責任編輯:admin