11月28-29日,由中國社會科學院信息化研究中心和北京國脈互聯信息顧問有限公司聯合舉辦的“2018智慧中國年會”在北京隆重召開,以“數據賦能智慧中國”為主題,共有來自全國部委、省、市、區(qū)縣電子政務、智慧城市、大數據主管領導、行業(yè)專家、企業(yè)代表、主流媒體千余人參會。

  本文系DAMAChina專家田景熙于11月29日上午在“2018智慧中國年會”分論壇六——“微服務與數據賦能平臺構建與實踐研討會”上的演講,內容通過現場速記整理,未經本人審核。

image.png

【DAMAChina專家田景熙】

  大家好,今天圍繞《統(tǒng)一元數據標準動態(tài)管理解決方案》的主題跟大家做分享,主要講三個問題:

  第一、政務元數據管理中的問題;

  第二、元數據標準化管理的需求;

  第三、介紹基于DPS/DPM解決方案思路。

  關于元數據管理中的問題。首先形成共識,一種說法元數據是定義和描述其他數據的數據;另一種權威說法是信息和文件,數據在經歷了很長時間后,對用戶仍有可理解性和共享性。

  針對電子政務數據元,我們國家一個比較領先的省市做過一次調查,此次調查共計有30多個數據項,120個機構。調查發(fā)現在系統(tǒng)中有命名沖突、定義沖突,格式沖突、分類沖突、結構沖突、描述沖突等多個問題,是影響數據融合和資源再造以及政府數據價值提升的大問題。

  從數據治理角度來看,應該從什么地方入手?

  1、物理數據:文件、記錄及格式、視圖、索引、數據字典...;

  2、邏輯數據:實體、屬性、關系、規(guī)則、業(yè)務名、定義...;

  3、內容數據:語義、語境、語用、語法...;

  4、管理數據:數據項、數據模型、數據使用、數據質量、變更...;

  5、整合數據:數據源/渠/匯、數據目錄、數據轉換、EAI、遷移和變換...;

  6、運行數據:數據組件、服務、消息、標記、觸發(fā)、進程、關聯...;

  7、業(yè)務數據:業(yè)務定義、業(yè)務架構、業(yè)務規(guī)則、業(yè)務分析、業(yè)務關聯、業(yè)務整合活動、角色、作業(yè)、輸入/出、工作流、流程規(guī)則...;

  8、元數據管理:采集、識別、分析、標準化處理、組合、注冊、發(fā)布...;

  各行業(yè)標準很多定義是沖突的,原因是從國際標準、國家標準上,對元數據標準化的研究非常混亂。針對元數據注冊系統(tǒng),建立的邏輯架構,系統(tǒng)管理進行標準化后,對元數據管理系統(tǒng)起到了很大作用。但只是孤立的考慮元數據的規(guī)則,并未結合具體應用。

  一、元數據標準化滯后:以ISO11179為代表

  先講兩個概念,第一,注冊是指賦與數據元明確定義與標識,使各方獲得其規(guī)范化的描述;

  第二,注冊系統(tǒng)是指統(tǒng)一存儲、加工與描述數據元的信息:注冊標識符、定義、名稱、值域,元數據和管理屬性等。這可以為電子政務提供一個案例和解決思路。

  如今我們遇到問題,主要是孤立考慮元數據定義的規(guī)范以及其形態(tài)與結構注冊的標準化,不涉及應用,不能解決跨系統(tǒng)資源整合中的各類矛盾。后續(xù)會朝著ISO8000+ISO22745系列(主數據標準與開放式主數據詞典)發(fā)展。

  二、問題與思路

  第一,元數據長期作為附屬資源,是導致許多領域數據開發(fā)與應用無法深入的主要原因;觀念改進上,應將其當作基礎性、獨立性、自在性、能動性的價值資源來重新看待;

  第二,元數據的單元一、孤立、局部標準化遠不敷數據管理與應用的需求;

  第三,元數據的標準化,應面向其作為基礎資源設施來設計、規(guī)劃、建設、運維與管理;

  第四,元數據的標準化是分層級、結構化、過程性的系統(tǒng)性標準化;

  第五,政務數據治理的目標是構建統(tǒng)一的政務資源的元數據管理體系。

  三、元數據資源標準化的層次架構

  層次標準化架構符合人類語言的演化與發(fā)展:

  (1)數據元標準化指的是數據元是構成信息資源的最小單位,相當于語言中的字、詞;

  (2)復合數據元標準化指的是由數據元組成,相當于語言中的詞組、成語等;

 ?。?)數據段標準化指的是中等規(guī)模信息單位,等效于語句;是預定義的復合數據元的固定搭配與組合。

  元數據標準化要求有構成獨立的、基礎政務數據資源設施;與應用無關以及綜合標準化(包括統(tǒng)一、簡化、序列化、組合化、集成化)。

  通過以上手段,可以實現提升數據的結構性與重用性;增加資源內聚度,降低波動效應、減小資源共享與交換的難度與成本,提升資源質量與管理性。

  四、數據點空間(DPS)與數據點模型(DPM)的基本概念

  1.以多維“特征軸”組織元數據,稱數據空間(DS)---各特征元數據軸具有正交性、序列性、組配性,獨立建設維護;

  2.任何實體數據在DS中,映射為各軸上的點位,稱“數據點(DP)”;

  3.DP用于數據對象特征描述。選擇DS的各軸,抽取其中各點位(區(qū)段),為“數據點模型(DPM)”;

  4.DPM可描述:實體、概念、關系、業(yè)務、過程、規(guī)則……;可按需增減與組配各軸。

  五、數據點模型(DPM)的意義

  第一,數據點空間(DPS)以數學為工具,為對象給出元數據資源配置集(DP);形態(tài)為文字,坐標值,提升資源的可計算性與安全性;

  第二,DPS不尋求直接的語義計算,而構建正交語義軸中的特征集,以及各集合間的轉換;

  第三,DPS中,實體數據不再僅依靠人工描述,可通過計算機資源點篩選與適配來組成。計算機可逐步掌握在特定業(yè)務與語境下的元數據資源的查詢、供應與適配,為從宏觀、中觀到微觀層面的資源描述提供全新途徑;

  第四,DPS不再使用單一資源目錄,各語義軸自成目錄體系,N軸組成N(N-1)/2個“資源面”,再組成“數據超方”,通過軸間的旋轉、組配等能自行構建規(guī)模宏大的資源體系。

  六、DPM的數據表示

  1、DPM的空間結構

  用三元組(X,F,T)表示某政務域

  X為論域,為描述元素集合;F為論域的特征需求與元數據軸的映射規(guī)則,用函數F:X→Y表示;

  Y是n維語義空間;T為論域的架構,指其中各元素間的關聯/構成(語義層)。

  則DPM的語義空間結構示意為:

image.png

 ?。?)論域X可擴充各領域元數據軸;

 ?。?)可按論域內的元素關系對描述分解與細化。

  2、DPM的時序結構——對各語義正交的元數據軸,前述函數F(x)隨業(yè)務進程需要不同的特征數據元,其時序進程形態(tài)為F(R)

image.png

  3、DPM的擴展形態(tài)

image.png

  R為元數據需求擴展集;如Ri(i=1,2,3…)表示業(yè)務類、流程類、操作類、管理類等元數據,可動態(tài)維護;Rij(i=1,2,3…;j=1,2,3…)表DPS對各元數據軸的點位映射。如:業(yè)務類元數據集由“業(yè)務數據定義集、業(yè)務規(guī)則集、數據模型集…”

  七、DPM的語義展示

image.png

  第一,對象類標識—元數據對象的類別標識,區(qū)分元數據對象集中的不同對象類;

  第二,關鍵特征—構成元數據對象的核心特征,其集合可唯一區(qū)別元數據,用于對元數據對象的檢索;

  第三,一般特征—元數據對象的使用特征,結合論域系統(tǒng)生命周期的描述需求,考慮元數據對象在元數據系統(tǒng)運行各階段和各種應用系統(tǒng)中體現出的使用特征。

image.png

  注:獲取更多會議信息及嘉賓演講資料,歡迎登錄“2018智慧中國年會官網”。

image.png

現場照片直播分享:

image.png

責任編輯:qinpeng