站在新的歷史起點和數(shù)字化發(fā)展創(chuàng)新風口,秉持“智慧報國”的一貫初心,不負連續(xù)17年堅持累積的良好社會影響與業(yè)界口碑,一年一度的改革研討盛會“智慧中國年會”,以“聚焦數(shù)字化覺醒和數(shù)字中國再提速”為主題,于11月24日-25日通過網(wǎng)絡直播渠道盛大開啟。2021智慧中國年會由智慧中國年會組委會、北京國脈互聯(lián)信息顧問有限公司主辦,設置主論壇和專項分論壇,分別以“加快數(shù)字化轉型 建設美好數(shù)字中國”和“數(shù)據(jù)治理體系構建與城市運行體征管理”為主題,邀請界內決策者、管理者、建設者、觀察者、思考者開展深入探討、交流與合作。

  本文系國家信息中心原主任、國家信息化專家咨詢委員會委員高新民于11月24日上午在“2021智慧中國年會”主論壇上的演講。內容通過速記整理,未經(jīng)本人審核。

圖片

---以下為演講內容---

  很高興今天有機會參加智慧中國的年會,因為疫情關系就不到現(xiàn)場了,通過視頻的方式與大家做交流。大家知道,現(xiàn)在我們在推動數(shù)字中國的過程中,核心問題是做數(shù)字化轉型或者叫數(shù)字化發(fā)展,十四五規(guī)劃中專門有一章節(jié)來講這個問題。數(shù)字化轉型、數(shù)字化發(fā)展核心問題是數(shù)據(jù)的問題,要以數(shù)據(jù)為驅動,加上數(shù)據(jù)的治理,產(chǎn)生智能化決策、閉環(huán)、控制,來實現(xiàn)智慧中國的發(fā)展應用。因此,現(xiàn)在討論較多的“數(shù)據(jù)”作為關鍵要素,數(shù)據(jù)治理應如何推進,最近國家在這方面發(fā)布了很多文件,特別是在數(shù)據(jù)安全領域,實際上這也涉及了數(shù)據(jù)治理的問題,各個單位對數(shù)據(jù)治理也高度重視,特別是關于數(shù)據(jù)的質量控制、數(shù)據(jù)安全使用以及數(shù)據(jù)共享、數(shù)據(jù)流轉等等數(shù)據(jù)治理問題。另外,討論數(shù)據(jù)交易的問題也比較多,如何確權,如何定價,現(xiàn)在各個地方也在做大數(shù)據(jù)交易中心,這也是數(shù)據(jù)治理問題。但現(xiàn)在感覺到有一個問題,現(xiàn)在對數(shù)據(jù)治理基礎架構如何構建,這個問題討論不是很多,也不是很清楚如何做。在過去,數(shù)據(jù)治理在一個機構或部門里邊,他的基礎架構是有案例的,也是有解決方案的,這是沒有問題的,但是現(xiàn)在的數(shù)據(jù)治理涉及到一個更大的空間,涉及跨部門、跨地區(qū)、跨層級這樣一個特征,因此,數(shù)據(jù)治理架構應該什么樣,今天圍繞這一問題談一些看法,供大家參考。

  數(shù)據(jù)要素重要性大家都有共識。簡單來說,數(shù)據(jù)本身是一個基礎支撐,比如“人”,人是有身份證數(shù)據(jù),有基因數(shù)據(jù),每個人都有一個身份、基本生理特征等基礎數(shù)據(jù)的支撐,這些數(shù)據(jù)與業(yè)務相融合就能產(chǎn)生效益。比如,人的基因數(shù)據(jù),人到醫(yī)院看病,診斷這個人是什么病,一般下來有時候這個病跟基因是有關系的,因此,跟診療結合之后,才會提升診斷的效率和準確度。另外,數(shù)據(jù)作為要素能夠流轉,能夠在更大范圍內流通,那么,他將產(chǎn)生更大的價值。比如,基因數(shù)據(jù),在國外與醫(yī)院中的診療數(shù)據(jù)、制藥企業(yè)掌握的制藥數(shù)據(jù)、療效數(shù)據(jù)以及其他有關醫(yī)療健康數(shù)據(jù)融合之后,當然數(shù)據(jù)要透明,他可以發(fā)現(xiàn)很多規(guī)律,這樣他的價值將更大,數(shù)據(jù)這三種價值的提升越來越重要,這個越來越有共識。

  目前數(shù)據(jù)還面臨一些問題。第一,數(shù)據(jù)質量問題,有相當一部分數(shù)據(jù)質量不是特別高,有不少問題,如準確性不高、時效性不高、垃圾數(shù)據(jù),給數(shù)據(jù)應用帶來一些困難。第二,數(shù)據(jù)流轉不暢,如大家知道的信息孤島、數(shù)據(jù)孤島。第三,融合應用方面深度不夠,用的還不太好,產(chǎn)生的價值不知道怎么用。這些問題怎么解決,都是跟數(shù)據(jù)治理密切有關系的,質量問題、流轉問題、融合之后應用價值、安全可控問題都是和數(shù)據(jù)治理有關的。

  現(xiàn)在的出路是,怎樣構建領域數(shù)據(jù)空間。用政策、制度支撐構建領域數(shù)據(jù)空間,同時用技術架構支撐構建領域數(shù)據(jù)空間,就剛剛講到,數(shù)據(jù)流轉、數(shù)據(jù)共享有困難,跨部門、跨地區(qū)、跨異組的數(shù)據(jù)共享有困難,困難的原因是什么呢,這里面有些數(shù)據(jù)標準不一樣,數(shù)據(jù)所存儲或產(chǎn)生的數(shù)據(jù)的信息也是異構的、異組的、異地的,也就是三異,這些客觀上來講對數(shù)據(jù)的共享產(chǎn)生困難,但是泛泛的說,把所有數(shù)據(jù)按照一個統(tǒng)一的標準來做,這個難度非常大,因為數(shù)據(jù)幾乎是一個海洋,不可能對海洋的每一滴水進行治理,所以我的一個觀點就是,首先數(shù)據(jù)要變成一個數(shù)據(jù)對象,是有邊界、可識別、有內涵的、可定義的對象,我們叫他數(shù)據(jù)對象,數(shù)據(jù)要變成一個數(shù)據(jù)對象,由數(shù)據(jù)對象在一定的基礎架構下,能夠進入一個空間,這個空間里能夠使數(shù)據(jù)對象進行互操作,所以,數(shù)據(jù)本身要進行治理,首先數(shù)據(jù)要變成數(shù)據(jù)對象,由數(shù)據(jù)對象構建基礎數(shù)據(jù)架構,這個架構有制度規(guī)則、有技術的支撐,形成領域數(shù)據(jù)空間。為什么叫領域,因為數(shù)據(jù)要共享、要流轉,一定跟場景、跟應用導向是相關的,而領域與數(shù)據(jù)應用場景比較親切,應用需求比較清楚,因此在這種條件下,數(shù)據(jù)對象本身的關聯(lián)度就比較強,因此就形成領域,所以符合領域內強關聯(lián)度的數(shù)據(jù)形成空間,這個空間能夠實現(xiàn)數(shù)據(jù)的互操作基礎,大概就是這樣一個概念,我認為這個概念就應該是數(shù)據(jù)治理的基礎設施,沒有這個基礎設施就很難把數(shù)據(jù)治理的質量、流轉、共享、安全、融合使用這幾個要素都去做到就很難。最近國家出臺很多關于數(shù)據(jù)安全的條例,這些數(shù)據(jù)安全條例是必要的,但怎樣去落地,我認為落地的關鍵問題就是基礎架構,沒有這個基礎架構,這些落地是非常困難的,尤其是在互聯(lián)網(wǎng)的這個環(huán)境下,很多互聯(lián)網(wǎng)平臺企業(yè),其數(shù)據(jù)量是非常巨大的,上千個bit,如果這些數(shù)據(jù)里面沒有一個基礎的架構,不是一個可識別的數(shù)據(jù)對象,那么如何對他進行監(jiān)管、提出要求,進行治理,包括他自己要去流轉、去管理都是很困難的。所以這就是我們今天說的,要構建一個數(shù)據(jù)治理的基礎架構,這個基礎架構我建議不是泛泛去說,要去建立領域數(shù)據(jù)空間。領域數(shù)據(jù)空間有兩個支撐,一個是制度/政策支撐,這里引用FAIR原則,符合FAIR原則的標準的數(shù)據(jù)對象,就可以進入這個數(shù)據(jù)空間。另外,這個數(shù)據(jù)空間要用技術實現(xiàn)FAIR原則,實現(xiàn)這個標準的技術架構,也是對數(shù)字對象體系架構進行技術支撐。由這兩個支柱,即制度支柱、技術支柱,來形成一個領域的數(shù)據(jù)空間,這樣作為數(shù)據(jù)治理的基礎設施,我覺的這是一個思路。這個思路也是最近觀察到歐盟在實施一個歐盟統(tǒng)一數(shù)據(jù)空間的倡議或者說是一個項目,這里面有兩個內容,一個是統(tǒng)一歐洲的云,因為數(shù)據(jù)都在云上,都是云架構,所以做了一個統(tǒng)一歐洲云的技術架構;另外在這個架構上,做了一個IDS,國際數(shù)據(jù)空間(International Data Space)。這兩個東西組合成歐盟跨國數(shù)據(jù)基礎設施,他甚至還有一個想法是把他做成國際的。這個想法跟我今天講的內容還是有一些區(qū)別的,他沒用運用DOA的架構,也沒有很明確的用FAIR原則在做,那么我是把這三個內容結合起來,來進行的一個思路研究。歐盟的IDS和云空間這兩個項目,國內有些單位跟他們有很多交流,過幾天我和德國的一個教授也會做一些技術交流,我希望大家能夠關注、能夠借鑒,設計符合我國國情、符合我們實際的,借鑒新的理念,把領域數(shù)據(jù)空間作為數(shù)據(jù)治理的基礎設施來推進。

  下面,我想再展開下,把FAIR原則、DOA的技術架構簡單說說,供大家參考。

  領域數(shù)據(jù)空間分類。可以分為產(chǎn)業(yè)領域數(shù)據(jù)空間,舉例有加工制造業(yè)、交通運輸業(yè)、通訊產(chǎn)業(yè)、金融業(yè)等等,這些產(chǎn)業(yè)是強相關的,某個行業(yè)里互相有關聯(lián),也可以再細分,當然也不能太細了,還是有個領域的;另外一個是政務領域數(shù)據(jù)空間,比如政府之間的電子政務、政府對企業(yè)的電子政務,即G2G、G2B、G2C、G2E,G2E是指政府對本身公務員的,這個分類也可以;還有一種就是按照我們政務領域之間的分類,如環(huán)境保護、公共安全、公共衛(wèi)生、產(chǎn)業(yè)宏觀調控的等等也可以按照這個來分。公共領域里面有電子健康、科研教育、文旅、民生生活上的內容等等,這個是舉例來講,都可以這么分類。

  FAIR原則,實際上也是四個英文名的開頭字母,第一個字可發(fā)現(xiàn),數(shù)據(jù)變?yōu)閿?shù)據(jù)對象,有邊界、可識別、有內涵、可定義、可定價,在某種場景下可定價,定價一定跟場景關聯(lián),沒有場景關聯(lián)這個價是很難定的。這四個字呢,第一個是可發(fā)現(xiàn),第二個字是可訪問,第三個字是可互操作,第四個字是指這個數(shù)據(jù)對象可重用。可發(fā)現(xiàn)就是數(shù)據(jù)對象在什么位置,講數(shù)據(jù)在什么位置是很難發(fā)現(xiàn)的,數(shù)據(jù)是一個很泛在的概念,一定是變成數(shù)據(jù)對象后是可發(fā)現(xiàn)的,他有標識、有邊界、有地址;可訪問是指可以找到,有一定訪問權限,有認證,安全里面有可訪問,包括認證權限、訪問權限等;可互操作,包括接口、數(shù)據(jù)間的通信協(xié)議,這個都要標準化;可重用就是可流轉,在一定的條件下面、一定的規(guī)則下面,與前面三個條件能夠在需求導向、規(guī)則為基礎下重用,就是流轉。這個原則所有的數(shù)據(jù)對象,符合這個原則就允許進入共同體,就能夠享受共同體的一些權益。符合FAIR原則是它的義務,不符合原則自動標準的數(shù)據(jù)對象是不能進入共同體。進入到數(shù)據(jù)共同體或數(shù)據(jù)空間,它符合這個原則就很容易在有需求、有場景導向的情況下,很容易實現(xiàn)互操作,就能夠實現(xiàn)共享,就能夠很容易組成支撐業(yè)務的需求,就是這么一個思路,當然包括各種各樣的治理,你要去交易也好、你要去開放也好、你要去共享也好,不同的流轉機制就能夠支撐。

  這個原則因為時間關系就不詳細講了,對數(shù)據(jù)的要求大家可以再看看。目前FAIR原則在國際上,在科研的數(shù)據(jù)上發(fā)揮共享和互操作起了非常明顯的作用。我剛開始舉的例子,舉了基因數(shù)據(jù)和臨床數(shù)據(jù)、還有藥物的治療數(shù)據(jù),這些數(shù)據(jù)是跨部門的、跨領域,有的是在制造業(yè),有的是在醫(yī)院里面,有的是在研究機構學校里面,他們就用FAIR原則把數(shù)據(jù)都進入到一個空間,然后在里面產(chǎn)生很多有價值的規(guī)律,發(fā)現(xiàn)很多價值,如某種基因缺陷會產(chǎn)生什么疾病或者反過來說某種疾病可能和某些基因的變異或者缺陷有關,或者某種藥物對某種疾病因某種基因變異后產(chǎn)生的疾病能有療效、有針對性。那么這樣一些東西目前已經(jīng)是實現(xiàn),已經(jīng)證明利用FAIR原則是指導數(shù)據(jù)的空間在發(fā)現(xiàn)支撐方面發(fā)揮很大作用,這已經(jīng)是證實了。舉例子講,上次有一位荷蘭過來的教授,曾經(jīng)和我們交流就是用FAIR原則怎么實現(xiàn)這種跨部門、跨資源而且是跨國的數(shù)據(jù)共享,能夠分析出很多有用的支撐規(guī)律,這是非常典型的一個例子。我認為這個事情非常重要,比現(xiàn)在局里研究的數(shù)據(jù)交易、數(shù)據(jù)確權更為重要。那個當然也是需要研究的,但是不把這些問題研究清楚,我們的數(shù)據(jù)價值、數(shù)據(jù)的流通流轉,包括安全的可控都是很難實現(xiàn)、很難落地。

  這是一方面,F(xiàn)AIR原則是一個制度原則或者是一個政策原則。它的技術實現(xiàn)什么?就是剛才講的,其中一個方面也不是全部,歐洲的IDS不是按照FAIR,但是原理和這個很接近,它是用另外一套體系、另外一套軟件來實現(xiàn)的。那么現(xiàn)在有一種方案是利用DOA,就是數(shù)字對象體系架構來實現(xiàn),因為體系架構就能夠實現(xiàn)變成一個數(shù)據(jù)對象,這個數(shù)據(jù)可大可小,單個數(shù)據(jù)可作為一個對象。一個數(shù)據(jù)庫、數(shù)據(jù)文件、數(shù)據(jù)湖、數(shù)據(jù)池,將來比如我們講數(shù)據(jù)孿生都可以算數(shù)據(jù)對象。它一定要有邊界,要把它定義好。這個對象形成之后就給它一定的賦碼、統(tǒng)一的賦碼,而且也是唯一性的。這個碼賦完之后可注冊,注冊之后這個賦碼對象還包括兩個內容,不僅僅是碼的問題,封裝之后里面的元數(shù)據(jù)標準是一樣的,元數(shù)據(jù)可以自己定義,它有一定的標準架構來定義它。這樣就實現(xiàn)這些能給它提供條件,這些最后要訪問,訪問要有一定的條件,包括安全認證的條件加進去。最后信息內容能夠,剛才講的元數(shù)據(jù)和內涵的一些語義分析也是一部分,和數(shù)據(jù)對象之間的一些通信要有統(tǒng)一的協(xié)議。把這個架構實現(xiàn)起來,在政策下規(guī)定了一些標準化的數(shù)據(jù)對象進入數(shù)據(jù)空間之后,DOA的架構技術實現(xiàn)它的互操作。這就是一個完整的數(shù)據(jù)治理基礎架構。

  DOA怎么實現(xiàn)它的支撐?它可發(fā)現(xiàn),里面有標識、語義定義、全球的解析,怎么來實現(xiàn)它可發(fā)現(xiàn)的東西。那么可訪問就是它的安全認證,以及元數(shù)據(jù)的定義使它可訪問。互操作就是通信協(xié)議,一個是發(fā)現(xiàn)的協(xié)議,還有一個就是數(shù)據(jù)互相交互協(xié)議。還有一個重用要在一定的范疇之下有統(tǒng)一的注冊、統(tǒng)一的分類,按照主題、內容數(shù)據(jù)對象進行分類,有一個分類表,然后就可以在一定場景下面、用戶有需求的時候去訪問它,去調用它都可以。重用的“用”有多種方式,也可以訪問也可以匯聚也可以同步,就像我們現(xiàn)在講的區(qū)塊鏈一樣是數(shù)據(jù)的同步,其實區(qū)塊鏈是DOA里面的,區(qū)塊本身是一種DOA,所以我們講區(qū)塊鏈可以把它理解為DOA架構下面一種特殊應用,而且是一種比較高級的應用。所以我認為我們用數(shù)據(jù)對象的概念、FAIR原則來構建數(shù)據(jù)治理的基礎,實現(xiàn)三億數(shù)據(jù)的互操作這樣一個基礎。這是數(shù)據(jù)治理非常非常重要的一個關鍵。

  我今天就講這些供大家共同研究、共同探討,謝謝大家!

更多精彩,請關注“官方微信”

11.jpg

 關于國脈 

國脈,是大數(shù)據(jù)治理、數(shù)字政府、營商環(huán)境、數(shù)字經(jīng)濟、政務服務專業(yè)提供商。創(chuàng)新提出"軟件+咨詢+數(shù)據(jù)+平臺+創(chuàng)新業(yè)務"五位一體服務模型,擁有超能城市APP、營商環(huán)境流程再造系統(tǒng)、營商環(huán)境督查與考核評估系統(tǒng)、政策智能服務系統(tǒng)、數(shù)據(jù)基因、數(shù)據(jù)母體等幾十項軟件產(chǎn)品,長期為中國智慧城市、智慧政府和智慧企業(yè)提供專業(yè)咨詢規(guī)劃和數(shù)據(jù)服務,廣泛服務于發(fā)改委、營商環(huán)境局、考核辦、大數(shù)據(jù)局、行政審批局等政府客戶、中央企業(yè)和高等院校。

責任編輯:wuwenfei