1  引言

  數(shù)據(jù)已經(jīng)成為國家基礎(chǔ)性戰(zhàn)略資源,推動數(shù)據(jù)資源開放共享是國家《促進大數(shù)據(jù)發(fā)展行動綱要》的核心內(nèi)容。政府和公共數(shù)據(jù)資源的開放共享不僅是構(gòu)建一個透明的政府,更重要的是創(chuàng)造新興戰(zhàn)略產(chǎn)業(yè)(數(shù)據(jù)產(chǎn)業(yè)),推進傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型升級,成為驅(qū)動創(chuàng)新的主要因素。但在實施過程中,數(shù)據(jù)開放共享面臨著“數(shù)據(jù)擁有者不愿、不敢、不會開放共享”的問題。由于數(shù)據(jù)可以以極低成本復制和傳播(復制一份數(shù)據(jù)的成本遠遠低于生產(chǎn)一份數(shù)據(jù)的成本),加之數(shù)據(jù)資源的戰(zhàn)略性和商業(yè)價值越來越顯現(xiàn),這就導致生產(chǎn)數(shù)據(jù)的意愿遠遠低于復制數(shù)據(jù)的意愿,因而呼吁數(shù)據(jù)開放的人越來越多;數(shù)據(jù)生產(chǎn)者越來越不愿意將其擁有的數(shù)據(jù)開放出來。因此,數(shù)據(jù)資源的開放變得越來越難以實現(xiàn)。事物的價值源于稀缺性,由于數(shù)據(jù)可以幾乎零成本地復制和傳播,所以,數(shù)據(jù)開放意味著數(shù)據(jù)資源的稀缺性喪失,從而喪失其原有的價值,這是不愿意開放數(shù)據(jù)的根本原因。因此,如何既開放數(shù)據(jù)又保持數(shù)據(jù)資源的稀缺性,是一個亟待解決的重大問題。本文圍繞該重大問題,探索數(shù)據(jù)開放模式,提出數(shù)據(jù)自治開放模式。

  開放數(shù)據(jù)是指數(shù)據(jù)免費開放給每一個希望使用數(shù)據(jù)的人,主要是指政府和公共數(shù)據(jù)資源應該開放給公眾,使公共數(shù)據(jù)能被任何人、在任何時間和任何地點自由利用、再利用和分發(fā);數(shù)據(jù)共享是指對數(shù)據(jù)使用對象、使用時間和使用地點加以限制,主要是對使用對象進行限制,即將數(shù)據(jù)開放給特定對象,只有特定對象在特定的時間、地點使用指定的數(shù)據(jù),可以理解為開放數(shù)據(jù)的限制版;數(shù)據(jù)交易是指數(shù)據(jù)擁有者依據(jù)法律在市場交易規(guī)則下進行自由交易??傮w而言,開放數(shù)據(jù)、數(shù)據(jù)共享和數(shù)據(jù)交易都是數(shù)據(jù)擁有者將數(shù)據(jù)開放給數(shù)據(jù)使用者,只是在范圍、對象、是否收費等方面有所不同,三者面臨的核心問題都是“數(shù)據(jù)如何治理”,具體說就是“如何控制數(shù)據(jù)使用者傳播或濫用數(shù)據(jù)”。開放數(shù)據(jù)模式不對開放出去的數(shù)據(jù)進行治理 ;數(shù)據(jù)共享模式則由共享圈共同治理數(shù)據(jù),但共享圈約束有限,數(shù)據(jù)常常流出共享圈而造成事實上的開放數(shù)據(jù);數(shù)據(jù)交易的數(shù)據(jù)治理目前還沒有具體做法。因此,為了方便敘述,將開放數(shù)據(jù)、數(shù)據(jù)共享和數(shù)據(jù)交易統(tǒng)稱為“數(shù)據(jù)開放”。

  當前,絕大部分數(shù)據(jù)資源都還處在封閉不開放的狀態(tài),數(shù)據(jù)完全由數(shù)據(jù)擁有者治理。擁有者盡量保護系統(tǒng)數(shù)據(jù)不受外界侵害,不對外界開放,即數(shù)據(jù)是自治封閉的?,F(xiàn)有的數(shù)據(jù)資源管理技術(shù)(數(shù)據(jù)庫管理系統(tǒng)、文件系統(tǒng))和應用軟件技術(shù)都支持這種數(shù)據(jù)自治封閉模式。數(shù)據(jù)自治封閉模式的問題是數(shù)據(jù)資源只能由數(shù)據(jù)擁有者使用,沒有發(fā)揮數(shù)據(jù)資源應有的價值。要更大程度地開發(fā)利用數(shù)據(jù),就需要將數(shù)據(jù)資源開放出來。然而,數(shù)據(jù)會被怎樣開發(fā)利用事先可能是不知道的,使用數(shù)據(jù)的軟件也是事先不知道的、基本外部的、數(shù)量無限的、安全不可控的、隱私不可控的?,F(xiàn)有的數(shù)據(jù)庫管理系統(tǒng)軟件根本無法處理數(shù)據(jù)開放的應用需求,因此,需要探索新型的數(shù)據(jù)資源管理技術(shù)和數(shù)據(jù)開放模式。

  本文提出的“數(shù)據(jù)自治開放”是指數(shù)據(jù)擁有者在法律框架下對數(shù)據(jù)進行自行確權(quán)和管理、自行制定開放規(guī)則(即數(shù)據(jù)自治),然后將數(shù)據(jù)開放給使用者,包括上傳到數(shù)據(jù)應用軟件使用數(shù)據(jù)和下載數(shù)據(jù)到使用者的設(shè)備中(使用者沒有數(shù)據(jù)治理權(quán))。

  數(shù)據(jù)自治開放模式有望成為數(shù)據(jù)開放的基本模式,是政府數(shù)據(jù)開放共享、企業(yè)及個人數(shù)據(jù)交易、國家數(shù)據(jù)主權(quán)實現(xiàn)的一種可行方法。

  2  數(shù)據(jù)資源開放與稀缺性的矛盾

  數(shù)據(jù)資源是重要的現(xiàn)代戰(zhàn)略資源,而且其重要性越來越顯現(xiàn),在21世紀有可能超過石油、煤炭、礦產(chǎn),成為最重要的人類資源。提高數(shù)據(jù)資源開發(fā)利用水平、保護國家的戰(zhàn)略資源是增強我國綜合國力和國際競爭力的必然選擇。2011年5月麥肯錫公司發(fā)布的《大數(shù)據(jù):下一個創(chuàng)新、競爭和生產(chǎn)力的前沿》報告、2012年2月世界經(jīng)濟論壇年會發(fā)布的《大數(shù)據(jù),大影響》報告等,都突顯了大數(shù)據(jù)的價值和重要性。2012年3月美國白宮科學和技術(shù)政策辦公室發(fā)布《大數(shù)據(jù)研究和發(fā)展倡議》,標志著美國率先將大數(shù)據(jù)上升為國家戰(zhàn)略,隨后,日本、法國、澳大利亞、英國等國家也開始發(fā)布大數(shù)據(jù)國家戰(zhàn)略或計劃等。2014年和2015年,我國將大數(shù)據(jù)寫入《政府工作報告》,2015年8月19日國務院通過《關(guān)于促進大數(shù)據(jù)發(fā)展的行動綱要》,2015年10月26—29日中國共產(chǎn)黨第十八屆五中全會提出“實施國家大數(shù)據(jù)戰(zhàn)略”等,這些都表明數(shù)據(jù)已經(jīng)成為重要的戰(zhàn)略資源。

  一份數(shù)據(jù)資源的價值除了體現(xiàn)在它的內(nèi)容外,更重要的方面體現(xiàn)在它的稀缺性。內(nèi)容再重要的數(shù)據(jù)資源,如果人手一份或者隨時可以獲得,那就沒有人愿意付費購買,其本身的價值就難以體現(xiàn)出來。由于數(shù)據(jù)可以以極低的成本復制和傳播,所以一旦數(shù)據(jù)資源生產(chǎn)者將數(shù)據(jù)資源開放,就意味著該份數(shù)據(jù)資源可能會傳遍世界,從而喪失稀缺性。

  矛盾在于:如果不開放,則數(shù)據(jù)資源只能自用,價值發(fā)揮有限;如果開放,則數(shù)據(jù)資源可能喪失稀缺性,使數(shù)據(jù)資源生產(chǎn)者喪失利益。

  由于目前在技術(shù)上還沒有保持數(shù)據(jù)資源稀缺性的數(shù)據(jù)開放技術(shù),所以,在實踐中,數(shù)據(jù)資源擁有方不愿開放、不會開放就成了數(shù)據(jù)開放進程中的“攔路虎”。另外,由于政策制約,數(shù)據(jù)資源擁有方還存在不敢開放的問題。

  不愿開放:指數(shù)據(jù)資源擁有者不愿意在沒有獲得足夠利益的情況下進行數(shù)據(jù)開放。

  不會開放:指盡管數(shù)據(jù)持有者希望將數(shù)據(jù)資源開放出來,但是由于現(xiàn)行技術(shù)并不適合數(shù)據(jù)資源開放,所以不知道如何實現(xiàn)數(shù)據(jù)資源開放。

  不敢開放:指怕承擔責任,目前的政策是“誰有數(shù)據(jù)誰負責”,因此,萬一數(shù)據(jù)開放出了問題,數(shù)據(jù)擁有部門就要承擔責任;另外,一些數(shù)據(jù)擁有者擔心數(shù)據(jù)開放后,數(shù)據(jù)資源的稀缺性會喪失。

  3  現(xiàn)有數(shù)據(jù)資源管理模式

  現(xiàn)行的數(shù)據(jù)管理技術(shù)是面向數(shù)據(jù)自治封閉的,不適合數(shù)據(jù)開放共享,急需開發(fā)面向數(shù)據(jù)開放共享的技術(shù)。

  3.1 政府開放數(shù)據(jù)

  政府開放數(shù)據(jù)的典型代表是2009年美國政府推出的網(wǎng)站www.data.gov,因此,2009年一般被認為是數(shù)據(jù)開放元年。之前是政府信息公開,政府向公眾公開各種報告、決策結(jié)果;政府開放數(shù)據(jù)是信息公開的進一步,即將形成報告和決策的原始數(shù)據(jù)也公開,主要內(nèi)容是政府應該向公眾透明。2015年我國國務院印發(fā)的《促進大數(shù)據(jù)發(fā)展行動綱要》明確提出,數(shù)據(jù)開放共享主要是指政府和公共數(shù)據(jù)資源應該開放給公眾共享。

  從國際上看,政府數(shù)據(jù)開放主要通過制定戰(zhàn)略或政策文件形式指導開放,又因涉及多個部門,往往由最高領(lǐng)導層發(fā)布,例如美國前總統(tǒng)奧巴馬在2009年和2013年兩次發(fā)布開放政府數(shù)據(jù)的行政令;英國在2010年和2011年先后兩次發(fā)布《致政府部門開放數(shù)據(jù)函》等。開放過程中,各國通常把數(shù)據(jù)作為一種國家資產(chǎn)進行管理,要求建立相關(guān)的制度。比如,建立數(shù)據(jù)資產(chǎn)目錄,各部門需梳理數(shù)據(jù)資產(chǎn),明確各類數(shù)據(jù)的開放屬性(公開、限制公開、不公開);建立數(shù)據(jù)開放的目錄,確定哪些是已開放的,哪些是將來會開放的。并且,目錄保持持續(xù)更新和補充。在開放的形式上,一般采用國家統(tǒng)一的門戶網(wǎng)站形式開放數(shù)據(jù)。此外,重視建立公眾的參與和反饋機制,確保用戶的需求得到及時反饋,優(yōu)先釋放用戶需求最為迫切的數(shù)據(jù)集,并對數(shù)據(jù)開放的相關(guān)進展進行評估。

  從技術(shù)上來看,政府數(shù)據(jù)開放基本上都只提供數(shù)據(jù)下載服務。政府將開放的數(shù)據(jù)放在政府網(wǎng)站上,公眾可以下載需要的數(shù)據(jù)。這些數(shù)據(jù)往往不可機讀,公眾更不可能通過上傳到應用程序來使用這些數(shù)據(jù)。這樣當數(shù)據(jù)資源比較大的時候,這些數(shù)據(jù)就變成了不可用的數(shù)據(jù)。

  3.2 科學數(shù)據(jù)開放

  從最早推行數(shù)據(jù)資源開放的科學研究領(lǐng)域來看,科學數(shù)據(jù)表面上已經(jīng)開放了,但實際上開放程度非常有限,主要是由政府或公共資源投資的科學研究產(chǎn)生的數(shù)據(jù)的開放,并且大多集中于各自領(lǐng)域,例如地震科學、水利科學、天文學等。在我國,主動共享科學數(shù)據(jù)的研究單位和個人還比較少,大部分的數(shù)據(jù)共享活動是通過政府投資、項目驅(qū)動的形式進行的。這些都影響了科學數(shù)據(jù)的開放共享進展和質(zhì)量,目前為止,尚未形成完全開放的科學數(shù)據(jù)開放共享局面。

  3.3 數(shù)據(jù)自治封閉

  絕大部分數(shù)據(jù)資源還處在封閉不開放的狀態(tài),數(shù)據(jù)完全由數(shù)據(jù)擁有者自己治理,即數(shù)據(jù)自治。從20世紀90年代信息化戰(zhàn)略開始,大部分數(shù)據(jù)是由各類計算機應用系統(tǒng)生產(chǎn)的,例如政府系統(tǒng)、金稅工程、教務系統(tǒng)、超市系統(tǒng)、銀行系統(tǒng)等。信息技術(shù)也只支持數(shù)據(jù)封閉,盡量保護系統(tǒng)數(shù)據(jù)不受外界侵害,即信息安全,例如系統(tǒng)設(shè)置防火墻、登錄口令,制定用戶級別和使用系統(tǒng)的功能類別等。

  這些系統(tǒng)中的數(shù)據(jù)由系統(tǒng)擁有者自己管理,或者說數(shù)據(jù)由數(shù)據(jù)擁有者自己管理,稱為數(shù)據(jù)自治。加之數(shù)據(jù)保持封閉不對外界開放,所以稱這類數(shù)據(jù)資源管理模式為“數(shù)據(jù)自治封閉”。

  在數(shù)據(jù)自治封閉模式中,使用數(shù)據(jù)的軟件是事先知道的、基本內(nèi)部的、數(shù)量有限的、安全可控的、隱私可控的。現(xiàn)有的數(shù)據(jù)資源管理技術(shù)(數(shù)據(jù)庫管理系統(tǒng)、文件系統(tǒng))和應用軟件技術(shù)也只支持數(shù)據(jù)自治封閉模式,圖1為數(shù)據(jù)自治封閉系統(tǒng)結(jié)構(gòu)。

圖1 數(shù)據(jù)自治封閉系統(tǒng)示意

  3.4 現(xiàn)有數(shù)據(jù)資源管理模式存在的問題

  政府數(shù)據(jù)開放模式存在的問題是顯而易見的,即數(shù)據(jù)資源稀缺性的喪失。因此,政府數(shù)據(jù)開放的基本出發(fā)點是:政府數(shù)據(jù)是公共品,其權(quán)屬屬于公眾,所以要向公眾免費開放。然而,隨著數(shù)據(jù)資源的戰(zhàn)略性和基礎(chǔ)性越來越顯現(xiàn),開放的政府數(shù)據(jù)也會被敵對國家利用,所以,政府數(shù)據(jù)開放應該是有限的,數(shù)據(jù)主權(quán)問題也越來越引起重視。事實上,國際上政府和公共數(shù)據(jù)資源僅開放了不到10 %,這也從另一個側(cè)面說明政府數(shù)據(jù)開放的問題。更嚴重的是開放數(shù)據(jù)處于不治理或者無法治理的狀態(tài)。

  數(shù)據(jù)自治封閉模式的問題是數(shù)據(jù)資源只能由數(shù)據(jù)擁有者使用,沒有發(fā)揮數(shù)據(jù)資源應有的價值。數(shù)據(jù)資源可以被加工再加工形成各種數(shù)據(jù)產(chǎn)品,服務于人們的生產(chǎn)和生活,從而產(chǎn)生巨大的價值。與數(shù)據(jù)自治封閉模式完全不同,如果將數(shù)據(jù)資源開放出來,那么使用數(shù)據(jù)的軟件事先是不知道的、基本外部的、數(shù)量無限的、安全不可控的、隱私不可控的。數(shù)據(jù)開放模式示意如圖2所示,現(xiàn)有的數(shù)據(jù)庫管理系統(tǒng)軟件根本無法處理數(shù)據(jù)開放的應用需求。因此,需要探索新型的數(shù)據(jù)資源管理技術(shù)。

圖2 數(shù)據(jù)開放模式示意

  4  數(shù)據(jù)自治開放模式

  數(shù)據(jù)開放是必然趨勢,但需要保障在數(shù)據(jù)開放的同時又不喪失稀缺性,確保數(shù)據(jù)不流失、隱私不泄露、安全不泄密、利益得以實現(xiàn),例如醫(yī)療數(shù)據(jù)的開放。醫(yī)療數(shù)據(jù)涉及相當比重和規(guī)模的隱私及敏感信息,例如患者個人信息、既往病史、就診記錄等,醫(yī)生個人信息、ICD編碼診斷習慣等,醫(yī)院具有優(yōu)勢的院內(nèi)制劑配方、院內(nèi)診療規(guī)范和方案、經(jīng)營財務狀況等,甚至屬于國家政府的涉密數(shù)據(jù)(如流行病、傳染病、突發(fā)事件、重大事件等)。這直接制約了醫(yī)療數(shù)據(jù)的開放,因為沒有合理有效的開放模式,醫(yī)療數(shù)據(jù)開放將增大醫(yī)療數(shù)據(jù)安全和隱私泄露的風險。為實現(xiàn)這一目的,數(shù)據(jù)自治開放是一種可行的方法。

  數(shù)據(jù)自治開放模式是由數(shù)據(jù)擁有者管理數(shù)據(jù),數(shù)據(jù)擁有權(quán)始終掌握在數(shù)據(jù)擁有者手里(除非自己要放棄擁有權(quán)),即數(shù)據(jù)自治;數(shù)據(jù)可以開放給指定使用者,使用者只能自己使用,不能傳播數(shù)據(jù),因此不會喪失數(shù)據(jù)的稀缺性。

  為實現(xiàn)數(shù)據(jù)自治開放,需要開發(fā)面向數(shù)據(jù)開放的數(shù)據(jù)資源管理系統(tǒng),然后將現(xiàn)有自治封閉系統(tǒng)中的數(shù)據(jù)資源重新組織到新系統(tǒng)中,實現(xiàn)數(shù)據(jù)資源的自治開放(如圖3所示)。數(shù)據(jù)自治開放模式對技術(shù)提出了新挑戰(zhàn),數(shù)據(jù)自治開放技術(shù)要解決的問題是“如何控制數(shù)據(jù)使用者傳播或濫用數(shù)據(jù)”。對應的關(guān)鍵技術(shù)問題如下。

圖3 面向開放的數(shù)據(jù)資源

  ● 如何做到數(shù)據(jù)既能夠自治又能夠開放?這需要研究面向自治開放的數(shù)據(jù)資源組織理論,即需要有新的數(shù)據(jù)模型來組織數(shù)據(jù)資源。外界能夠通過這個數(shù)據(jù)模型看到有哪些數(shù)據(jù)資源,以確定是否要使用這些數(shù)據(jù)資源,系統(tǒng)能夠承載使用者將數(shù)據(jù)上傳到應用軟件,根據(jù)數(shù)據(jù)模型來使用數(shù)據(jù)。

  ● 如何保護數(shù)據(jù)稀缺性不喪失、數(shù)據(jù)安全和隱私有保障?這需要研究面向自治開放的數(shù)據(jù)安全與隱私保護理論,確保數(shù)據(jù)使用者只能按約定使用數(shù)據(jù),而不能傳播和濫用數(shù)據(jù)。

  圍繞上述問題,重點研究方向包括:建立面向自治開放的數(shù)據(jù)組織模型;研究自治環(huán)境下數(shù)據(jù)使用外部軟件行為管控方法;研究開放數(shù)據(jù)權(quán)益保護方法;研發(fā)面向數(shù)據(jù)自治開放的數(shù)據(jù)資源管理系統(tǒng);在典型領(lǐng)域形成應用開放環(huán)境,開展應用。

  具體包括面向數(shù)據(jù)開放的數(shù)據(jù)組織模型——數(shù)據(jù)盒模型的建模技術(shù)、數(shù)據(jù)使用的“言行一致”管控技術(shù)、數(shù)據(jù)盒加密與隱私保護技術(shù)、數(shù)據(jù)站組成管理及數(shù)據(jù)站系統(tǒng)的設(shè)計與實現(xiàn)技術(shù)等。最終的數(shù)據(jù)自治開放應用系統(tǒng)的結(jié)構(gòu)如圖4所示。

圖4 數(shù)據(jù)自治開放應用系統(tǒng)的結(jié)構(gòu)

  5  數(shù)據(jù)自治開放技術(shù)

  5.1 數(shù)據(jù)組織模型——數(shù)據(jù)盒

  如前文所述,在數(shù)據(jù)開放環(huán)境下,使用數(shù)據(jù)的軟件或程序是外部的、未知的、無限的。數(shù)據(jù)的組織既要實現(xiàn)開放使得用戶方便使用,即數(shù)據(jù)外部可見、可理解、可編程,又要防止數(shù)據(jù)權(quán)益受到侵犯,即內(nèi)部可控、可跟蹤、可撤銷。這需要有面向自治開放的數(shù)據(jù)組織模型,涉及以下關(guān)鍵技術(shù)。

 ?。?)開放數(shù)據(jù)的基本存儲單元建模技術(shù)

  開放數(shù)據(jù)的基本存儲單元是為數(shù)據(jù)使用者提供開放數(shù)據(jù)的基本組成單元,稱為“數(shù)據(jù)盒”。自治開放模式將按照數(shù)據(jù)盒的方式向數(shù)據(jù)使用者開放數(shù)據(jù),即呈現(xiàn)給用戶的是一定數(shù)量的數(shù)據(jù)盒。對用戶開放的數(shù)據(jù)是局部數(shù)據(jù),不同類型數(shù)據(jù)、不同用戶需求,數(shù)據(jù)開放的粒度是不同的。如何從數(shù)據(jù)屬性維度(橫向)和數(shù)據(jù)規(guī)模(縱向)劃分數(shù)據(jù)粒度,對數(shù)據(jù)使用者使用數(shù)據(jù)、組織數(shù)據(jù)單元是一項關(guān)鍵技術(shù)。并且,對數(shù)據(jù)使用者開放數(shù)據(jù)的基本單元需要具有防泄露、保護權(quán)益的能力,如何將數(shù)據(jù)防泄露功能和數(shù)據(jù)權(quán)益保護機制等封裝在數(shù)據(jù)單元中,是需要解決的關(guān)鍵技術(shù)。

 ?。?)數(shù)據(jù)盒的形式化與計量技術(shù)

  數(shù)據(jù)描述、數(shù)據(jù)操作和約束是數(shù)據(jù)盒的基本要素,數(shù)據(jù)盒的使用涉及數(shù)據(jù)盒的交、并、拼接等操作,這需要對數(shù)據(jù)盒進行形式化表示。數(shù)據(jù)盒的計量是根據(jù)數(shù)據(jù)使用者提出的要求和目標,計算使用者所需數(shù)據(jù)盒的數(shù)量和時間等,并進行定價,包括數(shù)據(jù)使用需求建模、數(shù)據(jù)需求與數(shù)據(jù)盒自適應匹配方法、數(shù)據(jù)盒的計量度量設(shè)計與度量方法、定價規(guī)則和方法等。

  5.2 數(shù)據(jù)使用外部軟件行為管控方法

  數(shù)據(jù)自治開放環(huán)境允許數(shù)據(jù)使用者通過外部軟件訪問以數(shù)據(jù)盒形式存在的特定數(shù)據(jù)資源。為了保護數(shù)據(jù)利益和數(shù)據(jù)資源的可持續(xù)發(fā)展,應當對外部軟件訪問數(shù)據(jù)的行為進行規(guī)范化和管控。外部軟件行為管控是數(shù)據(jù)自治開放中保障數(shù)據(jù)權(quán)益的重要環(huán)節(jié)。通過監(jiān)控外部軟件訪問軟件的長期行為,提取軟件訪問數(shù)據(jù)的行為特征,并基于這些特征抽象其高層意圖。涉及的關(guān)鍵技術(shù)包括以下幾個方面。

  (1)基于業(yè)務領(lǐng)域知識模型的軟件行為意圖建模技術(shù)

  客戶軟件訪問開放的數(shù)據(jù)資源時,應當表明其訪問數(shù)據(jù)資源的高層意圖。例如某客戶軟件聲稱為了追蹤病癥A的治療和患者愈后情況,需要訪問該病癥的所有醫(yī)療數(shù)據(jù),那么根據(jù)這一意圖,對與病癥A“概念相關(guān)”的數(shù)據(jù)資源的訪問(可能)都是符合其意圖的。這種概念相關(guān)性依賴于特定業(yè)務領(lǐng)域知識模型以及對開放數(shù)據(jù)資源的語義標注。在客戶軟件訪問開放數(shù)據(jù)資源時,對其所有數(shù)據(jù)訪問行為和訪問過的數(shù)據(jù)資源語義進行分析,對客戶軟件訪問數(shù)據(jù)資源的實際意圖進行建模。

 ?。?)數(shù)據(jù)使用的言行一致管控技術(shù)

  在數(shù)據(jù)自治開放環(huán)境中,外部軟件以黑盒方式在授權(quán)范圍內(nèi)對數(shù)據(jù)進行自主訪問。外部軟件在進入計算環(huán)境前,應當先聲明其使用開放數(shù)據(jù)資源的目的,即提供其標稱意圖。標稱意圖的描述與該軟件的特定業(yè)務領(lǐng)域密切相關(guān),也應當表明其將采用的主要數(shù)據(jù)處理方法,作為使用數(shù)據(jù)時行為合法性的評價標準。聲明了合法標稱意圖的軟件在實施數(shù)據(jù)訪問時,其行為序列應當符合其所聲稱的意圖。根據(jù)軟件行為推測得到的意圖,即軟件行為意圖。當軟件的行為意圖(行)與軟件標稱意圖(言)不一致時,即表明該軟件對開放環(huán)境造成風險。為了驗證外部軟件行為是否符合其聲明的意圖,需要相應的軟件行為驗證技術(shù)。在隔離受控的沙箱環(huán)境中,對數(shù)據(jù)單元訪問接口和環(huán)境的不同安全級別進行模擬,留存軟件行為日志進行分析驗證。在此基礎(chǔ)上,在外部軟件使用數(shù)據(jù)的過程中,還需要采用量化機制客觀評價外部軟件的行為損害數(shù)據(jù)權(quán)益的風險,通過衡量行為意圖偏離標稱意圖的程度、行為意圖對數(shù)據(jù)價值和利益相關(guān)方的影響程度、軟件行為意圖判斷準確度等因素,綜合判定該軟件的行為風險等級。

  5.3 開放數(shù)據(jù)權(quán)益保護方法

  數(shù)據(jù)自治開放以數(shù)據(jù)盒為基本數(shù)據(jù)單元向數(shù)據(jù)使用者開放,因此數(shù)據(jù)資源稀缺性喪失和隱私泄露等問題的防范主要針對數(shù)據(jù)盒。數(shù)據(jù)盒數(shù)據(jù)被竊取、隱私數(shù)據(jù)泄露以及機密數(shù)據(jù)丟失等問題將導致數(shù)據(jù)權(quán)益受損,會降低數(shù)據(jù)擁有者開放自身數(shù)據(jù)的意愿。數(shù)據(jù)盒權(quán)益保護涉及以下關(guān)鍵技術(shù)。

 ?。?)數(shù)據(jù)盒加密與隱私保護

  一個數(shù)據(jù)盒可能包含照片、視頻、文本和結(jié)構(gòu)化數(shù)據(jù)等,數(shù)據(jù)盒的使用是外部的、未知的、無限的,傳統(tǒng)的數(shù)據(jù)加密、數(shù)據(jù)隱私技術(shù)無法有效應用在數(shù)據(jù)盒中。

  在數(shù)據(jù)盒加密方面,數(shù)據(jù)開放下的數(shù)據(jù)加密保護需要兼顧兩種情形。一是在數(shù)據(jù)盒正常使用情況下,需要考慮數(shù)據(jù)盒的安全性和功能性的權(quán)衡,使得在保證數(shù)據(jù)正常高效操作的前提下最大程度地保證數(shù)據(jù)的機密性。這需要可調(diào)整的加密技術(shù),將相應數(shù)據(jù)項進行一層或多層加密,當外部軟件請求使用數(shù)據(jù)時,在保證操作(讀、寫、結(jié)合等)順利執(zhí)行的前提下只需要打開所需的層次,使得該層既能完成外部軟件所需的操作,同時又不至于公開更內(nèi)部的層次。二是即便數(shù)據(jù)盒被盜取或控制,也需保持數(shù)據(jù)盒中數(shù)據(jù)的機密性,這需要保證數(shù)據(jù)盒抗盜取和抗逆向拆解的技術(shù)。

  在數(shù)據(jù)自治開放模式下,數(shù)據(jù)使用者的軟件在申請使用數(shù)據(jù)盒時,需要有一個數(shù)據(jù)使用說明,說明軟件使用哪些數(shù)據(jù)、以什么樣的方式使用這些數(shù)據(jù)、使用的預期結(jié)果是什么。因此數(shù)據(jù)盒的隱私保護主要包括如何判斷一個數(shù)據(jù)使用說明是否涉及隱私泄露、涉及哪些隱私數(shù)據(jù)、嚴重程度如何。這需要研究新型的隱私認知技術(shù)。

 ?。?)基于數(shù)據(jù)覆蓋模型的數(shù)據(jù)拼圖防范技術(shù)

  數(shù)據(jù)拼圖是指數(shù)據(jù)使用者能夠通過整合多次獲取的數(shù)據(jù)片段,還原數(shù)據(jù)整體。數(shù)據(jù)拼圖可以由單個使用者多次獲取數(shù)據(jù)片段來完成,也可由多個使用者共同合作,通過共同合作實現(xiàn)對數(shù)據(jù)片段的拼接。使用數(shù)據(jù)拼圖技術(shù),數(shù)據(jù)使用者可以通過非法的手段,未加授權(quán)地獲取被保護的數(shù)據(jù)對象,并將其私有化。數(shù)據(jù)拼圖會給數(shù)據(jù)自治開放帶來實質(zhì)危害,數(shù)據(jù)的使用期限、使用目的等權(quán)屬將難以受到保護。而且數(shù)據(jù)使用者可以將通過數(shù)據(jù)拼圖獲得的數(shù)據(jù)再次傳播給其他的未被授權(quán)的數(shù)據(jù)使用者,進一步造成對原數(shù)據(jù)權(quán)屬的二次侵犯。首先需要構(gòu)造數(shù)據(jù)使用行為的形式化描述,通過追蹤分析數(shù)據(jù)痕跡,動態(tài)構(gòu)造數(shù)據(jù)覆蓋模型,實時檢測與量化數(shù)據(jù)拼圖的危害性,建立可行的防范以及預警體系,有效預防與阻止數(shù)據(jù)拼圖對數(shù)據(jù)權(quán)屬的侵害。

  5.4 面向數(shù)據(jù)自治開放的數(shù)據(jù)資源管理系統(tǒng)

  數(shù)據(jù)資源以數(shù)據(jù)盒的形式存放在數(shù)據(jù)站中,每個數(shù)據(jù)站配備一套數(shù)據(jù)資源管理系統(tǒng),用以管理該站下的所有數(shù)據(jù)資源(數(shù)據(jù)盒)。通過數(shù)據(jù)盒虛擬化、應用裝載等功能供外部軟件使用數(shù)據(jù)。與傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)(database management system,DBMS)相比,數(shù)據(jù)資源管理系統(tǒng)承擔的數(shù)據(jù)管理不涉及事務處理,只有數(shù)據(jù)使用,但也不同于數(shù)據(jù)倉庫,數(shù)據(jù)倉庫用于數(shù)據(jù)開發(fā)利用而不是數(shù)據(jù)開放。涉及的關(guān)鍵技術(shù)包括以下幾個方面。

  (1)數(shù)據(jù)站組成與管理技術(shù)

  數(shù)據(jù)資源裝載在數(shù)據(jù)盒中,數(shù)據(jù)盒儲備在數(shù)據(jù)站里,因此需要研究數(shù)據(jù)站的邏輯構(gòu)成要素、物理形態(tài)、數(shù)據(jù)盒的組織方法與管理技術(shù),以便能夠快速定位某個數(shù)據(jù)資源的位置,包括通過數(shù)據(jù)資源元數(shù)據(jù)查找數(shù)據(jù)在哪些數(shù)據(jù)盒中,并從大量數(shù)據(jù)盒中快速定位到某一個數(shù)據(jù)盒,為用戶提供數(shù)據(jù)盒,展示數(shù)據(jù)盒的內(nèi)容或數(shù)據(jù)資源樣本。此外,還需要研究數(shù)據(jù)盒的新增、更新、凍結(jié)(即不再對外提供使用)以及瀏覽、查詢、校核等管理技術(shù)。

  (2)數(shù)據(jù)盒虛擬化方法

  數(shù)據(jù)盒的虛擬化是結(jié)合硬件虛擬化技術(shù),為每個需要訪問特定數(shù)據(jù)盒的外部軟件提供一個操作托盤。各虛擬數(shù)據(jù)盒相互隔離,且對某個虛擬數(shù)據(jù)盒的更改和刪除不會影響其他同源虛擬數(shù)據(jù)盒或原始的數(shù)據(jù)盒。對于數(shù)據(jù)資源管理系統(tǒng)而言,數(shù)據(jù)單元虛擬化技術(shù)直接關(guān)系到數(shù)據(jù)使用的安全性,即保護數(shù)據(jù)或隱私不會泄露,保障數(shù)據(jù)自治公開以及保證外部軟件使用數(shù)據(jù)規(guī)范受控。需要重點突破不在物理存儲上完全制作一份數(shù)據(jù)的副本的基礎(chǔ)上,實現(xiàn)虛擬化的虛擬數(shù)據(jù)單元相互隔離、可用,且控制內(nèi)存等資源的使用率,使整個數(shù)據(jù)站能夠支撐大量外部軟件,同時使用虛擬數(shù)據(jù)單元;如何在不進行數(shù)據(jù)盒物理復制的前提下提供虛擬化的數(shù)據(jù)盒,研究虛擬數(shù)據(jù)盒緩存技術(shù)、虛擬數(shù)據(jù)盒變動維護(更新、撤銷等)和長操作策略等。

 ?。?)NoSQL/Open運行庫和SDK

  設(shè)計NoSQL/Open(NoSQL open data language)語法規(guī)則,開發(fā)適用于常用操作系統(tǒng)的NoSQL/Open運行環(huán)境和運行庫,支持主流編程語言的軟件開發(fā)工具包(software development kit, SDK),為外部軟件實現(xiàn)與數(shù)據(jù)資源管理系統(tǒng)的互操作提供對數(shù)據(jù)站內(nèi)虛擬數(shù)據(jù)盒的訪問。通過NoSQL/Open,可以方便地使用數(shù)據(jù)盒。

 ?。?)系統(tǒng)承載力與數(shù)據(jù)站承載力模型數(shù)據(jù)資源管理系統(tǒng)和數(shù)據(jù)站也不可能管理無限多的數(shù)據(jù),提供無限的數(shù)據(jù)訪問能力。因此需要給出數(shù)據(jù)資源管理系統(tǒng)承載力模型,用以描述單個數(shù)據(jù)資源管理系統(tǒng)的極限能力、單個數(shù)據(jù)站所能承載的服務能力極限、與硬件的關(guān)系、數(shù)據(jù)站的擴展性與承載能力的關(guān)系等。

  6  結(jié)束語

  面對數(shù)據(jù)開放共享的戰(zhàn)略需求,傳統(tǒng)的面向數(shù)據(jù)自治封閉的數(shù)據(jù)管理技術(shù)無法適應數(shù)據(jù)開放的需求,急需開發(fā)面向數(shù)據(jù)開放的數(shù)據(jù)資源管理技術(shù)。本文提出了“數(shù)據(jù)自治開放”這一新型的數(shù)據(jù)資源開放模式,數(shù)據(jù)由數(shù)據(jù)擁有者在法律框架下自行確權(quán)和管理、自行制定開放規(guī)則(即數(shù)據(jù)自治),然后將數(shù)據(jù)開放給使用者,使用者沒有數(shù)據(jù)治理權(quán)。數(shù)據(jù)資源稀缺性不喪失的開放才是可持續(xù)的開放,就像保護知識產(chǎn)權(quán)才能保護創(chuàng)新,才能可持續(xù)。數(shù)據(jù)自治開放模式有望成為數(shù)據(jù)開放的基本模式,是政府數(shù)據(jù)開放共享、企業(yè)及個人數(shù)據(jù)交易、國家數(shù)據(jù)主權(quán)實現(xiàn)的一種可行方法。

  朱揚勇1,2, 熊贇1,2, 廖志成1,2, 葉雅珍1,2,3

  1. 復旦大學計算機科學技術(shù)學院,上海 201203

  2. 上海市數(shù)據(jù)科學重點實驗室,上海 201203

  3. 東華大學計算機科學與技術(shù)學院,上海 201620

作者簡介

  朱揚勇(1963-),男,博士,復旦大學計算機科學技術(shù)學院教授、學術(shù)委員會主任,上海市數(shù)據(jù)科學重點實驗室主任。1989年起從事數(shù)據(jù)領(lǐng)域研究,2008年提出數(shù)據(jù)資源保護和利用,2009年發(fā)表了數(shù)據(jù)科學論文“Data explosion,data nature and dataology”,并出版專著《數(shù)據(jù)學》,對數(shù)據(jù)科學進行了系統(tǒng)探討和描述。2010年創(chuàng)辦了“International Workshop on Dataology and Data Science”,2014年和石勇、張成奇共同創(chuàng)辦了“International Conference on Data Science”。擔任第462次香山科學會議“數(shù)據(jù)科學與大數(shù)據(jù)的理論問題探索”的執(zhí)行主席、“大數(shù)據(jù)技術(shù)與應用叢書”主編。目前主要研究方向為數(shù)據(jù)科學、大數(shù)據(jù)。

  熊贇(1980-),女,博士,復旦大學計算機科學技術(shù)學院教授。2004年起從事數(shù)據(jù)領(lǐng)域方面的研究工作,作為項目負責人主持國家自然科學基金、上海市科學技術(shù)委員會發(fā)展基金以及企業(yè)合作項目。相關(guān)研究成果在國際權(quán)威期刊和會議發(fā)表論文40余篇、出版著作3本。目前主要研究方向為數(shù)據(jù)科學和大數(shù)據(jù)。

  廖志成(1974-),男,復旦大學計算機科學技術(shù)學院高級工程師。1997年開始從事信息安全領(lǐng)域研究,2011年起從事數(shù)據(jù)領(lǐng)域方面的研究工作。作為主要人員參加了20余項國家自然科學基金項目、國家“863”計劃項目、國家教育委員會項目、上海市科學技術(shù)委員會項目、上海市教育委員會項目以及企業(yè)合作項目。先后獲得過中國高??茖W技術(shù)獎二等獎1項、上海市科技進步獎二等獎2項、中國智能交通協(xié)會科學技術(shù)獎二等獎1項。發(fā)表論文9篇,出版著作7本。目前主要研究方向為數(shù)據(jù)科學、大數(shù)據(jù)、數(shù)據(jù)挖掘。

  葉雅珍(1985-),女,復旦大學計算機科學技術(shù)學院助理研究員,東華大學博士生,主要研究方向為數(shù)據(jù)科學和大數(shù)據(jù)。

責任編輯:李泰民