當(dāng)今,社會(huì)信息化和網(wǎng)絡(luò)化的發(fā)展導(dǎo)致數(shù)據(jù)爆炸式增長(zhǎng)。據(jù)統(tǒng)計(jì),平均每秒有200萬用戶在使用谷歌搜索,F(xiàn)acebook用戶每天共享的東西超過40億,Twitter每天處理的推特?cái)?shù)量超過3.4億。同時(shí),科學(xué)計(jì)算、醫(yī)療衛(wèi)生、金融、零售業(yè)等各行業(yè)也有大量數(shù)據(jù)在不斷產(chǎn)生。2012年全球信息總量已經(jīng)達(dá)到2.7 ZB,而到2015年這一數(shù)值預(yù)計(jì)會(huì)達(dá)到8 ZB。這一現(xiàn)象引發(fā)了人們的廣泛關(guān)注。在學(xué)術(shù)界,圖靈獎(jiǎng)獲得者Jim Gray提出了科學(xué)研究的第四范式,即以大數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)密集型科學(xué)研究;2008年《Nature))推出了大數(shù)據(jù)專刊對(duì)其展開探討;2011年《Science》也推出類似的數(shù)據(jù)處理專刊。IT產(chǎn)業(yè)界行動(dòng)更為積極,持續(xù)關(guān)注數(shù)據(jù)再利用,挖掘大數(shù)據(jù)的潛在價(jià)值。目前,大數(shù)據(jù)已成為繼云計(jì)算之后信息技術(shù)領(lǐng)域的另一個(gè)信息產(chǎn)業(yè)增長(zhǎng)點(diǎn)。據(jù)Gartner預(yù)測(cè),2013年大數(shù)據(jù)將帶動(dòng)全球IT支出340億美元,到2016年全球在大數(shù)據(jù)方面的總花費(fèi)將達(dá)到2320億美元。Gartner將“大數(shù)據(jù)”技術(shù)列入2012年對(duì)眾多公司和組織機(jī)構(gòu)具有戰(zhàn)略意義的十大技術(shù)與趨勢(shì)之一。不僅如此,作為國(guó)家和社會(huì)的主要管理者,各國(guó)政府也是大數(shù)據(jù)技術(shù)推廣的主要推動(dòng)者。2009年3月美國(guó)政府上線了data.gov網(wǎng)站,向公眾開放政府所擁有的公共數(shù)據(jù)。隨后,英國(guó)、澳大利亞等政府也開始了大數(shù)據(jù)開放的進(jìn)程,截至目前,全世界已經(jīng)正式有35個(gè)國(guó)家和地區(qū)構(gòu)建了自己的數(shù)據(jù)開放門戶網(wǎng)站。美國(guó)政府聯(lián)合6個(gè)部門宣布了2億美元的“大數(shù)據(jù)研究與發(fā)展計(jì)劃”。在我國(guó),2012年中國(guó)通信學(xué)會(huì)、中國(guó)計(jì)算機(jī)學(xué)會(huì)等重要學(xué)術(shù)組織先后成立了大數(shù)據(jù)專家委員會(huì),為我國(guó)大數(shù)據(jù)應(yīng)用和發(fā)展提供學(xué)術(shù)咨詢。
目前大數(shù)據(jù)的發(fā)展仍然面臨著許多問題,安全與隱私問題是人們公認(rèn)的關(guān)鍵問題之一。當(dāng)前,人們?cè)诨ヂ?lián)網(wǎng)上的一言一行都掌握在互聯(lián)網(wǎng)商家手中,包括購(gòu)物習(xí)慣、好友聯(lián)絡(luò)情況、閱讀習(xí)慣、檢索習(xí)慣等等。多項(xiàng)實(shí)際案例說明,即使無害的數(shù)據(jù)被大量收集后,也會(huì)暴露個(gè)人隱私。事實(shí)上,大數(shù)據(jù)安全含義更為廣泛,人們面臨的威脅并不僅限于個(gè)人隱私泄漏。與其它信息一樣,大數(shù)據(jù)在存儲(chǔ)、處理、傳輸?shù)冗^程中面臨諸多安全風(fēng)險(xiǎn),具有數(shù)據(jù)安全與隱私保護(hù)需求。而實(shí)現(xiàn)大數(shù)據(jù)安全與隱私保護(hù),較以往其它安全問題(如云計(jì)算中的數(shù)據(jù)安全等)更為棘手。這是因?yàn)樵谠朴?jì)算中,雖然服務(wù)提供商控制了數(shù)據(jù)的存儲(chǔ)與運(yùn)行環(huán)境,但是用戶仍然有些辦法保護(hù)自己的數(shù)據(jù),例如通過密碼學(xué)的技術(shù)手段實(shí)現(xiàn)數(shù)據(jù)安全存儲(chǔ)與安全計(jì)算,或者通過可信計(jì)算方式實(shí)現(xiàn)運(yùn)行環(huán)境安全等。而在大數(shù)據(jù)的背景下,F(xiàn)acebook等商家既是數(shù)據(jù)的生產(chǎn)者,又是數(shù)據(jù)的存儲(chǔ)、管理者和使用者,因此,單純通過技術(shù)手段限制商家對(duì)用戶信息的使用,實(shí)現(xiàn)用戶隱私保護(hù)是極其困難的事。
當(dāng)前很多組織都認(rèn)識(shí)到大數(shù)據(jù)的安全問題,并積極行動(dòng)起來關(guān)注大數(shù)據(jù)安全問題。2012年云安全聯(lián)盟CSA組建了大數(shù)據(jù)工作組,旨在尋找針對(duì)數(shù)據(jù)中心安全和隱私問題的解決方案。本文在梳理大數(shù)據(jù)研究現(xiàn)狀的基礎(chǔ)上,重點(diǎn)分析了當(dāng)前大數(shù)據(jù)所帶來的安全挑戰(zhàn),詳細(xì)闡述了當(dāng)前大數(shù)據(jù)安全與隱私保護(hù)的關(guān)鍵技術(shù)。需要指出的是,大數(shù)據(jù)在引人新的安全問題和挑戰(zhàn)的同時(shí),也為信息安全領(lǐng)域帶來了新的發(fā)展契機(jī),即基于大數(shù)據(jù)的信息安全相關(guān)技術(shù)可以反過來用于大數(shù)據(jù)的安全和隱私保護(hù)。本文在第5節(jié)對(duì)其進(jìn)行了初步分析與探討。
2.大數(shù)據(jù)研究概述
2.1 大數(shù)據(jù)來源與特征
普遍的觀點(diǎn)認(rèn)為,大數(shù)據(jù)是指規(guī)模大且復(fù)雜、以至于很難用現(xiàn)有數(shù)據(jù)庫(kù)管理工具或數(shù)據(jù)處理應(yīng)用來處理的數(shù)據(jù)集。大數(shù)據(jù)的常見特點(diǎn)包括大規(guī)模(volume)、高速性(velocity)和多樣性(variety)。根據(jù)來源的不同,大數(shù)據(jù)大致可分為如下幾類:
(1)來自于人。人們?cè)诨ヂ?lián)網(wǎng)活動(dòng)以及使用移動(dòng)互聯(lián)網(wǎng)過程中所產(chǎn)生的各類數(shù)據(jù),包括文字、圖片、視頻等信息;
(2)來自于機(jī)。各類計(jì)算機(jī)信息系統(tǒng)產(chǎn)生的數(shù)據(jù),以文件、數(shù)據(jù)庫(kù)、多媒體等形式存在,也包括審計(jì)、日志等自動(dòng)生成的信息;
(3)來自于物。各類數(shù)字設(shè)備所采集的數(shù)據(jù)。如攝像頭產(chǎn)生的數(shù)字信號(hào)、醫(yī)療物聯(lián)網(wǎng)中產(chǎn)生的人的各項(xiàng)特征值、天文望遠(yuǎn)鏡所產(chǎn)生的大量數(shù)據(jù)等。[page]
2.2 大數(shù)據(jù)分析目標(biāo)
目前大數(shù)據(jù)分析應(yīng)用于科學(xué)、醫(yī)藥、商業(yè)等各個(gè)領(lǐng)域,用途差異巨大。但其目標(biāo)可以歸納為如下幾類:
(1)獲得知識(shí)與推測(cè)趨勢(shì)
人們進(jìn)行數(shù)據(jù)分析由來已久,最初且最重要的目的就是獲得知識(shí)、利用知識(shí)。由于大數(shù)據(jù)包含大量原始、真實(shí)信息,大數(shù)據(jù)分析能夠有效地摒棄個(gè)體差異,幫助人們透過現(xiàn)象、更準(zhǔn)確地把握事物背后的規(guī)律?;谕诰虺龅闹R(shí),可以更準(zhǔn)確地對(duì)自然或社會(huì)現(xiàn)象進(jìn)行預(yù)測(cè)。典型的案例是Google公司的Google Flu Trends網(wǎng)站。它通過統(tǒng)計(jì)人們對(duì)流感信息的搜索,查詢Google服務(wù)器日志的IP地址判定搜索來源,從而發(fā)布對(duì)世界各地流感情況的預(yù)測(cè)。又如,人們可以根據(jù)Twitter信息預(yù)測(cè)股票行情等。
(2)分析掌握個(gè)性化特征
個(gè)體活動(dòng)在滿足某些群體特征的同時(shí),也具有鮮明的個(gè)性化特征。正如“長(zhǎng)尾理論”中那條細(xì)長(zhǎng)的尾巴那樣,這些特征可能千差萬別。企業(yè)通過長(zhǎng)時(shí)間、多維度的數(shù)據(jù)積累,可以分析用戶行為規(guī)律,更準(zhǔn)確地描繪其個(gè)體輪廓,為用戶提供更好的個(gè)性化產(chǎn)品和服務(wù),以及更準(zhǔn)確的廣告推薦。例如Google通過其大數(shù)據(jù)產(chǎn)品對(duì)用戶的習(xí)慣和愛好進(jìn)行分析,幫助廣告商評(píng)估廣告活動(dòng)效率,預(yù)估在未來可能存在高達(dá)到數(shù)千億美元的市場(chǎng)規(guī)模。
(3)通過分析辨識(shí)真相
錯(cuò)誤信息不如沒有信息。由于網(wǎng)絡(luò)中信息的傳播更加便利,所以網(wǎng)絡(luò)虛假信息造成的危害也更大。例如,2013年4月24日,美聯(lián)社Twitter帳號(hào)被盜,發(fā)布虛假消息稱總統(tǒng)奧巴馬遭受恐怖襲擊受傷。雖然虛假消息在幾分鐘內(nèi)被禁止,但是仍然引發(fā)了美國(guó)股市短暫跳水。由于大數(shù)據(jù)來源廣泛及其多樣性,在一定程度上它可以幫助實(shí)現(xiàn)信息的去偽存真。目前人們開始嘗試?yán)么髷?shù)據(jù)進(jìn)行虛假信息識(shí)別。例如,社交點(diǎn)評(píng)類網(wǎng)站Yelp利用大數(shù)據(jù)對(duì)虛假評(píng)論進(jìn)行過濾,為用戶提供更為真實(shí)的評(píng)論信息;Yahoo和Thinkmail等利用大數(shù)據(jù)分析技術(shù)來過濾垃圾郵件。
2.3 大數(shù)據(jù)技術(shù)框架
大數(shù)據(jù)處理涉及數(shù)據(jù)的采集、管理、分析與展示等。圖1是相關(guān)技術(shù)示意圖。
圖1 大數(shù)據(jù)技術(shù)架構(gòu)
(1)數(shù)據(jù)采集與預(yù)處理(Data Acquisition & Preparation)
大數(shù)據(jù)的數(shù)據(jù)源多樣化,包括數(shù)據(jù)庫(kù)、文本、圖片、視頻、網(wǎng)頁(yè)等各類結(jié)構(gòu)化、非結(jié)構(gòu)化及半結(jié)構(gòu)化數(shù)據(jù)。因此,大數(shù)據(jù)處理的第一步是從數(shù)據(jù)源采集數(shù)據(jù)并進(jìn)行預(yù)處理操作,為后繼流程提供統(tǒng)一的高質(zhì)量的數(shù)據(jù)集。
由于大數(shù)據(jù)的來源不一,可能存在不同模式的描述,甚至存在矛盾。因此,在數(shù)據(jù)集成過程中對(duì)數(shù)據(jù)進(jìn)行清洗,以消除相似、重復(fù)或不一致的數(shù)據(jù)是非常必要的。文獻(xiàn)中數(shù)據(jù)清洗和集成技術(shù)針對(duì)大數(shù)據(jù)的特點(diǎn),提出非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)的清洗以及超大規(guī)模數(shù)據(jù)的集成。
數(shù)據(jù)存儲(chǔ)與大數(shù)據(jù)應(yīng)用密切相關(guān)。某些實(shí)時(shí)性要求較高的應(yīng)用,如狀態(tài)監(jiān)控,更適合采用流處理模式,直接在清洗和集成后的數(shù)據(jù)源上進(jìn)行分析。而大多數(shù)其它應(yīng)用則需要存儲(chǔ),以支持后繼更深度的數(shù)據(jù)分析流程。為了提高數(shù)據(jù)吞吐量,降低存儲(chǔ)成本,通常采用分布式架構(gòu)來存儲(chǔ)大數(shù)據(jù)。這方面有代表性的研究包括:文件系統(tǒng)GFSE、HDFS和Haystack等;NoSQL數(shù)據(jù)庫(kù)Mongodb、CouchDB、HBase、Redis、Neo4j等。
(2)數(shù)據(jù)分析(Data Analysis)
數(shù)據(jù)分析是大數(shù)據(jù)應(yīng)用的核心流程。根據(jù)不同層次大致可分為3類:計(jì)算架構(gòu)、查詢與索引以及數(shù)據(jù)分析和處理。
在計(jì)算架構(gòu)方面,MapReduce是當(dāng)前廣泛采用的大數(shù)據(jù)集計(jì)算模型和框架。為了適應(yīng)一些對(duì)任務(wù)完成時(shí)間要求較高的分析需求,文獻(xiàn)對(duì)其性能進(jìn)行了優(yōu)化;文獻(xiàn)提出了一種基于MapReduce架構(gòu)的數(shù)據(jù)流分析解決方案MARISSA,使其能夠支持實(shí)時(shí)分析任務(wù);文獻(xiàn)則提出了基于時(shí)間的大數(shù)據(jù)分析方案Mastiff;文獻(xiàn)也針對(duì)廣告推送等實(shí)時(shí)性要求較高的應(yīng)用,提出了基于MapReduce的TiMR框架來進(jìn)行實(shí)時(shí)流處理。
在查詢與索引方面,由于大數(shù)據(jù)中包含了大量的非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的查詢和索引技術(shù)受到限制,而NoSQL類數(shù)據(jù)庫(kù)技術(shù)得到更多關(guān)注。例如,文獻(xiàn)提出了一個(gè)混合的數(shù)據(jù)訪問架構(gòu)HyDB以及一種并發(fā)數(shù)據(jù)查詢及優(yōu)化方法。文獻(xiàn)對(duì)key-value類型數(shù)據(jù)庫(kù)的查詢進(jìn)行了性能優(yōu)化。
在數(shù)據(jù)分析與處理方面,主要涉及的技術(shù)包括語義分析與數(shù)據(jù)挖掘等。由于大數(shù)據(jù)環(huán)境下數(shù)據(jù)呈現(xiàn)多樣化特點(diǎn),所以對(duì)數(shù)據(jù)進(jìn)行語義分析時(shí),就較難統(tǒng)一術(shù)語進(jìn)而挖掘信息。文獻(xiàn)針對(duì)大數(shù)據(jù)環(huán)境,提出了一種解決術(shù)語變異問題的高效術(shù)語標(biāo)準(zhǔn)化方法。文獻(xiàn)對(duì)語義分析中語義本體的異質(zhì)性展開了研究。傳統(tǒng)數(shù)據(jù)挖掘技術(shù)主要針對(duì)結(jié)構(gòu)化數(shù)據(jù),因此迫切需要對(duì)非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)挖掘技術(shù)展開研究。文獻(xiàn)提出了一種針對(duì)圖片文件的挖掘技術(shù),文獻(xiàn)提出了一種大規(guī)模TEXT文件的檢索和挖掘技術(shù)。[page]
(3)數(shù)據(jù)解釋(Data Interpretation)數(shù)據(jù)解釋旨在更好地支持用戶對(duì)數(shù)據(jù)分析結(jié)果的使用,涉及的主要技術(shù)為可視化和人機(jī)交互。目前已經(jīng)有了一些針對(duì)大規(guī)模數(shù)據(jù)的可視化研究,通過數(shù)據(jù)投影、維度降解或顯示墻等方法來解決大規(guī)模數(shù)據(jù)的顯示問題。由于人類的視覺敏感度限制了更大屏幕顯示的有效性,以人為中心的人機(jī)交互設(shè)計(jì)也將是解決大數(shù)據(jù)分析結(jié)果展示的一種重要技術(shù)。
(4)其它支撐技術(shù)(Data Transmission & Virtual Cluster)
雖然大數(shù)據(jù)應(yīng)用強(qiáng)調(diào)以數(shù)據(jù)為中心,將計(jì)算推送到數(shù)據(jù)上執(zhí)行,但是在整個(gè)處理過程中,數(shù)據(jù)的傳輸仍然是必不可少的,例如一些科學(xué)觀測(cè)數(shù)據(jù)從觀測(cè)點(diǎn)向數(shù)據(jù)中心的傳輸?shù)?。文獻(xiàn)針對(duì)大數(shù)據(jù)特征研究高效傳輸架構(gòu)和協(xié)議。
此外,由于虛擬集群具有成本低、搭建靈活、便于管理等優(yōu)點(diǎn),人們?cè)诖髷?shù)據(jù)分析時(shí)可以選擇更加方便的虛擬集群來完成各項(xiàng)處理任務(wù)。因此需要針對(duì)大數(shù)據(jù)應(yīng)用展開的虛擬機(jī)集群優(yōu)化研究。