4月27日至28日,由工業(yè)和信息化部指導、中國信息通信研究院主辦的"2016大數(shù)據(jù)產(chǎn)業(yè)峰會"在北京國際會議中心盛大召開。會上中國工程院院士鄔賀銓跟與會人員分享了大數(shù)據(jù)技術(shù)發(fā)展的趨勢。

中國工程院院士鄔賀銓
以下是鎢賀銓演講實錄:
鎢賀銓:很高興來到大數(shù)據(jù)產(chǎn)業(yè)峰會,我想就大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)及影響談一下我的看法。我們先看一下數(shù)據(jù)挖掘的過程,從數(shù)據(jù)資源、數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)傳送到數(shù)據(jù)分享、數(shù)據(jù)挖掘、數(shù)據(jù)呈現(xiàn)、數(shù)據(jù)應用,產(chǎn)業(yè)、安全、法規(guī)人才。這并不是所有的數(shù)據(jù)都要拿來挖掘的,首先要進行取樣分析,首先在選擇數(shù)據(jù)的時候要進行提取,標簽化。對一些非結(jié)構(gòu)化的數(shù)據(jù)還要進行變換處理,然后分類收集,最后抽取出原數(shù)據(jù),然后把原數(shù)據(jù)再融合,這個過程還是要反饋的。我們首先看數(shù)據(jù)融合,傳感器的數(shù)據(jù)是物理空間的數(shù)據(jù),網(wǎng)絡(luò)空間的細分空間,還有政府企業(yè)收集的相關(guān)數(shù)據(jù)。
2013年,全世界來自消費企業(yè)的數(shù)據(jù)占三分之一,當然數(shù)據(jù)里頭很多國家安全、個人隱私的這些數(shù)據(jù)不能開放的。大數(shù)據(jù)里頭有一部分的數(shù)據(jù)是開放的,當然數(shù)據(jù)本身有結(jié)構(gòu)化的、非結(jié)構(gòu)化的、半結(jié)構(gòu)化的。我們再來看大數(shù)據(jù)分析的流程,實際上所謂大數(shù)據(jù)很多時候既很難說它什么時候開始,也很難說它什么時候會結(jié)束。在整個數(shù)據(jù)獲取的過程中是不斷的流進來的,我們要通過分析模型來引導和收集。過去我們的收據(jù)是代數(shù)據(jù)進行,現(xiàn)在數(shù)據(jù)是活的,我們只能帶程序進數(shù)據(jù)。我以阿里云的大數(shù)據(jù)平臺為例,它底層有計算引擎,上面有數(shù)據(jù)的開發(fā)和加速,有數(shù)據(jù)管理、數(shù)據(jù)資料保障,數(shù)據(jù)監(jiān)控。當然用到機器學習,在上層是應用開發(fā),這里面可能根據(jù)你需要的選擇規(guī)則,準備分析,還有評價或者是推薦優(yōu)選,可視化、具體人群,識別文字、識別語音。最后是面向解決方案的,究竟是面向智能支付,還是企業(yè)的精準營銷,還有交通路況預測,以及我們監(jiān)控的安全預警等。
我們再看,大數(shù)據(jù)需要實時抽取,這里面左邊的照片在羅馬,這是拍到的古羅馬的移植。如果我希望凝了解當時古羅馬的樣子,可以把分散的照片以及留下來的一些照片聚合起來,可以形成一個古羅馬的最后的全貌。這是用到信息融合技術(shù)。它把分散的數(shù)據(jù)集合成一個全集的數(shù)據(jù)。以下的兩張圖是一樣的,右邊的屏蔽掉我所不關(guān)注的部分,然后抽取我所關(guān)注的部分。在繁雜的大數(shù)據(jù)中,我需要信息抽取來抽取我所感興趣的數(shù)據(jù)。
大數(shù)據(jù)還要做到可視化,這是交通數(shù)據(jù)的可視化,也是以色列的克拉維夫,它有很多攝像頭,傳統(tǒng)的攝像頭是分散的,孤立的,現(xiàn)在通過大數(shù)據(jù)的可視化的技術(shù)把它組合成一張圖,不同的十年,路上的狀況不一樣,用不同的顏色標注交通管制,等等。
我們再看北京PM2.5,去年P(guān)M2.5超標,有些人懷疑自己肺有毛病,到醫(yī)院做了幾個CT,醫(yī)生看分散的CP照片是很難的,希望通過虛擬化把它還原成一個肺,再看看有沒有纖維化。甚至可以用AR和ER的技術(shù)深入的研究,身上有沒有病灶和毛病,等等。還有交通的路礦預測,以及我們監(jiān)控的安全預警等等,當然了,面向媒體、能源、交通,所以大數(shù)據(jù)里頭主要的有計算引擎、數(shù)據(jù)開發(fā)和運用開發(fā)加速。
我們再看看數(shù)據(jù)挖掘的算法,首先要通過合并壓縮轉(zhuǎn)換,然后是統(tǒng)計分析、支持發(fā)現(xiàn)可視化,最后是規(guī)則、分論、緒論、序列、路徑,涉及到一大堆的算法,我們可以看到這里面有數(shù)據(jù)獲取,然后轉(zhuǎn)化與存儲,然后數(shù)據(jù)虛擬化和摘要,最后是決策分析。需要用到一些軟件。大數(shù)據(jù)首先是計算問題,是不是所有數(shù)據(jù)都可以計算呢?不一定,有些數(shù)據(jù)是可以判定的,它是容易解釋的,可以有多項算法來解釋,但是有些數(shù)據(jù)是比較難解的,這里頭有一類是不可近似的,有一類是可近似的,我們可以看到我們首先要探索數(shù)據(jù)復雜性的規(guī)律和關(guān)系的生成機理,建立數(shù)據(jù)復雜性的理論和模型,這里面包括數(shù)據(jù)的結(jié)構(gòu)和學習,最后還要把數(shù)據(jù)簡化。所以,美國加州大學圖像可視化中心已經(jīng)組成了語音非結(jié)構(gòu)化數(shù)據(jù)?,F(xiàn)在我們高校在大數(shù)據(jù)研究上還可以,但是做一些數(shù)據(jù)分析的單位沒有數(shù)據(jù),而擁有數(shù)據(jù)的單位有些不會分析。
大數(shù)據(jù)分布存儲和冗余備份用得比較多的還是這個,它把數(shù)據(jù)通過冗余配置來提高可靠性,這樣的話,簡易服務器仍然可以在一個低的價錢下,低的成本下得到比較可靠的服務。我們通過調(diào)度再分組組合,這是我們需要的結(jié)果。這是一個圖比較形象的說明左邊是數(shù)據(jù)的來源,當然每個來源可能都有各種各樣的數(shù)據(jù),需要進行認識,進行分類提取,我們可以看到把它分到不同的地方,這樣一來,我們的數(shù)據(jù)挖掘才可能簡化我們挖掘的工作。
我再舉個例子,這是在無錫,對太湖的污染狀況傳感器數(shù)據(jù)分析,它使用了很多種傳感器,有硝酸鹽、有氨氮的、溶解氧的、水溫的,但是并不是所有的傳感器獲得的數(shù)據(jù)都是等同對待的。我們可以看到各類數(shù)據(jù)都一樣。但是太湖的藍藻爆發(fā)強度有關(guān)的,首先是溶解氧,然后是水溫,基于氨氮、硝酸鹽的關(guān)聯(lián)沒那么大,所有的數(shù)據(jù)是需要加權(quán)處理的,根據(jù)它的影響角度不同,我們給它的值也不一樣,只有這樣才可以反映出我們最終的分析結(jié)果。
另外,還是以太湖為例,我們不但有地基系統(tǒng)的水質(zhì)探測的傳感器,有衛(wèi)星探測傳感器,還有人工采集傳感器,多種數(shù)據(jù)要放到數(shù)據(jù)采集以后,要進行利用已知的湖泊模型,還要把歷史數(shù)據(jù)拿出來對比,然后才能判斷這些數(shù)據(jù)是不是可能產(chǎn)生藍藻。這個判斷后臺需要用到3S技術(shù),云計算技術(shù),數(shù)據(jù)中心與數(shù)據(jù)挖掘,所以我們講究的是要一元數(shù)據(jù)協(xié)同處理。大數(shù)據(jù)最難的是非結(jié)構(gòu)化數(shù)據(jù),圖象、照片、視頻是非結(jié)構(gòu)化的,目前計算識別圖象視頻還是有一定難度的,谷歌前幾年的做法是計算機識別貓,有15%—20%的識別率,一般的非結(jié)構(gòu)化數(shù)據(jù)需要把它轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù),然后再來進行處理。我覺得非結(jié)構(gòu)化數(shù)據(jù)本身要進行收集、規(guī)律、組織,然后再解釋,編輯,再通過上下文的關(guān)聯(lián)增進理解。
不過目前對非結(jié)構(gòu)化數(shù)據(jù)處理已經(jīng)有了一定的進展,這是一個照片,照片本身來計算機是看不出來是什么的,谷歌的工程師已經(jīng)在照片旁邊附加了一段文字,他通過一定的算法來分析。他說一群人在室外的市場上購物,在水果攤上有很多蔬菜,將來計算機掃描的時候只要掃描這個摘要就行了,不需要關(guān)注照片是什么樣子。也就是說把非結(jié)構(gòu)化的照片變成結(jié)構(gòu)化的文字,那么我們再看如果你出差到俄羅斯,或者到俄羅斯旅游,現(xiàn)在會俄文的人不多了,不要緊,你拿手機拍下來,直接上到云端搜索,它會用英文或者中文顯示,谷歌聲稱現(xiàn)在有26種語言可以顯示,也就是說照片里面的文字通過用掃描文件還是掃描不出來的。實際上所有的非結(jié)構(gòu)化數(shù)據(jù)都可以轉(zhuǎn)成結(jié)構(gòu)化數(shù)據(jù)來處理,比如說通常視頻都會有音頻和字幕,用語音識別的辦法把音頻抽出來可以轉(zhuǎn)成文字,在這方面科大迅飛已經(jīng)做得相當不錯了。另外,很多視頻里頭還會嵌入文字的字幕。對一些照片、標語里的文字也可以掃描,非結(jié)構(gòu)化數(shù)據(jù)也是可以轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)處理的。
我們再來看這是大數(shù)據(jù)進行的,右邊的屏幕上打出聲音翻譯成了中文。這里面沒有同聲傳譯,它是基于微軟掌握的大數(shù)據(jù)技術(shù)、神經(jīng)網(wǎng)絡(luò)技術(shù)、機器學習技術(shù)以及上百萬素材,一邊講話一邊翻譯成中文,這是大數(shù)據(jù)應用,同時反過來大數(shù)據(jù)需要應用的人工智能技術(shù)非結(jié)構(gòu)化數(shù)據(jù)的處理。
這是醫(yī)療大數(shù)據(jù)虛擬化的應用。大數(shù)據(jù)究竟會用到什么樣的技術(shù),IDC公司在去年說,2015年富媒體、音視頻和圖象的分析在未來5年會增長100%,在北美有板數(shù)公司報告在大數(shù)據(jù)分析項目里已經(jīng)使用了富媒體數(shù)據(jù)。也就是說雖然是非結(jié)構(gòu)化的,但是在大數(shù)據(jù)里頭分析還是很有用處的。
另外,數(shù)據(jù)即服務,過去有IaaS、PaaS,現(xiàn)在有DaaS,就是將大數(shù)據(jù)作為服務,現(xiàn)在DaaS已經(jīng)成為云平臺和大數(shù)據(jù)分析提供商的戰(zhàn)略供應鏈。
還有物聯(lián)網(wǎng)是下一個數(shù)據(jù)分析應用的熱點,在今后五年,物聯(lián)網(wǎng)的數(shù)據(jù)分析市場會年增30%,另外2015年是認知和機器學習應用迅速增長的一年。
大數(shù)據(jù)分析在企業(yè)的應用,目前來看,大部分企業(yè)是把大數(shù)據(jù)分析用于客戶分析,然后是運營分析,然后是誠信分析,還有10%是新產(chǎn)品和業(yè)務創(chuàng)新,另外10%是企業(yè)數(shù)據(jù)倉庫優(yōu)化。大數(shù)據(jù)支出最大的產(chǎn)業(yè),一是離散制造,二是銀行,三是流程制造。
大數(shù)據(jù)在供應鏈里頭也有很好的使用,包括供應鏈的規(guī)劃、分析和挖掘,電子數(shù)據(jù)交換,貿(mào)易管理、倉庫與分銷中心管理。大數(shù)據(jù)在供應鏈的應用場景在供應鏈的可視化數(shù)據(jù)56%,位置和映射數(shù)據(jù)47%,產(chǎn)品和可追溯數(shù)據(jù)42%,溫度與產(chǎn)品流數(shù)據(jù)24%,RFID數(shù)據(jù)18%。
數(shù)據(jù)挖掘服務,我這里舉的是中國聯(lián)通的例子,中國聯(lián)通把他的BSS和OSS數(shù)據(jù)都收集起來,OSS數(shù)據(jù)包括上網(wǎng)流量、IP地址,BSS包括用戶詳單、資費等等,通過數(shù)據(jù)源處理、采集、加載、格式轉(zhuǎn)換、模型轉(zhuǎn)換、數(shù)據(jù)脫敏然后再進行,這邊是數(shù)據(jù)的產(chǎn)生提取,這邊是根據(jù)需求,客戶有些什么數(shù)據(jù)挖掘的需求,然后他審核這個需求,然后從數(shù)據(jù)集里頭準備,再通過一定的模型,發(fā)掘出來申請發(fā)布,再通過集團的審核,服務包裝再來輸出。
中國聯(lián)通已經(jīng)為大眾汽車提供數(shù)據(jù),它的原始數(shù)據(jù)中國聯(lián)通是不提供的,大眾汽車請中國聯(lián)通提供究竟購買汽車的用戶對汽車有什么需求,中國聯(lián)通準備了100頁的PPT交給大眾汽車,大眾汽車付了100萬,也就是說每頁PPT值一萬塊錢。
上下游支撐大數(shù)據(jù)的技術(shù)和產(chǎn)業(yè)有什么呢?寬帶網(wǎng)、存儲器、云計算、數(shù)據(jù)庫、人工智能、分析軟件,大數(shù)據(jù)支撐的產(chǎn)業(yè)就多了,包括建筑業(yè)、能源礦業(yè)、交通運輸業(yè)等等。不能把存儲、云計算全都算到大數(shù)據(jù)行業(yè),只能說為大數(shù)據(jù)分析的產(chǎn)業(yè),云計算和網(wǎng)絡(luò)算到大數(shù)據(jù)產(chǎn)業(yè)。而廣義的大數(shù)據(jù)產(chǎn)業(yè)一百于大數(shù)據(jù)信息產(chǎn)業(yè),大數(shù)據(jù)本身服務業(yè)的屬性大于大數(shù)據(jù)軟硬件的制造業(yè),而大數(shù)據(jù)對其他產(chǎn)業(yè)的影響是大于對信息產(chǎn)業(yè)的影響,大數(shù)據(jù)的社會效應大于直接經(jīng)濟效益。所以,大數(shù)據(jù)影響之大和受到廣泛重視也是認為它的溢出效益明顯。
我們可以看到麥肯錫說大數(shù)據(jù)的價值,大家都知道,一年能給美國保健帶來3000億美元的潛在價值,能給歐洲公共管理帶來2500億歐元,能給服務業(yè)帶來6000億美元的盈余,能給制造業(yè)降低50%的成本,政府的數(shù)據(jù)開放會給全世界經(jīng)濟帶來32200億到54000億美元的紅利,教育將近一萬億,運輸7000—900億等等。
這是WikiBon統(tǒng)計的,主要分為硬件軟件的服務,軟件占22%,硬件38%,服務占40%,這是當時的統(tǒng)計,2013—2017年。今年又發(fā)布了2011年到2026年。2014年,全世界大數(shù)據(jù)市場是273.6億美元,到2020年是840億美元,都是在增長,連增17%。
IDC的統(tǒng)計,以上這個表是從2010年—2016年,他統(tǒng)計大概是什么呢?大概是238億美元,這里面的數(shù)字是百萬美元,翻成億,就是238億美元,這是2016年。2017年324億美元,2019年是486億美元,我們這里面看上去統(tǒng)計跟WikiBon的有點區(qū)別。
Statista的統(tǒng)計又不一樣,2016年是273億美元,2020年是573億美元,2026年922億美元,也就是說差不多十年以后,接近一千億美元的規(guī)模,當然這個數(shù)字還不算很大,估計到2026年華為也可能到這個水平了,所以,我們大數(shù)據(jù)這個值不是很大,大家如果把所有的服務器都算進去就比較大了。
另外一個咨詢公司Frost Sullivan給出的數(shù)據(jù)增量到2025年是到100,全數(shù)據(jù)大市場產(chǎn)生的收入,2025年是122億美元,各個公司的估計是有所不一樣的。這是大數(shù)據(jù)產(chǎn)業(yè)鏈,在這里面密密麻麻的看不清楚,分析做分析的有這么多企業(yè),做應用的也有這么多,做交叉關(guān)聯(lián)的和分析的有這么多。
有個公司說這里面有一個中國公司,僅僅一個,我后來找半天找不出來,為什么呢?因為除了比較知名的以外,其他的不太熟悉,所以找不到。按照我們有公司說的,這里面有一個是中國公司,但是應該說絕大多數(shù)都不是中國公司,這是知名的大數(shù)據(jù)技術(shù)企業(yè),IBM、英特爾、甲骨文、SAP、惠普、紅帽、SAS、微軟、谷歌、EMC,亞馬遜,我加了兩個,阿里云、百度云,也就是說我們中國的企業(yè)在這里面還是少數(shù)。
中國各個地方紛紛布局大數(shù)據(jù)產(chǎn)業(yè),目前已經(jīng)有23個省出臺了74項跟大數(shù)據(jù)相關(guān)的政策。目前,全國已建和在建的大數(shù)據(jù)產(chǎn)業(yè)超過10個,有個證券公司分析,他說2016年中國通信大數(shù)據(jù)市場要達到342億。剛才會前放的視頻說2015年我們是150幾億,如果這個數(shù)字對的話,這兩個數(shù)字一比就增加100%。他這里說較上年增長163%。其中大數(shù)據(jù)基礎(chǔ)設(shè)施占60.5%,市場規(guī)模207億。
國家在去年出臺了促進大數(shù)據(jù)發(fā)展的行動綱要,要培育高端智能新興產(chǎn)業(yè)的發(fā)展新生態(tài),要推動大數(shù)據(jù)、互聯(lián)網(wǎng)跟移動互聯(lián)網(wǎng)的融合,培育新的增長點,形成滿足大數(shù)據(jù)應用需求的產(chǎn)品系統(tǒng)和解決方案,要求到“十三五”結(jié)束,大數(shù)據(jù)產(chǎn)品和服務要達到國際先進水平,看來我們現(xiàn)在還有一定的差距。要培育一批企業(yè),要形成產(chǎn)業(yè)生態(tài)。
這是今年3月份全國人大通過的“十三五”計劃,專門有一章是促進大數(shù)據(jù)產(chǎn)業(yè)健康發(fā)展,提到了深化大數(shù)據(jù)在各行業(yè)的創(chuàng)新應用,探索和傳統(tǒng)行業(yè)協(xié)同發(fā)展的新業(yè)態(tài)、新模式,加快完善大數(shù)據(jù)的產(chǎn)業(yè)鏈。還有加快海量數(shù)據(jù)的采集、存儲、清晰、可視化、安全、隱私保護等領(lǐng)域的關(guān)鍵技術(shù)攻關(guān),促進大數(shù)據(jù)軟硬件產(chǎn)業(yè)的發(fā)展,加強標準體系和質(zhì)量技術(shù)基礎(chǔ)建設(shè),剛才張總都提到了。
最后,我用習總書記的幾段話來結(jié)束我的發(fā)言。習總書記在2013年考察中科院時提到,研究表明,工業(yè)化時期數(shù)據(jù)量大約每十年翻一番,現(xiàn)在數(shù)據(jù)量每兩年翻一番,浩瀚的數(shù)據(jù)海洋就如同工業(yè)社會的石油資源,蘊含著巨大的生產(chǎn)力和商機,誰掌握了大數(shù)據(jù)技術(shù),誰就掌握了發(fā)展的資源和主動權(quán)。2015年6月,在貴州調(diào)研時,習總書記提到,我國大數(shù)據(jù)采集應用剛剛起步,要加強研究,加大投入,力爭走在世界前列。上周,習總書記在網(wǎng)信座談會上講話提到綜合運用各方面掌握的數(shù)據(jù)資源,加強大數(shù)據(jù)的挖掘分析。謝謝大家!