長(zhǎng)期從事國(guó)家863計(jì)劃高技術(shù)研究,1995年當(dāng)選中國(guó)工程院院士,2002年當(dāng)選第三世界科學(xué)院院士?,F(xiàn)任國(guó)家“973計(jì)劃”項(xiàng)目首席科學(xué)家,中科院計(jì)算所首席科學(xué)家,曙光公司董事長(zhǎng)、中國(guó)計(jì)算機(jī)學(xué)會(huì)名譽(yù)理事長(zhǎng)、國(guó)家信息化專家咨詢委員會(huì)信息技術(shù)與新興產(chǎn)業(yè)專委會(huì)副主任、中國(guó)科學(xué)院學(xué)位委員會(huì)副主席等職。
世界已進(jìn)入了大數(shù)據(jù)時(shí)代。很多人從西方獲知關(guān)于它的研究現(xiàn)狀、重大意義,以及面臨的挑戰(zhàn)。
在中國(guó)科學(xué)界,大數(shù)據(jù)的研究和思考也在往縱深推進(jìn)。大數(shù)據(jù)科學(xué)作為橫跨信息科學(xué)、社會(huì)科學(xué)、網(wǎng)絡(luò)科學(xué)、系統(tǒng)科學(xué)、心理學(xué)、經(jīng)濟(jì)學(xué)等諸多領(lǐng)域的新興交叉學(xué)科方向,與此相關(guān)的理論和現(xiàn)實(shí)問題,得到深入的探討。中國(guó)工程院院士李國(guó)杰長(zhǎng)期以來(lái)研究大數(shù)據(jù),近日,他接受了本報(bào)記者的專訪,為我們呈現(xiàn)了一位中國(guó)科學(xué)家眼里的大數(shù)據(jù)思考。
對(duì)可能的負(fù)面影響不能掉以輕心
記者:“大數(shù)據(jù)”現(xiàn)在很熱,也有些人比較悲觀,比如法國(guó)著名哲學(xué)家斯蒂格勒最近在中國(guó)接受采訪時(shí)說,如果大數(shù)據(jù)依舊是促使人類快速做決定,依舊是資本大爆炸、技術(shù)大爆炸,那么人類是沒有未來(lái)的。你認(rèn)為他是不是多慮了?
李國(guó)杰:斯蒂格勒認(rèn)為,機(jī)器的處理是非理性化的,而沒有人的理性控制,完全依賴機(jī)器是非常危險(xiǎn)的。要將大數(shù)據(jù)推動(dòng)的無(wú)序的資本運(yùn)作變?yōu)橛行?,給人類留出做理性決策的時(shí)間,看清楚人類與技術(shù)共存的更好的方向在哪里。
一般來(lái)說,技術(shù)本身是中性的,關(guān)鍵看人類如何使用。技術(shù)的發(fā)展,尤其是信息技術(shù)的發(fā)展,早期往往有一個(gè)指數(shù)性增長(zhǎng)的階段。但任何增長(zhǎng)都有極限,經(jīng)過一段高速發(fā)展之后,一定會(huì)遇到增長(zhǎng)的零界點(diǎn)(或叫“斷點(diǎn)”)。所謂“科學(xué)發(fā)展觀”就是要有理智,未雨綢繆,防止技術(shù)的負(fù)面作用無(wú)節(jié)制的擴(kuò)大,導(dǎo)致出現(xiàn)災(zāi)難性的崩潰。
大數(shù)據(jù)剛剛過了炒作的高峰期,Gartner公司預(yù)測(cè)大數(shù)據(jù)技術(shù)還要5-10年后才會(huì)成為較普遍采用的主流技術(shù)(云計(jì)算和企業(yè)3D打印2-5年后就能成為主流)。從現(xiàn)在起,我們就應(yīng)該關(guān)注如何使大數(shù)據(jù)技術(shù)和產(chǎn)業(yè)走上科學(xué)發(fā)展的軌道,對(duì)大數(shù)據(jù)可能帶來(lái)的負(fù)面影響,比如對(duì)個(gè)人隱私的侵犯等,絕不能掉以輕心。
歷史上許多新技術(shù)出現(xiàn)時(shí),都曾有人擔(dān)心可能危害人類的生存。交流電發(fā)明時(shí),許多人反對(duì)將交流電接入到住宅內(nèi),但現(xiàn)在交流電無(wú)處不在。人類已經(jīng)吃過無(wú)節(jié)制地濫用技術(shù)的苦頭,將來(lái)應(yīng)該會(huì)更理智地使用新技術(shù)。
大數(shù)據(jù)更難對(duì)付的是“泛數(shù)據(jù)”
記者:數(shù)據(jù)分析的歷史遠(yuǎn)比大數(shù)據(jù)長(zhǎng)。上世紀(jì)90年代興起的數(shù)據(jù)挖掘技術(shù)的宗旨就是發(fā)現(xiàn)數(shù)據(jù)中有用的模式,提供有用的決策信息。在你看來(lái),大數(shù)據(jù)的“大”是什么意思?數(shù)據(jù)挖掘是怎么演變?yōu)榇髷?shù)據(jù)的呢?
李國(guó)杰:上世紀(jì)70年代企業(yè)已開始采用數(shù)據(jù)庫(kù),后來(lái)在數(shù)據(jù)庫(kù)的基礎(chǔ)上發(fā)展了決策支持系統(tǒng),80年代演變?yōu)樯虡I(yè)智能和數(shù)據(jù)倉(cāng)庫(kù),主要用于處理結(jié)構(gòu)化的交易數(shù)據(jù)。上世紀(jì)90年代以來(lái),由于萬(wàn)維網(wǎng)的流行,出現(xiàn)大量半結(jié)構(gòu)化的數(shù)據(jù)(Web數(shù)據(jù))。移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的興起使得非結(jié)構(gòu)化的數(shù)據(jù)(照片和視頻數(shù)據(jù))成為網(wǎng)絡(luò)數(shù)據(jù)的主流。近幾年科學(xué)實(shí)驗(yàn)和工業(yè)數(shù)據(jù)也在指數(shù)性增長(zhǎng),其規(guī)模不亞于網(wǎng)上數(shù)據(jù)。數(shù)據(jù)量急劇增加、數(shù)據(jù)格式的多樣化呼喚新的數(shù)據(jù)分析處理技術(shù),大數(shù)據(jù)技術(shù)順運(yùn)而生。
其實(shí),所謂“大數(shù)據(jù)”的特征并不僅僅是數(shù)據(jù)量大,更難對(duì)付是“雜數(shù)據(jù)”(半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù))和“快數(shù)據(jù)”(要求實(shí)時(shí)相應(yīng)的數(shù)據(jù)和流式數(shù)據(jù),如股市交易和遠(yuǎn)程視屏點(diǎn)播等),更合適的名稱也許是“泛數(shù)據(jù)”。
從基于數(shù)據(jù)發(fā)現(xiàn)情報(bào)、知識(shí)、價(jià)值和支持決策的角度,“大數(shù)據(jù)”與“小數(shù)據(jù)”并沒有本質(zhì)性的區(qū)別,數(shù)據(jù)分析技術(shù)上也沒有集成電路和光纖通信級(jí)別的劃時(shí)代發(fā)明。也許過幾年人們就不再使用“大數(shù)據(jù)”這個(gè)熱詞,但數(shù)據(jù)的采集和分析將成為人類認(rèn)識(shí)世界、改造世界越來(lái)越重要的科學(xué)技術(shù)。
重視數(shù)據(jù),就是強(qiáng)調(diào)用事實(shí)說話
記者:在去年中國(guó)人民大學(xué)召開的以“開放政府?dāng)?shù)據(jù)”為題的研討會(huì)上,你曾經(jīng)說,在大數(shù)據(jù)時(shí)代,數(shù)據(jù)不僅僅是工具,也是戰(zhàn)略,也是世界觀,也是文化,為什么這樣講?能否具體解釋一下?
李國(guó)杰:數(shù)據(jù)是與物質(zhì)、能源一樣重要的戰(zhàn)略資源,數(shù)據(jù)的采集和分析涉及每一個(gè)行業(yè),是帶有全局性和戰(zhàn)略性的技術(shù)。戰(zhàn)爭(zhēng)可能從過去的靠子彈和導(dǎo)彈發(fā)展到靠數(shù)據(jù)決勝的時(shí)代。從硬技術(shù)到軟技術(shù)的轉(zhuǎn)變是當(dāng)今全球性的技術(shù)發(fā)展趨勢(shì),而從數(shù)據(jù)中發(fā)現(xiàn)價(jià)值的技術(shù)正是最有活力的軟技術(shù),在數(shù)據(jù)技術(shù)與產(chǎn)業(yè)上的落后將使我們像錯(cuò)過工業(yè)革命機(jī)會(huì)一樣延誤一個(gè)時(shí)代。
大數(shù)據(jù)通過“量化一切”而實(shí)現(xiàn)世界的數(shù)據(jù)化,將會(huì)改變?nèi)祟愓J(rèn)知和理解世界的方式,帶來(lái)全新的大數(shù)據(jù)世界觀?,F(xiàn)在,數(shù)據(jù)已成了科學(xué)認(rèn)識(shí)的基礎(chǔ),數(shù)據(jù)挖掘技術(shù)將傳統(tǒng)的經(jīng)驗(yàn)歸納法發(fā)展為“大數(shù)據(jù)歸納法”,為科學(xué)發(fā)現(xiàn)提供了新的認(rèn)知途徑。
數(shù)據(jù)文化是一種先進(jìn)文化,其本質(zhì)就是尊重客觀世界的實(shí)事求是精神,數(shù)據(jù)就是事實(shí)。重視數(shù)據(jù),就是強(qiáng)調(diào)用事實(shí)說話、按理性思維的科學(xué)精神。中國(guó)人的傳統(tǒng)習(xí)慣是定性思維而不是定量思維。在開展智慧城市業(yè)務(wù)的過程中也發(fā)現(xiàn),大多數(shù)老百姓目前對(duì)政府開放公共數(shù)據(jù)并不太關(guān)心。要讓大數(shù)據(jù)走上健康發(fā)展軌道,首先要大力弘揚(yáng)數(shù)據(jù)文化。
大數(shù)據(jù)促進(jìn)國(guó)家治理體系的現(xiàn)代化
記者:目前推動(dòng)大數(shù)據(jù)應(yīng)用的動(dòng)力主要是企業(yè),政府對(duì)大數(shù)據(jù)似乎相對(duì)被動(dòng),給人的感覺好像就是官博、官微等互聯(lián)網(wǎng)應(yīng)用,即便投資大數(shù)據(jù),主要目的好像還是增加GDP,大數(shù)據(jù)對(duì)政府意味著什么?政府到底要做什么?
李國(guó)杰:除了促進(jìn)經(jīng)濟(jì)發(fā)展,大數(shù)據(jù)的另一方面效益是促進(jìn)國(guó)家治理體系的現(xiàn)代化,提高現(xiàn)代化治理能力,國(guó)家治理能力的現(xiàn)代化不能光用GDP來(lái)反映。經(jīng)濟(jì)系統(tǒng)類似于人體的血液系統(tǒng),國(guó)家治理體系類似于神經(jīng)系統(tǒng),我們不必用左手來(lái)證明右手的重要性。
在發(fā)展大數(shù)據(jù)技術(shù)和產(chǎn)業(yè)的過程中,政府可做的事情很多,主要包括:通過立法和監(jiān)督培育大數(shù)據(jù)產(chǎn)業(yè)鏈和公平的企業(yè)競(jìng)爭(zhēng)環(huán)境;加大與大數(shù)據(jù)有關(guān)的科技投入,著力突破大數(shù)據(jù)關(guān)鍵技術(shù);打破部門壁壘,促進(jìn)數(shù)據(jù)融合和集成;推進(jìn)政府公共數(shù)據(jù)的開放共享,建設(shè)大數(shù)據(jù)開放平臺(tái);建立國(guó)家層面的數(shù)據(jù)標(biāo)準(zhǔn)體系,為數(shù)據(jù)管理提供操作指南;通過立法盡快建立個(gè)人隱私保護(hù)制度,為公眾創(chuàng)造一個(gè)良好的大數(shù)據(jù)安全環(huán)境;加快大數(shù)據(jù)公共基礎(chǔ)設(shè)施建設(shè);加大大數(shù)據(jù)人才培養(yǎng)的力度等等。
多做一些“頗為樸實(shí)”的事情
記者:人們常說大數(shù)據(jù)是沙里淘金、大海撈針,但往往不知道沙里有沒有金,海里有沒有針,浪費(fèi)了很多精力,你認(rèn)為大數(shù)據(jù)的大價(jià)值究竟體現(xiàn)在哪里?
李國(guó)杰:人們總是期望從大數(shù)據(jù)中挖掘出意想不到的“大價(jià)值”。實(shí)際上大數(shù)據(jù)更大的價(jià)值是帶動(dòng)有關(guān)的科研和產(chǎn)業(yè),提高各行各業(yè)通過數(shù)據(jù)分析解決困難問題和增值的能力。大數(shù)據(jù)的價(jià)值主要體現(xiàn)在它的驅(qū)動(dòng)效應(yīng)。大數(shù)據(jù)對(duì)經(jīng)濟(jì)的貢獻(xiàn)并不完全反映在大數(shù)據(jù)公司的直接收入上,應(yīng)考慮對(duì)其他行業(yè)效率和質(zhì)量提高的貢獻(xiàn)。大數(shù)據(jù)是典型的通用技術(shù),理解通用技術(shù)要采用“蜜蜂模型”:蜜蜂的效益主要不是自己釀的蜂蜜,而是傳粉對(duì)農(nóng)業(yè)的貢獻(xiàn)。
電子計(jì)算機(jī)的創(chuàng)始人之一馮·諾依曼曾指出:“在每一門科學(xué)中,當(dāng)通過研究那些與終極目標(biāo)相比頗為樸實(shí)的問題,發(fā)展出一些可以不斷加以推廣的方法時(shí),這門學(xué)科就得到了巨大的進(jìn)展?!蔽覀儾槐靥焯炱谂纹孥E出現(xiàn),所謂“啤酒加尿布”的數(shù)據(jù)挖掘經(jīng)典案例其實(shí)也是Teradata公司一個(gè)經(jīng)理編出來(lái)的“故事”。多做一些“頗為樸實(shí)”的事情,實(shí)際的進(jìn)步就在扎扎實(shí)實(shí)的努力之中。
不要攀比大數(shù)據(jù)系統(tǒng)的規(guī)模,要比實(shí)際應(yīng)用效果
記者:中國(guó)在大數(shù)據(jù)方面和其他一些國(guó)家的差距究竟有多大?主要體現(xiàn)在哪些方面?我國(guó)在發(fā)展大數(shù)據(jù)中要注意哪些問題?
李國(guó)杰:中國(guó)的大數(shù)據(jù)企業(yè)已經(jīng)有相當(dāng)好的基礎(chǔ)。全球十大互聯(lián)網(wǎng)服務(wù)企業(yè)中國(guó)占有4席(阿里巴巴、騰訊、百度和京東),其他6個(gè)TOP10 互聯(lián)網(wǎng)服務(wù)企業(yè)全部是美國(guó)企業(yè),歐洲和日本沒有互聯(lián)網(wǎng)企業(yè)進(jìn)入TOP10。這說明中國(guó)企業(yè)在基于大數(shù)據(jù)的互聯(lián)網(wǎng)服務(wù)業(yè)務(wù)上已處于世界前列。在發(fā)展大數(shù)據(jù)技術(shù)上,我國(guó)有可能改變過去30年技術(shù)受制于人的局面,在大數(shù)據(jù)應(yīng)用上中國(guó)有可能在全世界起到引領(lǐng)作用。
但是,企業(yè)的規(guī)模走在世界前列并不表示我國(guó)在大數(shù)據(jù)技術(shù)上領(lǐng)先。實(shí)際上,國(guó)際上目前流行的大數(shù)據(jù)主流技術(shù)沒有一項(xiàng)是我國(guó)開創(chuàng)的。開源社區(qū)和眾包是發(fā)展大數(shù)據(jù)技術(shù)和產(chǎn)業(yè)的重要途徑,但我們對(duì)開源社區(qū)的貢獻(xiàn)很小,在全球近萬(wàn)名社區(qū)核心志愿者中,我國(guó)可能不到200名。我們要吸取過去基礎(chǔ)研究為企業(yè)提供核心技術(shù)不夠的教訓(xùn),加強(qiáng)大數(shù)據(jù)基礎(chǔ)研究和前瞻技術(shù)研究,努力攻克大數(shù)據(jù)核心和關(guān)鍵技術(shù)。另外,在數(shù)據(jù)的開放共享方面,我國(guó)也落后于許多國(guó)家(包括一些發(fā)展中國(guó)家),在保護(hù)個(gè)人隱私等立法上,我國(guó)還沒有引起重視。
我們習(xí)慣于跟隨國(guó)外的熱潮,往往不自覺地跟著技術(shù)潮流走,最容易走上“技術(shù)驅(qū)動(dòng)”的道路。實(shí)際上發(fā)展信息技術(shù)的目的是為人服務(wù),檢驗(yàn)一切技術(shù)的唯一標(biāo)準(zhǔn)是應(yīng)用。錢學(xué)森先生曾倡導(dǎo)“大成智慧學(xué)”,提出“必集大成,才能得智慧”。大數(shù)據(jù)的力量就是來(lái)自“大成智慧”。一定要高度重視不同來(lái)源和不同格式數(shù)據(jù)的集成融合,強(qiáng)調(diào)不同部門、不同學(xué)科的協(xié)作。IEEE計(jì)算機(jī)學(xué)會(huì)最近發(fā)布了2014年的計(jì)算機(jī)技術(shù)發(fā)展趨勢(shì)預(yù)測(cè)報(bào)告,重點(diǎn)強(qiáng)調(diào)“無(wú)縫智慧(seamless intelli-gence)。發(fā)展大數(shù)據(jù)的目標(biāo)是要獲得協(xié)同融合的“無(wú)縫智慧”。
數(shù)據(jù)挖掘的價(jià)值是用成本換來(lái)的,不能不計(jì)成本,盲目建設(shè)大數(shù)據(jù)系統(tǒng)。目前全國(guó)各地都在建設(shè)大數(shù)據(jù)中心,呂梁山下都建立了容量達(dá)2PB以上的數(shù)據(jù)處理中心。許多城市公安部門要求存儲(chǔ)3個(gè)月以上的高清監(jiān)控錄像。這些系統(tǒng)的成本都非常高。我們不要攀比大數(shù)據(jù)系統(tǒng)的規(guī)模,而是要比實(shí)際應(yīng)用效果,比完成同樣的事消耗更少的資源和能量。先抓老百姓最需要的大數(shù)據(jù)應(yīng)用,因地制宜發(fā)展大數(shù)據(jù)。

