抓住大數(shù)據(jù)發(fā)展的關鍵問題
 
——訪國務院發(fā)展研究中心技術經濟研究部第二研究室主任田杰棠
 
  在今年“雙十一”電商大戰(zhàn)中,剛剛上市的阿里巴巴以日銷售額571億元引來全球關注,大數(shù)據(jù)應用也成為其中的一個新亮點。大數(shù)據(jù)應用今年以來獲得快速發(fā)展,百度、阿里等網絡巨頭與行業(yè)領軍企業(yè)都在謀求大數(shù)據(jù)應用的發(fā)展,國家部委及地方政府對發(fā)展大數(shù)據(jù)興趣濃厚,紛紛推出行動計劃。但人們對于大數(shù)據(jù)卻總有些霧里看花的感覺。
 
  究竟什么是大數(shù)據(jù)?為什么大家競相發(fā)展大數(shù)據(jù)?大數(shù)據(jù)會對經濟發(fā)展產生什么影響?為此,中國經濟時報記者專訪了國務院發(fā)展研究中心技術經濟研究部第二研究室主任田杰棠。
 
  怎樣挖掘非結構化數(shù)據(jù)是關鍵
 
  中國經濟時報:今年大數(shù)據(jù)發(fā)展加速,但“大數(shù)據(jù)”仍是一個新生事物,目前還沒有形成學術上的定義,所以人們對大數(shù)據(jù)的認識、理解比較模糊。您作為研究技術經濟的專家,怎么理解大數(shù)據(jù)?
 
  田杰棠:互聯(lián)網應用以來,從2005年開始,數(shù)據(jù)在不斷地增長,到2010年以后基本上是一個指數(shù)增長的過程,到2013年時已經超過4個ZB(10萬億億字節(jié)),每年的增長率超過50%。這是一個從量變到質變的過程,因此“大”的概念就蹦出來了,但它其實不是一個嚴格的學術概念。
 
  現(xiàn)在談大數(shù)據(jù)的定義,最多的就是所謂的四個“V”,第一個“V”就是它的實際規(guī)模。
 
  第二個“V”是多樣的數(shù)據(jù)類型,尤其是里面包涵了大量的非結構化數(shù)據(jù)。
 
  第三個“V”是價值,有兩點:一個是價值大,大數(shù)據(jù)帶來各種可能性;另外一個比較重要的是,它雖然量很大、價值也很大,但是密度很低。
 
  第四個“V”就是動態(tài)數(shù)據(jù)的快速處理。這里面比較核心的,也是大數(shù)據(jù)將來能不能從“可能”到“可行”轉變的兩個要素,即:非結構化和低密度。如果技術上能解決怎么分析非結構化數(shù)據(jù)、怎么從低密度價值里面提取數(shù)據(jù)的價值,那么大數(shù)據(jù)的應用可能就會有一個飛躍式增長。所以,我覺得非結構化和低密度可能是大數(shù)據(jù)的核心東西。
 
  中國經濟時報:您認為大數(shù)據(jù)未來需要關注更多的非結構化數(shù)據(jù)處理,那么需要什么技術促進大數(shù)據(jù)發(fā)展產生飛躍?
 
  田杰棠:大數(shù)據(jù)要快速發(fā)展,前提就是數(shù)據(jù)的存儲技術和挖掘技術的發(fā)展以及技術成本的不斷降低。
 
  現(xiàn)在數(shù)據(jù)的來源是非常多的,主要可以分為物的數(shù)據(jù)和人的數(shù)據(jù)。物的數(shù)據(jù)基本是結構化的數(shù)據(jù),是比較好存儲分析的。但人的數(shù)據(jù),又主要是非結構化的數(shù)據(jù),目前對非結構化數(shù)據(jù)的處理還是一個難點。
 
  這兩年,隨著IT成本的下降,云計算的使用率在不斷上升,現(xiàn)在云儲存的成本是在慢慢降低的。因為IT成本的下降和云計算發(fā)展,數(shù)據(jù)存儲成本得以下降,數(shù)據(jù)量才能出現(xiàn)指數(shù)倍增長。
 
  未來的數(shù)據(jù)更多的是人的數(shù)據(jù),是非結構化的數(shù)據(jù),因為大數(shù)據(jù)具有價值大但價值密度低的特點,目前數(shù)據(jù)挖掘分析技術成本還很高,尤其是對非結構化的數(shù)據(jù)的分析挖掘技術。所以,未來大數(shù)據(jù)要得到快速發(fā)展,必須把數(shù)據(jù)挖掘技術成本降下來。
 
  大數(shù)據(jù)發(fā)展對經濟的影響和前景
 
  中國經濟時報:科技的發(fā)展必然會對經濟產生影響,大數(shù)據(jù)的應用對經濟有何影響?
 
  田杰棠:如果從宏觀或者立體的角度看,人類整個經濟發(fā)展的過程其實就是不斷把一些不可利用的資源變成可利用資源的過程。這個過程一般就是技術的一個個大突破,當然每一次技術突破都伴隨著不斷的、大量的投資過程,并將其轉化成價值。
 
  實際上很多發(fā)達國家在2008年金融危機以后寄希望于一套新技術來擺脫實體經濟的衰落和危機,大數(shù)據(jù)、云計算、新能源都是被寄予厚望的幾個關鍵技術之一。1995年,Bresnahan和Trajtenberg教授提出了通用目的技術,通用目的技術的特征就是它在許許多多的部門都具有廣泛而且普遍深入使用的潛力和技術活力。
 
  如果我們從增長的視角來觀察大數(shù)據(jù)的話,一個核心的問題就是:大數(shù)據(jù)會不會成為我們期待的下一代的通用目的技術?如果是的話,它可能會帶來比較顯著的經濟增長效應。
 
  麥肯錫研究院分析認為大數(shù)據(jù)影響的面是比較廣的,包括了教育、交通、零售、電器、能源以及醫(yī)療、金融等等,有可能會每年為世界帶來大概3萬億美元至5萬億美元的經濟效應,但這個情況目前還只是一個預測。
 
  從經濟波動和政府干預的視角看,大數(shù)據(jù)也會帶來一些沖擊效應。大數(shù)據(jù)的發(fā)展能否真正改善供需平衡?淘寶曾經做的“訂單農業(yè)”、“搶先購”以及“家電定制”,都是先收集需求數(shù)據(jù)情況,再組織生產的事例,在當時的效果都是不錯的。收集全國所有的數(shù)據(jù),在目前還有點困難。但至少從這個角度是有這種可能性,值得思考。比如政府干預是不是比以前更加不必要了。
 
  中國經濟時報:可以發(fā)現(xiàn)許多國家都在發(fā)展大數(shù)據(jù),中國一些龍頭企業(yè)也在做大數(shù)據(jù),您認為大數(shù)據(jù)的發(fā)展前景怎么樣?
 
  田杰棠:IDC在2013年認為,2017年大數(shù)據(jù)市場規(guī)模將達324億美元,麥肯錫也認為大數(shù)據(jù)會帶動其他產業(yè)每年有3萬億美元至5萬億美元的增長,這里面的乘數(shù)效應是非常大的。在中國,工信部下屬的賽迪做過一個關于投資的預測:對大數(shù)據(jù)的投資從2012年到2015年大概每年增長100%左右,這個速度甚至超過國外的速度。
 
  我國的領導層也比較關注大數(shù)據(jù),從2012年以后,科技部、發(fā)改委、工信部等部委在研發(fā)、探索和產業(yè)化專項上,陸續(xù)支持了一批大數(shù)據(jù)項目,不少地方政府也在搞大數(shù)據(jù),比如陜西的“大數(shù)據(jù)科學園區(qū)”經、廣東的“大數(shù)據(jù)戰(zhàn)略合作方案”、上海的“大數(shù)據(jù)研發(fā)三年行動計劃”等等,基本是“多點開花”的狀態(tài)。
 
  另外像BAT(百度、阿里、騰訊)這樣的互聯(lián)網龍頭企業(yè)也都在做大數(shù)據(jù)。所以大數(shù)據(jù)的發(fā)展前景還是非??善诘?。
 
  大數(shù)據(jù)發(fā)展的制度建設和政府作用
 
  中國經濟時報:目前數(shù)據(jù)的流通并不通暢,政府的大部分數(shù)據(jù)在目前也沒有公開。大數(shù)據(jù)發(fā)展需要怎樣的制度建設?
 
  田杰棠:現(xiàn)在一個很核心的問題是如何界定數(shù)據(jù)的產權,產權的界定是大數(shù)據(jù)交易和商業(yè)化的前提。
 
  數(shù)據(jù)的所有權、使用權應該如何界定才能達到最大的經濟效應?比如數(shù)據(jù)企業(yè),包括阿里巴巴或者國內其他公司,他們對數(shù)據(jù)在什么層次上有使用權?什么情況下可以不經過數(shù)據(jù)生產者的同意就可以使用?數(shù)據(jù)的生產者對數(shù)據(jù)到底有哪些權利?這些都是值得思考的問題。
 
  另外,政府及公共機構的數(shù)據(jù)是否應該開放?是不是應該把使用權讓渡給社會?或者說哪些數(shù)據(jù)應該開放,開放到什么程度?在中國,政府、部分事業(yè)單位有非常多的數(shù)據(jù),但是使用得非常不充分。
 
  怎么去界定數(shù)據(jù)產權至少需要三個層次的立法:其一,數(shù)據(jù)的商業(yè)運用應該是什么邊界?個人隱私保護應該在什么邊界?政府數(shù)據(jù)的公開應該在什么邊界?另外,還有其他的制度需求,需要公平競爭的環(huán)境,例如對金融行業(yè)使用大數(shù)據(jù)的前景是非常好的,但現(xiàn)在也存在很多的市場準入門檻,使銀行僅靠存貸差就可以過好日子。
 
  其二,數(shù)據(jù)安全或者信息安全的問題。關于這點甚至提得更高,說“數(shù)據(jù)主權比產權還高”,包括一些安全預警與審查機制;數(shù)據(jù)存儲的地域限制;再如對國家數(shù)據(jù)的外泄要立法等。
 
  其三,行業(yè)性立法。中國的醫(yī)療行業(yè),在大數(shù)據(jù)出現(xiàn)之前,病歷在醫(yī)院已經電子化了,但是不同醫(yī)院之間仍然不能夠共享,所以這也是一個體制問題。如果能通過行業(yè)性立法,把這些能夠利用的大數(shù)據(jù)都放在一個平臺上,那情況就大不一樣了。
 
  中國經濟時報:在大數(shù)據(jù)發(fā)展中政府應該起什么作用,如何推動大數(shù)據(jù)的發(fā)展?
 
  田杰棠:首先來看國外政府在做什么。2012年美國政府推出“大數(shù)據(jù)行動計劃”,已經炒得很熱。主要是在研究和應用上投了很多錢。
 
  奧巴馬2013年簽署法令,要求所有新增政府數(shù)據(jù)都必須以電腦文件方式向公眾開放。白宮頒布了開放數(shù)據(jù)政策,要求政府部門列出所有可公開的數(shù)據(jù)清單。如果不可公開的話,也要做出說明,為什么不可公開?
 
  在政府采購方面,云計算時,聯(lián)邦政府還任命了一個首席技術官,專門推進聯(lián)邦政府和部門的云計算應用?,F(xiàn)在數(shù)據(jù)服務可能也是這樣。
 
  最后要制定法規(guī)。這不僅是中國的問題,也有醫(yī)療、教育、個人隱私等方面的問題,也需要制定法規(guī)。在歐洲,有關個人隱私的法律很多,還有很多的工作要做。
 
  關于大數(shù)據(jù)的發(fā)展有幾點建議:不要急于出臺所謂的戰(zhàn)略性規(guī)劃和設立產業(yè)專項資金。合理改造、建設和布局好IT基礎設施,除云計算外,主要就是加快“寬帶普及提速工程”。推動隱私保護和公共機構信息公開等立法。資助大數(shù)據(jù)基礎技術研究,包括人才培養(yǎng)。

責任編輯:admin