11月24日,在北京萬(wàn)壽賓館舉辦的2016年中國(guó)智慧政府發(fā)展年會(huì),政府大數(shù)據(jù)與數(shù)據(jù)開放論壇上,中國(guó)信息協(xié)會(huì)副會(huì)長(zhǎng)胡小明以“為電子政務(wù)服務(wù)的大數(shù)據(jù)”為題發(fā)表了精彩演講。

中國(guó)信息協(xié)會(huì)副會(huì)長(zhǎng) 胡小明
中國(guó)信息協(xié)會(huì)副會(huì)長(zhǎng) 胡小明 
  非常感謝大家能夠參加今天的會(huì),我原來(lái)認(rèn)為下午我做第一個(gè)發(fā)言,首先是幫助大家適當(dāng)?shù)男菹⒁幌?,因?yàn)閯偝酝觑埿枰?。但是我看大家的積極性對(duì)我也是一個(gè)鼓勵(lì),所以我也希望能夠跟大家做一次交流。 
  關(guān)于政府電子政務(wù)服務(wù)的大數(shù)據(jù),我們?cè)谶@里因?yàn)榇髷?shù)據(jù)太熱了。我覺得這里面有風(fēng)險(xiǎn),希望我們?cè)谘芯看髷?shù)據(jù)的時(shí)候,我們不要被大數(shù)據(jù)熱沖昏頭腦。所以應(yīng)該把這個(gè)問(wèn)題想清楚,哪些是可以解決的,哪些是不能解決的。 
  平常心對(duì)待大數(shù)據(jù)
  第一是要以平常心對(duì)待大數(shù)據(jù),在宣傳熱的情況下,我們發(fā)現(xiàn)我們更多講的是大數(shù)據(jù)的技術(shù)、大數(shù)據(jù)的手段改進(jìn)。而對(duì)大數(shù)據(jù)的實(shí)際應(yīng)用,仔細(xì)來(lái)看真正的例子還是少的。我們講數(shù)據(jù)挖掘,講這么多年之后,講數(shù)據(jù)挖掘還是啤酒尿布,這說(shuō)明問(wèn)題呢?說(shuō)明在應(yīng)用領(lǐng)域和技術(shù)領(lǐng)域這兩者差距還是非常大的。 
  而現(xiàn)在我們需要的從實(shí)際當(dāng)中來(lái)考慮這個(gè)問(wèn)題,我覺得大數(shù)據(jù)有點(diǎn)被慣壞了。目前大家都在說(shuō)成立大數(shù)據(jù)機(jī)構(gòu),申請(qǐng)大數(shù)據(jù)經(jīng)費(fèi)。但是從大數(shù)據(jù)實(shí)際應(yīng)用來(lái)看,我覺得我們并不是很明確。到底解決什么事情,它能不能做呢?還有很多問(wèn)題,我覺得大數(shù)據(jù)從我看來(lái),它只是一個(gè)工具。它永遠(yuǎn)是我們要做目標(biāo)的仆人。希望大數(shù)據(jù)的發(fā)展和應(yīng)用,不要走信息資源共享的路,信息資源共享喊了很多年。從國(guó)新辦的17號(hào)文開始到現(xiàn)在已經(jīng)搞了十五年了。但是在信息資源共享方面到底有多大的進(jìn)步能說(shuō)出來(lái),我認(rèn)為一直沒有做好,也沒有說(shuō)出太多東西。當(dāng)然這里面的原因是非常多的,為什么會(huì)這樣呢?我覺得有一個(gè)非常重要的原因,就是我們把數(shù)據(jù)資源共享的能力和效果想的太高了,我們以為它能夠解決多少問(wèn)題,實(shí)際上它并不能解決那么多問(wèn)題。 
  隨著社會(huì)數(shù)據(jù)資源的增加,信息共享手段的增加,政府那點(diǎn)數(shù)據(jù)共享它能所做的貢獻(xiàn)是越來(lái)越少的。并不是所有的信息共享都是有用的,可以說(shuō)多數(shù)的信息共享并不是很方便。而且他們的成本效益并不都是正的,在這種情況下,你要求全面的信息共享肯定是失敗的,正確的做法應(yīng)該是仔細(xì)挑選,可能十項(xiàng)里面只有一兩項(xiàng)是好的,你有什么必要推全面的信息共享呢?所以集中精力來(lái)做真正有效率的事情,這才是我們?cè)撟龅?。所以說(shuō)在大數(shù)據(jù)方面來(lái)講,我們一定要以目標(biāo)位中心,以平常心來(lái)對(duì)待大數(shù)據(jù)。以目標(biāo)位中心就是不是所有的大數(shù)據(jù)都是有用的,可以說(shuō)大部分的大數(shù)據(jù)都是沒有用的,真正有用的東西是少部分的,你必須把有用的挑出來(lái)。當(dāng)你想解決什么問(wèn)題的時(shí)候,這時(shí)候你再談大數(shù)據(jù),我認(rèn)為是有價(jià)值的。當(dāng)你的問(wèn)題還不清楚想用大數(shù)據(jù)的時(shí)候,我認(rèn)為這完全是錯(cuò)的,它根本沒有用。因?yàn)閿?shù)據(jù)資源是不缺的,數(shù)據(jù)也可以是垃圾。最缺的是你的目標(biāo),你到底想干什么,現(xiàn)在我們最大的問(wèn)題是我們想干什么不清楚,所以我覺得這是一個(gè)很大的問(wèn)題。 
  目前我們對(duì)大數(shù)據(jù)概念,大家講的都是不一致的,講的都不清楚。對(duì)于政府的官員來(lái)講,他認(rèn)為我的政府?dāng)?shù)據(jù)很多,我只要把數(shù)據(jù)合起來(lái)就是大數(shù)據(jù)。因此他認(rèn)為他的一切數(shù)據(jù)都是大數(shù)據(jù),你整合起來(lái)就多了。為什么會(huì)有這種想法呢?有很多的原因,其中一個(gè)原因你掛上大數(shù)據(jù)能夠申請(qǐng)經(jīng)費(fèi),能夠得到重視,能夠符合潮流。如果你沒有掛上大數(shù)據(jù),你是小數(shù)據(jù)的整合。所以這個(gè)問(wèn)題也是一個(gè)因素,但是這些問(wèn)題都不重要,最重要的到底什么能解決問(wèn)題,這是最重要的。 
  另一個(gè)方面來(lái)說(shuō),我們現(xiàn)在看的大數(shù)據(jù),大部分是基本大數(shù)據(jù)的概念,是從互聯(lián)網(wǎng)公司來(lái)的?;ヂ?lián)網(wǎng)公司它有了很高的技術(shù),它能夠利用起來(lái)大數(shù)據(jù)。因此這個(gè)概念基本上是由互聯(lián)網(wǎng)巨頭決定的,過(guò)去也有預(yù)測(cè)、石油勘探它也是一堆數(shù)據(jù),但是都不說(shuō)它是大數(shù)據(jù)?;ヂ?lián)網(wǎng)出來(lái)之后它創(chuàng)造了一種經(jīng)濟(jì),也就是說(shuō)一個(gè)名詞,一個(gè)概念的出現(xiàn)是和應(yīng)用結(jié)合起來(lái),應(yīng)用可能帶來(lái)有效的東西。它就是來(lái)自互聯(lián)網(wǎng)大數(shù)據(jù)的概念,而政府大數(shù)據(jù)它基本的概念還是傳統(tǒng)的,這兩個(gè)是不一樣的,所以政府大數(shù)據(jù)整合,并不是我們現(xiàn)在所講的大數(shù)據(jù)數(shù)據(jù)。而是我們傳統(tǒng)的數(shù)據(jù)整合、數(shù)據(jù)處理、數(shù)據(jù)分析,它是傳統(tǒng)的技術(shù)。所以這兩個(gè)技術(shù)是不一樣的,它們的概念不一樣。 
  傳感器大數(shù)據(jù) 
  然后是傳感器大數(shù)據(jù),為什么?因?yàn)槲覀兗夹g(shù)的發(fā)展出現(xiàn)了非常多的傳感器,而這些傳感器,它收集的數(shù)據(jù)是非常多的,這種數(shù)據(jù)用在什么地方呢?用于人工智能。比如說(shuō)無(wú)人駕駛汽車以及機(jī)器人等等這樣的技術(shù),他們也用這個(gè)技術(shù)。但是這個(gè)技術(shù)多不多,量大不大,我覺得不是最大。它最重要的特點(diǎn)是什么呢?就是數(shù)據(jù)處理的過(guò)程當(dāng)中沒有人的干預(yù),它是自動(dòng)化的,所以它們屬于人工智能這方面的大數(shù)據(jù)。 
  當(dāng)我們?cè)诜治鲞@個(gè)問(wèn)題的時(shí)候,我們要關(guān)注一下當(dāng)前你想解決什么問(wèn)題,其實(shí)對(duì)不同地區(qū)是不一樣的。比如說(shuō)互聯(lián)網(wǎng)和傳感器大數(shù)據(jù),什么工業(yè)4.0類似這些東西都跟這些有關(guān),對(duì)于政府改善服務(wù),它最主要的是整合大數(shù)據(jù),這個(gè)大數(shù)據(jù)主要還是在傳統(tǒng)的數(shù)據(jù)范圍內(nèi),他們需要的技術(shù)是不一樣的。 
  對(duì)于政府來(lái)講,最重要的東西經(jīng)常是最簡(jiǎn)單的,永遠(yuǎn)是這樣,重要的都是簡(jiǎn)單的。如果它不簡(jiǎn)單,它就不會(huì)重要,重要的都是簡(jiǎn)單的。我們現(xiàn)有的數(shù)據(jù)改善服務(wù),這種服務(wù)全部都是在大大數(shù)據(jù)范圍內(nèi),只是我們說(shuō)大數(shù)據(jù),但是從技術(shù)來(lái)講他們都是傳統(tǒng)的技術(shù)使用和改進(jìn)?;ヂ?lián)網(wǎng)數(shù)據(jù)也可以來(lái)做,但是它并不會(huì)在政府工作改進(jìn)上占據(jù)主要的位置,因此對(duì)于我們政府的工作來(lái)講,核心的問(wèn)題是小數(shù)據(jù)整合最重要,這才是最重要的。 
  互聯(lián)網(wǎng)大數(shù)據(jù)改進(jìn)是專業(yè)部門做的,傳感器大數(shù)據(jù)用于工業(yè)智能,用于人工智能改進(jìn),建立各種各樣的智能系統(tǒng),它們是有用的。 
  大數(shù)據(jù)不適合大決策 
  下面我再講一下大數(shù)據(jù)并不適合于大決策,大家都知道小數(shù)據(jù)適合大決策,原因是什么呢?當(dāng)我們的數(shù)據(jù)量太多的時(shí)候,畢竟你關(guān)注的范圍要窄,你關(guān)注的范圍窄,你的量才能大,才能深,這么以來(lái)你對(duì)問(wèn)題的看法和視角都狹窄。我們處理大決策的問(wèn)題它需要廣闊的視角。對(duì)于具體的問(wèn)題來(lái)講,大數(shù)據(jù)適合于解決小問(wèn)題。 
  另外,很多問(wèn)題是沒有辦法依靠大數(shù)據(jù)的,比如說(shuō)國(guó)際形勢(shì)發(fā)生了變化,現(xiàn)在網(wǎng)上經(jīng)常在討論說(shuō)希拉里和川普他們倆誰(shuí)上臺(tái),他們倆上臺(tái)政策不一樣,你該怎么處理,對(duì)世界經(jīng)濟(jì)影響也不一樣。像這樣的問(wèn)題你能不能用大數(shù)據(jù)來(lái)分析,我覺得是不可能的。但是絕不可能分析出他們的政策會(huì)帶來(lái)什么樣的改變,因?yàn)檫@些東西來(lái)講是未來(lái)的東西。比如說(shuō)經(jīng)濟(jì)發(fā)展美國(guó)十幾年前的9.11事件,出了很多問(wèn)題,而這些問(wèn)題對(duì)中國(guó)經(jīng)濟(jì)發(fā)展是有利的,為什么?因?yàn)榘衙绹?guó)搞亂了,中國(guó)有很多的機(jī)會(huì)。這樣重大的政策反而不是大數(shù)據(jù)能夠搞出來(lái)的,原因是什么呢?當(dāng)你數(shù)據(jù)量太大的時(shí)候,你的視野不一定狹窄,如果你的視野寬闊你的數(shù)據(jù)量并不那么多。所以正因?yàn)檫@個(gè)原因,我們要想清楚。 
  高層決策最主要是靠全面信息,而不是狹窄的數(shù)據(jù)。我談了大數(shù)據(jù)的服務(wù)問(wèn)題,因?yàn)槲椰F(xiàn)在在深圳,我?guī)退麄儊?lái)討論一些問(wèn)題,他們總覺得政府的數(shù)據(jù)資源非常多。我要打通把數(shù)據(jù)整合,然后我就可以分出來(lái)很多東西來(lái)支持政府,這是它的一種基本思想。但是這種基本思想一般來(lái)說(shuō)是不行的,為什么?政府的數(shù)據(jù)實(shí)際上一點(diǎn)也不多,總說(shuō)政府資源占90%,那些都是三十年前的概念,因?yàn)槟菚r(shí)候沒有互聯(lián)網(wǎng)?,F(xiàn)在互聯(lián)網(wǎng)巨頭不比政府的數(shù)據(jù)多十倍、百倍、千倍。而且政府的數(shù)據(jù)主要來(lái)自于人工調(diào)查,人工調(diào)查的效率和機(jī)器識(shí)別的數(shù)據(jù)是不一樣的。所以政府的數(shù)據(jù)是很少的,你可以把它集合起來(lái)解決問(wèn)題。但是你不是需要靠大數(shù)據(jù)來(lái)分析,而是靠轉(zhuǎn)動(dòng)的數(shù)據(jù)分析,來(lái)挖掘政府?dāng)?shù)據(jù)的潛能,所以這個(gè)很重要。 
  在這種情況下,如果政府把所有的數(shù)據(jù)都整合了,然后等著你去打通,去分析出結(jié)果,這樣行嗎?政府信息資源雖然沒有開放,但是沒有不透風(fēng)的墻,政府信息代表的東西都會(huì)通過(guò)各種各樣的渠道傳遞出去,包括我們的手機(jī)、聊天、談話等等。所以在這種情況下,你想有一個(gè)非常重大的發(fā)現(xiàn)出來(lái)是不容易的。 
  如果你能夠發(fā)現(xiàn)這些重大信息,你這些能力如何給政府提供。實(shí)際上我們提出的東西對(duì)政府的官員來(lái)講你的東西是小兒科,是外行。你要依賴大數(shù)據(jù)政府是不放心的。在這種情況下,你把各種各樣的數(shù)據(jù)整合起來(lái),讓它變成一個(gè)可視化的服務(wù)這反而是有效的。一個(gè)可視化的服務(wù)隊(duì)政府官員來(lái)講是很歡迎的,就像我們天天都要看天氣預(yù)報(bào)。我們看天氣預(yù)報(bào)一個(gè)月幾次臺(tái)風(fēng),可視化數(shù)據(jù)能夠迅速的一眼能夠?qū)φw有一個(gè)改觀。所以說(shuō)對(duì)于政府領(lǐng)導(dǎo)來(lái)講,你提供一個(gè)可視化的圖,包括云圖和變化圖。 
  人工智能發(fā)展的過(guò)程當(dāng)中,也是有一個(gè)進(jìn)程的。在六七十年代,當(dāng)時(shí)人工智能非常火,搞來(lái)搞去做不下去了。后來(lái)人們也做機(jī)器發(fā)現(xiàn)做來(lái)做去也做不下去了,什么時(shí)候開始這輪又起來(lái)了,核心是它把人工智能改成了大數(shù)據(jù),改成了數(shù)據(jù)學(xué)習(xí)。實(shí)際上里面包含的信息,比如說(shuō)機(jī)器翻譯,以前我也見國(guó)際歌搞翻譯的人,那時(shí)候的思想是造型和理解的角度來(lái)翻譯,現(xiàn)在發(fā)現(xiàn)越來(lái)越做不下去的。現(xiàn)在的翻譯是怎么做的,上一句話是這個(gè),下一句話是那個(gè),什么概率最高用那個(gè),別的東西不管。哪個(gè)詞出現(xiàn)的頻率最高就用哪個(gè),現(xiàn)在我們發(fā)現(xiàn)我們的軟件越來(lái)越快,就是一般打這個(gè)字,下個(gè)字什么概率最高就提出來(lái),這樣對(duì)你加快速度就更容易了。 
  智能化的城市也和我們的大數(shù)據(jù)應(yīng)用緊密的結(jié)合起來(lái),它這種應(yīng)用和我們決策的應(yīng)用是不一樣的。實(shí)際上數(shù)據(jù)有兩種情況,一個(gè)是用在人工智能領(lǐng)域,它應(yīng)用的系統(tǒng)是自動(dòng)化的,而提出來(lái)之后機(jī)器自己來(lái)用,因?yàn)橛?jì)算機(jī)本身你別看它總是數(shù)據(jù),但是它一點(diǎn)都不懂信息,它腦子里面只有數(shù)據(jù)的概念,它碰到數(shù)據(jù)算概率,沒有別的概率。但是人決策不一樣,它會(huì)把所有的數(shù)據(jù)拿過(guò)來(lái)看一遍、想一遍,這兩個(gè)用途是不一樣的。所以說(shuō)機(jī)器使用大數(shù)據(jù)和人來(lái)使用大數(shù)據(jù)它是兩種不同的使用方式,你會(huì)知道為什么人使用大數(shù)據(jù)結(jié)果是不確定的,機(jī)器數(shù)據(jù)是死的。 
  當(dāng)我們?cè)谘芯看髷?shù)據(jù)的時(shí)候,一定要從應(yīng)用出發(fā),而不能從資源出發(fā)。一個(gè)數(shù)據(jù),它是資源,還是垃圾,我們不要認(rèn)為所有的數(shù)據(jù)都是資源。因?yàn)橘Y源和垃圾它倆沒有區(qū)別,資源就是垃圾,垃圾就是資源,完全取決于不同的人在這里看,資源和垃圾本身上是一樣的,就好像你想刪掉就刪掉,你刪掉的就是垃圾,你不刪掉的就是資源,所以垃圾和資源是同一個(gè)東西。我們?nèi)绾螀^(qū)分,它判斷標(biāo)準(zhǔn)就是對(duì)人工的幫助,所以這就是要注意的事情,我們不能從資源出發(fā),現(xiàn)在我覺得在全國(guó)各地處理推廣大數(shù)據(jù)的時(shí)候有一個(gè)觀點(diǎn)我是非常懷疑的,各地做的頂層設(shè)計(jì)里面。你到底是解決什么問(wèn)題,你先把數(shù)據(jù)收集過(guò)來(lái)。 
  大數(shù)據(jù)的發(fā)展要在應(yīng)用中成長(zhǎng),而不是在大樓中成長(zhǎng),這是什么大數(shù)據(jù)呢?實(shí)際上你發(fā)現(xiàn)有很多大數(shù)據(jù)確實(shí)可以解決問(wèn)題,它還需要長(zhǎng)期不斷的積累,不斷的改進(jìn)。因此有效的大數(shù)據(jù)你不斷的維護(hù)它和改進(jìn)它,它在應(yīng)用中成長(zhǎng),而不是在你的大樓中成長(zhǎng)。 
  所以如果你沒有想清楚做什么,你的大數(shù)據(jù)組織是非常危險(xiǎn)的,它會(huì)浪費(fèi)你很多的資源。你搞一堆垃圾,你還想升官,那樣肯定不行,因此你不能這么做,你要挑出來(lái)有用的東西,在應(yīng)用中不斷改進(jìn),也許它所用到的數(shù)據(jù),只是幾十分之一就可以了。我的數(shù)據(jù)賣給你,當(dāng)時(shí)我想賣一點(diǎn)錢,他說(shuō)我不要,我說(shuō)你為什么不要,他說(shuō)我要等我的用戶,我的用戶咨詢到哪一個(gè)我買哪一個(gè),寧可貴一點(diǎn)我也要,我不要你們企業(yè)的數(shù)據(jù),他用的是這樣來(lái)想的。 
  在這樣的情況下,我們就需要在大數(shù)據(jù)當(dāng)中我們要進(jìn)步,對(duì)高層的服務(wù)和對(duì)基層的服務(wù)是不一樣的。政府的數(shù)據(jù)整合最重要的是基層的服務(wù),整合的數(shù)據(jù)對(duì)基層的服務(wù)有用,對(duì)高層的服務(wù)它要了解外體和整體,它并不需要精確的數(shù)據(jù)。所以我們要把精確的數(shù)據(jù)送到前線,什么是前線呢?直接為公眾服務(wù)的,他知道這家是困難戶,這家收入多少。然后把整體的趨勢(shì)可視化的圖形送領(lǐng)導(dǎo),這樣領(lǐng)導(dǎo)一眼就知道大概的趨勢(shì),這樣的話才會(huì)更有效。 
  我們要以解決問(wèn)題為中心,真正能解決問(wèn)題的東西不見得數(shù)據(jù)量大才是能解決問(wèn)題的。 
  我舉一個(gè)例子,美國(guó)友一家公司,這個(gè)公司花錢花的太多,每一個(gè)公司都超預(yù)算非常頭疼,于是派了一位領(lǐng)導(dǎo)解決這個(gè)問(wèn)題。一開始把帳單都打出來(lái)看看有什么不合格,后來(lái)計(jì)算機(jī)打出來(lái)他根本沒有辦法看,誰(shuí)浪費(fèi)最多,排第一,每次超支最多的,每個(gè)月發(fā)一份,然后他就不管了,各個(gè)部門都怕自己的排名表靠前,于是很快就把這個(gè)問(wèn)題解決了。解決這個(gè)問(wèn)題并不是靠大數(shù)據(jù)分析來(lái)解決的,而是靠排名表解決的,所以說(shuō)很多問(wèn)題要以解決問(wèn)題為中心,大數(shù)據(jù)并不是唯一的工具。 
  大數(shù)據(jù)被政府慣壞了,只會(huì)花錢不會(huì)干活了。所以我們要先整合好小數(shù)據(jù),所以數(shù)據(jù)的應(yīng)用應(yīng)當(dāng)始于足下,而不要讓大數(shù)據(jù)誤導(dǎo),這是我講的一些想法,謝謝大家。

責(zé)任編輯:admin