11月24日,在北京萬壽賓館舉辦的2016年中國智慧政府發(fā)展年會,政府大數(shù)據(jù)與數(shù)據(jù)開放論壇上,中國信息協(xié)會副會長胡小明以“為電子政務(wù)服務(wù)的大數(shù)據(jù)”為題發(fā)表了精彩演講。

中國信息協(xié)會副會長 胡小明
非常感謝大家能夠參加今天的會,我原來認(rèn)為下午我做第一個發(fā)言,首先是幫助大家適當(dāng)?shù)男菹⒁幌?,因為剛吃完飯需要消化。但是我看大家的積極性對我也是一個鼓勵,所以我也希望能夠跟大家做一次交流。
關(guān)于政府電子政務(wù)服務(wù)的大數(shù)據(jù),我們在這里因為大數(shù)據(jù)太熱了。我覺得這里面有風(fēng)險,希望我們在研究大數(shù)據(jù)的時候,我們不要被大數(shù)據(jù)熱沖昏頭腦。所以應(yīng)該把這個問題想清楚,哪些是可以解決的,哪些是不能解決的。
平常心對待大數(shù)據(jù)
第一是要以平常心對待大數(shù)據(jù),在宣傳熱的情況下,我們發(fā)現(xiàn)我們更多講的是大數(shù)據(jù)的技術(shù)、大數(shù)據(jù)的手段改進。而對大數(shù)據(jù)的實際應(yīng)用,仔細(xì)來看真正的例子還是少的。我們講數(shù)據(jù)挖掘,講這么多年之后,講數(shù)據(jù)挖掘還是啤酒尿布,這說明問題呢?說明在應(yīng)用領(lǐng)域和技術(shù)領(lǐng)域這兩者差距還是非常大的。
而現(xiàn)在我們需要的從實際當(dāng)中來考慮這個問題,我覺得大數(shù)據(jù)有點被慣壞了。目前大家都在說成立大數(shù)據(jù)機構(gòu),申請大數(shù)據(jù)經(jīng)費。但是從大數(shù)據(jù)實際應(yīng)用來看,我覺得我們并不是很明確。到底解決什么事情,它能不能做呢?還有很多問題,我覺得大數(shù)據(jù)從我看來,它只是一個工具。它永遠是我們要做目標(biāo)的仆人。希望大數(shù)據(jù)的發(fā)展和應(yīng)用,不要走信息資源共享的路,信息資源共享喊了很多年。從國新辦的17號文開始到現(xiàn)在已經(jīng)搞了十五年了。但是在信息資源共享方面到底有多大的進步能說出來,我認(rèn)為一直沒有做好,也沒有說出太多東西。當(dāng)然這里面的原因是非常多的,為什么會這樣呢?我覺得有一個非常重要的原因,就是我們把數(shù)據(jù)資源共享的能力和效果想的太高了,我們以為它能夠解決多少問題,實際上它并不能解決那么多問題。
隨著社會數(shù)據(jù)資源的增加,信息共享手段的增加,政府那點數(shù)據(jù)共享它能所做的貢獻是越來越少的。并不是所有的信息共享都是有用的,可以說多數(shù)的信息共享并不是很方便。而且他們的成本效益并不都是正的,在這種情況下,你要求全面的信息共享肯定是失敗的,正確的做法應(yīng)該是仔細(xì)挑選,可能十項里面只有一兩項是好的,你有什么必要推全面的信息共享呢?所以集中精力來做真正有效率的事情,這才是我們該做的。所以說在大數(shù)據(jù)方面來講,我們一定要以目標(biāo)位中心,以平常心來對待大數(shù)據(jù)。以目標(biāo)位中心就是不是所有的大數(shù)據(jù)都是有用的,可以說大部分的大數(shù)據(jù)都是沒有用的,真正有用的東西是少部分的,你必須把有用的挑出來。當(dāng)你想解決什么問題的時候,這時候你再談大數(shù)據(jù),我認(rèn)為是有價值的。當(dāng)你的問題還不清楚想用大數(shù)據(jù)的時候,我認(rèn)為這完全是錯的,它根本沒有用。因為數(shù)據(jù)資源是不缺的,數(shù)據(jù)也可以是垃圾。最缺的是你的目標(biāo),你到底想干什么,現(xiàn)在我們最大的問題是我們想干什么不清楚,所以我覺得這是一個很大的問題。
目前我們對大數(shù)據(jù)概念,大家講的都是不一致的,講的都不清楚。對于政府的官員來講,他認(rèn)為我的政府?dāng)?shù)據(jù)很多,我只要把數(shù)據(jù)合起來就是大數(shù)據(jù)。因此他認(rèn)為他的一切數(shù)據(jù)都是大數(shù)據(jù),你整合起來就多了。為什么會有這種想法呢?有很多的原因,其中一個原因你掛上大數(shù)據(jù)能夠申請經(jīng)費,能夠得到重視,能夠符合潮流。如果你沒有掛上大數(shù)據(jù),你是小數(shù)據(jù)的整合。所以這個問題也是一個因素,但是這些問題都不重要,最重要的到底什么能解決問題,這是最重要的。
另一個方面來說,我們現(xiàn)在看的大數(shù)據(jù),大部分是基本大數(shù)據(jù)的概念,是從互聯(lián)網(wǎng)公司來的。互聯(lián)網(wǎng)公司它有了很高的技術(shù),它能夠利用起來大數(shù)據(jù)。因此這個概念基本上是由互聯(lián)網(wǎng)巨頭決定的,過去也有預(yù)測、石油勘探它也是一堆數(shù)據(jù),但是都不說它是大數(shù)據(jù)?;ヂ?lián)網(wǎng)出來之后它創(chuàng)造了一種經(jīng)濟,也就是說一個名詞,一個概念的出現(xiàn)是和應(yīng)用結(jié)合起來,應(yīng)用可能帶來有效的東西。它就是來自互聯(lián)網(wǎng)大數(shù)據(jù)的概念,而政府大數(shù)據(jù)它基本的概念還是傳統(tǒng)的,這兩個是不一樣的,所以政府大數(shù)據(jù)整合,并不是我們現(xiàn)在所講的大數(shù)據(jù)數(shù)據(jù)。而是我們傳統(tǒng)的數(shù)據(jù)整合、數(shù)據(jù)處理、數(shù)據(jù)分析,它是傳統(tǒng)的技術(shù)。所以這兩個技術(shù)是不一樣的,它們的概念不一樣。
傳感器大數(shù)據(jù)
然后是傳感器大數(shù)據(jù),為什么?因為我們技術(shù)的發(fā)展出現(xiàn)了非常多的傳感器,而這些傳感器,它收集的數(shù)據(jù)是非常多的,這種數(shù)據(jù)用在什么地方呢?用于人工智能。比如說無人駕駛汽車以及機器人等等這樣的技術(shù),他們也用這個技術(shù)。但是這個技術(shù)多不多,量大不大,我覺得不是最大。它最重要的特點是什么呢?就是數(shù)據(jù)處理的過程當(dāng)中沒有人的干預(yù),它是自動化的,所以它們屬于人工智能這方面的大數(shù)據(jù)。
當(dāng)我們在分析這個問題的時候,我們要關(guān)注一下當(dāng)前你想解決什么問題,其實對不同地區(qū)是不一樣的。比如說互聯(lián)網(wǎng)和傳感器大數(shù)據(jù),什么工業(yè)4.0類似這些東西都跟這些有關(guān),對于政府改善服務(wù),它最主要的是整合大數(shù)據(jù),這個大數(shù)據(jù)主要還是在傳統(tǒng)的數(shù)據(jù)范圍內(nèi),他們需要的技術(shù)是不一樣的。
對于政府來講,最重要的東西經(jīng)常是最簡單的,永遠是這樣,重要的都是簡單的。如果它不簡單,它就不會重要,重要的都是簡單的。我們現(xiàn)有的數(shù)據(jù)改善服務(wù),這種服務(wù)全部都是在大大數(shù)據(jù)范圍內(nèi),只是我們說大數(shù)據(jù),但是從技術(shù)來講他們都是傳統(tǒng)的技術(shù)使用和改進?;ヂ?lián)網(wǎng)數(shù)據(jù)也可以來做,但是它并不會在政府工作改進上占據(jù)主要的位置,因此對于我們政府的工作來講,核心的問題是小數(shù)據(jù)整合最重要,這才是最重要的。
互聯(lián)網(wǎng)大數(shù)據(jù)改進是專業(yè)部門做的,傳感器大數(shù)據(jù)用于工業(yè)智能,用于人工智能改進,建立各種各樣的智能系統(tǒng),它們是有用的。
大數(shù)據(jù)不適合大決策
下面我再講一下大數(shù)據(jù)并不適合于大決策,大家都知道小數(shù)據(jù)適合大決策,原因是什么呢?當(dāng)我們的數(shù)據(jù)量太多的時候,畢竟你關(guān)注的范圍要窄,你關(guān)注的范圍窄,你的量才能大,才能深,這么以來你對問題的看法和視角都狹窄。我們處理大決策的問題它需要廣闊的視角。對于具體的問題來講,大數(shù)據(jù)適合于解決小問題。
另外,很多問題是沒有辦法依靠大數(shù)據(jù)的,比如說國際形勢發(fā)生了變化,現(xiàn)在網(wǎng)上經(jīng)常在討論說希拉里和川普他們倆誰上臺,他們倆上臺政策不一樣,你該怎么處理,對世界經(jīng)濟影響也不一樣。像這樣的問題你能不能用大數(shù)據(jù)來分析,我覺得是不可能的。但是絕不可能分析出他們的政策會帶來什么樣的改變,因為這些東西來講是未來的東西。比如說經(jīng)濟發(fā)展美國十幾年前的9.11事件,出了很多問題,而這些問題對中國經(jīng)濟發(fā)展是有利的,為什么?因為把美國搞亂了,中國有很多的機會。這樣重大的政策反而不是大數(shù)據(jù)能夠搞出來的,原因是什么呢?當(dāng)你數(shù)據(jù)量太大的時候,你的視野不一定狹窄,如果你的視野寬闊你的數(shù)據(jù)量并不那么多。所以正因為這個原因,我們要想清楚。
高層決策最主要是靠全面信息,而不是狹窄的數(shù)據(jù)。我談了大數(shù)據(jù)的服務(wù)問題,因為我現(xiàn)在在深圳,我?guī)退麄儊碛懻撘恍﹩栴},他們總覺得政府的數(shù)據(jù)資源非常多。我要打通把數(shù)據(jù)整合,然后我就可以分出來很多東西來支持政府,這是它的一種基本思想。但是這種基本思想一般來說是不行的,為什么?政府的數(shù)據(jù)實際上一點也不多,總說政府資源占90%,那些都是三十年前的概念,因為那時候沒有互聯(lián)網(wǎng)?,F(xiàn)在互聯(lián)網(wǎng)巨頭不比政府的數(shù)據(jù)多十倍、百倍、千倍。而且政府的數(shù)據(jù)主要來自于人工調(diào)查,人工調(diào)查的效率和機器識別的數(shù)據(jù)是不一樣的。所以政府的數(shù)據(jù)是很少的,你可以把它集合起來解決問題。但是你不是需要靠大數(shù)據(jù)來分析,而是靠轉(zhuǎn)動的數(shù)據(jù)分析,來挖掘政府?dāng)?shù)據(jù)的潛能,所以這個很重要。
在這種情況下,如果政府把所有的數(shù)據(jù)都整合了,然后等著你去打通,去分析出結(jié)果,這樣行嗎?政府信息資源雖然沒有開放,但是沒有不透風(fēng)的墻,政府信息代表的東西都會通過各種各樣的渠道傳遞出去,包括我們的手機、聊天、談話等等。所以在這種情況下,你想有一個非常重大的發(fā)現(xiàn)出來是不容易的。
如果你能夠發(fā)現(xiàn)這些重大信息,你這些能力如何給政府提供。實際上我們提出的東西對政府的官員來講你的東西是小兒科,是外行。你要依賴大數(shù)據(jù)政府是不放心的。在這種情況下,你把各種各樣的數(shù)據(jù)整合起來,讓它變成一個可視化的服務(wù)這反而是有效的。一個可視化的服務(wù)隊政府官員來講是很歡迎的,就像我們天天都要看天氣預(yù)報。我們看天氣預(yù)報一個月幾次臺風(fēng),可視化數(shù)據(jù)能夠迅速的一眼能夠?qū)φw有一個改觀。所以說對于政府領(lǐng)導(dǎo)來講,你提供一個可視化的圖,包括云圖和變化圖。
人工智能發(fā)展的過程當(dāng)中,也是有一個進程的。在六七十年代,當(dāng)時人工智能非?;穑銇砀闳プ霾幌氯チ?。后來人們也做機器發(fā)現(xiàn)做來做去也做不下去了,什么時候開始這輪又起來了,核心是它把人工智能改成了大數(shù)據(jù),改成了數(shù)據(jù)學(xué)習(xí)。實際上里面包含的信息,比如說機器翻譯,以前我也見國際歌搞翻譯的人,那時候的思想是造型和理解的角度來翻譯,現(xiàn)在發(fā)現(xiàn)越來越做不下去的?,F(xiàn)在的翻譯是怎么做的,上一句話是這個,下一句話是那個,什么概率最高用那個,別的東西不管。哪個詞出現(xiàn)的頻率最高就用哪個,現(xiàn)在我們發(fā)現(xiàn)我們的軟件越來越快,就是一般打這個字,下個字什么概率最高就提出來,這樣對你加快速度就更容易了。
智能化的城市也和我們的大數(shù)據(jù)應(yīng)用緊密的結(jié)合起來,它這種應(yīng)用和我們決策的應(yīng)用是不一樣的。實際上數(shù)據(jù)有兩種情況,一個是用在人工智能領(lǐng)域,它應(yīng)用的系統(tǒng)是自動化的,而提出來之后機器自己來用,因為計算機本身你別看它總是數(shù)據(jù),但是它一點都不懂信息,它腦子里面只有數(shù)據(jù)的概念,它碰到數(shù)據(jù)算概率,沒有別的概率。但是人決策不一樣,它會把所有的數(shù)據(jù)拿過來看一遍、想一遍,這兩個用途是不一樣的。所以說機器使用大數(shù)據(jù)和人來使用大數(shù)據(jù)它是兩種不同的使用方式,你會知道為什么人使用大數(shù)據(jù)結(jié)果是不確定的,機器數(shù)據(jù)是死的。
當(dāng)我們在研究大數(shù)據(jù)的時候,一定要從應(yīng)用出發(fā),而不能從資源出發(fā)。一個數(shù)據(jù),它是資源,還是垃圾,我們不要認(rèn)為所有的數(shù)據(jù)都是資源。因為資源和垃圾它倆沒有區(qū)別,資源就是垃圾,垃圾就是資源,完全取決于不同的人在這里看,資源和垃圾本身上是一樣的,就好像你想刪掉就刪掉,你刪掉的就是垃圾,你不刪掉的就是資源,所以垃圾和資源是同一個東西。我們?nèi)绾螀^(qū)分,它判斷標(biāo)準(zhǔn)就是對人工的幫助,所以這就是要注意的事情,我們不能從資源出發(fā),現(xiàn)在我覺得在全國各地處理推廣大數(shù)據(jù)的時候有一個觀點我是非常懷疑的,各地做的頂層設(shè)計里面。你到底是解決什么問題,你先把數(shù)據(jù)收集過來。
大數(shù)據(jù)的發(fā)展要在應(yīng)用中成長,而不是在大樓中成長,這是什么大數(shù)據(jù)呢?實際上你發(fā)現(xiàn)有很多大數(shù)據(jù)確實可以解決問題,它還需要長期不斷的積累,不斷的改進。因此有效的大數(shù)據(jù)你不斷的維護它和改進它,它在應(yīng)用中成長,而不是在你的大樓中成長。
所以如果你沒有想清楚做什么,你的大數(shù)據(jù)組織是非常危險的,它會浪費你很多的資源。你搞一堆垃圾,你還想升官,那樣肯定不行,因此你不能這么做,你要挑出來有用的東西,在應(yīng)用中不斷改進,也許它所用到的數(shù)據(jù),只是幾十分之一就可以了。我的數(shù)據(jù)賣給你,當(dāng)時我想賣一點錢,他說我不要,我說你為什么不要,他說我要等我的用戶,我的用戶咨詢到哪一個我買哪一個,寧可貴一點我也要,我不要你們企業(yè)的數(shù)據(jù),他用的是這樣來想的。
在這樣的情況下,我們就需要在大數(shù)據(jù)當(dāng)中我們要進步,對高層的服務(wù)和對基層的服務(wù)是不一樣的。政府的數(shù)據(jù)整合最重要的是基層的服務(wù),整合的數(shù)據(jù)對基層的服務(wù)有用,對高層的服務(wù)它要了解外體和整體,它并不需要精確的數(shù)據(jù)。所以我們要把精確的數(shù)據(jù)送到前線,什么是前線呢?直接為公眾服務(wù)的,他知道這家是困難戶,這家收入多少。然后把整體的趨勢可視化的圖形送領(lǐng)導(dǎo),這樣領(lǐng)導(dǎo)一眼就知道大概的趨勢,這樣的話才會更有效。
我們要以解決問題為中心,真正能解決問題的東西不見得數(shù)據(jù)量大才是能解決問題的。
我舉一個例子,美國友一家公司,這個公司花錢花的太多,每一個公司都超預(yù)算非常頭疼,于是派了一位領(lǐng)導(dǎo)解決這個問題。一開始把帳單都打出來看看有什么不合格,后來計算機打出來他根本沒有辦法看,誰浪費最多,排第一,每次超支最多的,每個月發(fā)一份,然后他就不管了,各個部門都怕自己的排名表靠前,于是很快就把這個問題解決了。解決這個問題并不是靠大數(shù)據(jù)分析來解決的,而是靠排名表解決的,所以說很多問題要以解決問題為中心,大數(shù)據(jù)并不是唯一的工具。
大數(shù)據(jù)被政府慣壞了,只會花錢不會干活了。所以我們要先整合好小數(shù)據(jù),所以數(shù)據(jù)的應(yīng)用應(yīng)當(dāng)始于足下,而不要讓大數(shù)據(jù)誤導(dǎo),這是我講的一些想法,謝謝大家。