互聯(lián)網(wǎng)大數(shù)據(jù)在政府統(tǒng)計(jì)中的應(yīng)用路徑研究[1]
 
  “大數(shù)據(jù)在政府統(tǒng)計(jì)中的應(yīng)用研究”課題組
 
  內(nèi)容摘要:近幾年,互聯(lián)網(wǎng)變得越來越“無所不在”,由此而產(chǎn)生的數(shù)據(jù)越來越多,互聯(lián)網(wǎng)大數(shù)據(jù)逐漸發(fā)展成為一門新學(xué)科、一套新學(xué)說以及一種分析與解決問題的新方法和新手段。本文以互聯(lián)網(wǎng)大數(shù)據(jù)為背景,結(jié)合政府統(tǒng)計(jì)工作的特點(diǎn),提出了互聯(lián)網(wǎng)大數(shù)據(jù)在政府統(tǒng)計(jì)中的應(yīng)用路徑,并以互聯(lián)網(wǎng)搜索數(shù)據(jù)在房?jī)r(jià)統(tǒng)計(jì)方面的應(yīng)用進(jìn)行了案例研究,提出了互聯(lián)網(wǎng)大數(shù)據(jù)在政府統(tǒng)計(jì)應(yīng)用中的展望。
 
  關(guān)鍵詞:互聯(lián)網(wǎng)大數(shù)據(jù);政府統(tǒng)計(jì);應(yīng)用路徑
 
  中圖分類號(hào):C829.2  文獻(xiàn)標(biāo)識(shí)碼:A  文章編號(hào):1004-7794(2015)09-0003-04
 
  DOI:10.13778/j.cnki.11-3705/c.2015.09.001
 
  大數(shù)據(jù)與互聯(lián)網(wǎng)的發(fā)展相輔相成。一方面,互聯(lián)網(wǎng)數(shù)據(jù)是大數(shù)據(jù)中重要的信息與資源。如新浪、搜狐網(wǎng)等每天有大量用戶瀏覽信息,百度、谷歌等搜索引擎為用戶檢索出大量需要瀏覽的內(nèi)容,并實(shí)時(shí)記錄關(guān)鍵詞的搜索密度。隨著電子通訊和媒體技術(shù)的發(fā)展,傳統(tǒng)媒體報(bào)紙、廣播、電視也紛紛進(jìn)入互聯(lián)網(wǎng)絡(luò)時(shí)代,由于互聯(lián)網(wǎng)時(shí)代信息傳播的瞬時(shí)性、廣域性和互動(dòng)性,使得媒體數(shù)據(jù)以更快的速度出現(xiàn)。另一方面,大數(shù)據(jù)為互聯(lián)網(wǎng)的發(fā)展提供了更多支撐、服務(wù)與應(yīng)用。大數(shù)據(jù)是互聯(lián)網(wǎng)發(fā)展到現(xiàn)今階段的一種表象或特征,在以云計(jì)算為代表的技術(shù)創(chuàng)新大幕襯托下,這些原本很難收集和使用的數(shù)據(jù)開始變得容易利用,通過各行各業(yè)的不斷創(chuàng)新,大數(shù)據(jù)價(jià)值開發(fā)呈井噴式發(fā)展。
 
  一、互聯(lián)網(wǎng)大數(shù)據(jù)在政府統(tǒng)計(jì)中的應(yīng)用路徑
 
  對(duì)于政府統(tǒng)計(jì)而言,互聯(lián)網(wǎng)數(shù)據(jù)主要有社交網(wǎng)數(shù)據(jù)、媒體數(shù)據(jù)和搜索引擎數(shù)據(jù)三種類型?;ヂ?lián)網(wǎng)大數(shù)據(jù)在政府統(tǒng)計(jì)諸多專業(yè)中都具有廣闊的應(yīng)用前景。如在宏觀層面,互聯(lián)網(wǎng)搜索數(shù)據(jù)能夠?yàn)楣俜浇y(tǒng)計(jì)提供分析、預(yù)測(cè)與決策支持。
 
  目前,國內(nèi)最大的搜索引擎百度已與統(tǒng)計(jì)部門、交通運(yùn)輸部門、教育部門、旅游部門、工業(yè)與信息化部門等官方機(jī)構(gòu)進(jìn)行了很好合作。這象征著政府部門在利用互聯(lián)網(wǎng)搜索數(shù)據(jù)把握宏觀趨勢(shì)、了解民生動(dòng)態(tài)、推動(dòng)管理創(chuàng)新等方面,開始邁出了實(shí)質(zhì)性的步伐,正在走進(jìn)大數(shù)據(jù)共贏時(shí)代。
 
  1.經(jīng)濟(jì)發(fā)展。
 
  傳統(tǒng)官方統(tǒng)計(jì)按月度、季度或年度統(tǒng)計(jì)各項(xiàng)經(jīng)濟(jì)指標(biāo),以GDP、社會(huì)消費(fèi)品零售總額、固定資產(chǎn)投資完成額、采購經(jīng)理指數(shù)等各項(xiàng)數(shù)據(jù)來分析經(jīng)濟(jì)發(fā)展趨勢(shì);而互聯(lián)網(wǎng)企業(yè)可以利用大數(shù)據(jù)來探索和完善各項(xiàng)經(jīng)濟(jì)指標(biāo),及時(shí)有效地反映國民經(jīng)濟(jì)運(yùn)行狀況,提高宏觀經(jīng)濟(jì)監(jiān)測(cè)的全面性和及時(shí)性,為宏觀經(jīng)濟(jì)部門把握經(jīng)濟(jì)發(fā)展趨勢(shì)、監(jiān)控企業(yè)景氣狀態(tài)提供分析、預(yù)測(cè)與決策支持。
 
  2.價(jià)格統(tǒng)計(jì)。
 
  在CPI統(tǒng)計(jì)方面,電子商務(wù)交易數(shù)據(jù)、互聯(lián)網(wǎng)企業(yè)數(shù)據(jù)都是價(jià)格統(tǒng)計(jì)的新數(shù)據(jù)源,這些數(shù)據(jù)量大、更新快,充分利用這些數(shù)據(jù)有助于減少調(diào)查成本,提高指標(biāo)發(fā)布的頻次。應(yīng)用大數(shù)據(jù)進(jìn)行價(jià)格統(tǒng)計(jì)的實(shí)現(xiàn)途徑有三種:一是采用搜索方式收集網(wǎng)上交易價(jià)格數(shù)據(jù);二是與電子商務(wù)企業(yè)進(jìn)行合作,獲取交易價(jià)格數(shù)據(jù);三是建立商場(chǎng)、超市、醫(yī)院等實(shí)行電子計(jì)價(jià)的采價(jià)點(diǎn)向統(tǒng)計(jì)部門報(bào)送交易記錄的制度。
 
  3.批發(fā)零售業(yè)統(tǒng)計(jì)。
 
  由于網(wǎng)上電商交易數(shù)據(jù)的量體非常大、更新速度快,而且在全社會(huì)商品零售貿(mào)易中所占比重越來越大。因此,充分利用這些信息可以為改善傳統(tǒng)的批發(fā)零售貿(mào)易業(yè)統(tǒng)計(jì)帶來新的思路。
 
  4.人口統(tǒng)計(jì)。
 
  傳統(tǒng)官方統(tǒng)計(jì)投入大量人力物力財(cái)力,進(jìn)行人口普查,可獲得數(shù)據(jù)包括全國和地區(qū)人口數(shù)量、城市和農(nóng)村人口數(shù)量、人口性別比例、人口地域分布、年齡結(jié)構(gòu)、出生率/死亡率等;而利用互聯(lián)網(wǎng),可以快速及時(shí)地統(tǒng)計(jì)PC端和移動(dòng)端網(wǎng)民,統(tǒng)計(jì)維度包括地域、年齡、性別、學(xué)歷等,將來還可以根據(jù)網(wǎng)民行為挖掘出群體的消費(fèi)力水平、興趣點(diǎn),更立體地洞察人群特征。
 
  5.社會(huì)就業(yè)。
 
  傳統(tǒng)官方統(tǒng)計(jì)通過畢業(yè)生人數(shù)增長情況和勞動(dòng)力需求增長情況的對(duì)比研究就業(yè)形勢(shì),而互聯(lián)網(wǎng)大數(shù)據(jù)通過網(wǎng)民對(duì)特定關(guān)鍵詞的搜索趨勢(shì)就可以直觀地分析求職需求和就業(yè)壓力。如可以從“找工作”的搜索指數(shù)變動(dòng)情況來了解求職需求動(dòng)向,補(bǔ)充人力資源與社會(huì)保障部門數(shù)據(jù)的不足,輔助了解就業(yè)趨勢(shì),把握就業(yè)需求,支持政策調(diào)整。
 
  6.醫(yī)療衛(wèi)生。
 
  傳統(tǒng)官方統(tǒng)計(jì)通過醫(yī)療機(jī)構(gòu)數(shù)量、診療人次等線下數(shù)據(jù)分析醫(yī)療服務(wù)情況,而互聯(lián)網(wǎng)大數(shù)據(jù)可以利用用戶在線行為數(shù)據(jù)研究疾病趨勢(shì)。利用網(wǎng)民的疾病相關(guān)搜索數(shù)據(jù),建立科學(xué)的預(yù)測(cè)模型,動(dòng)態(tài)預(yù)測(cè)特定地域未來疾病的活躍指數(shù),并呈現(xiàn)每個(gè)城市多種疾病的熱門醫(yī)院排名?;ヂ?lián)網(wǎng)搜索大數(shù)據(jù)能輔助衛(wèi)生部門監(jiān)測(cè)流行病發(fā)展態(tài)勢(shì),提前做好預(yù)防措施,監(jiān)督管理熱點(diǎn)醫(yī)院。
 
  7.旅游管理。
 
  傳統(tǒng)官方統(tǒng)計(jì)對(duì)旅游人數(shù)的統(tǒng)計(jì)屬于事后統(tǒng)計(jì),而基于網(wǎng)民出游前的網(wǎng)絡(luò)搜索數(shù)據(jù),得到網(wǎng)民選擇的出行路線,可以預(yù)測(cè)旅游趨勢(shì)。通過分析旅游相關(guān)關(guān)鍵詞搜索數(shù)據(jù)與實(shí)際出游人數(shù)之間的密切關(guān)系,可以預(yù)測(cè)各旅游景點(diǎn)未來的人流趨勢(shì),進(jìn)而輔助旅游管理部門預(yù)警景點(diǎn)客流,提前準(zhǔn)備游客疏導(dǎo)措施。
 
  二、利用互聯(lián)網(wǎng)搜索數(shù)據(jù)進(jìn)行房?jī)r(jià)統(tǒng)計(jì)案例研究
 
  近幾年來,政府統(tǒng)計(jì)以房地產(chǎn)價(jià)格為突破口研究互聯(lián)網(wǎng)搜索數(shù)據(jù)的應(yīng)用取得了初步成果。
 
  房地產(chǎn)業(yè)是我國國民經(jīng)濟(jì)發(fā)展的重要支柱產(chǎn)業(yè),房地產(chǎn)價(jià)格走勢(shì)一直是人們關(guān)注的熱點(diǎn),但政府統(tǒng)計(jì)部門發(fā)布的數(shù)據(jù)往往具有一定的時(shí)滯,不能完全滿足大眾的需求。利用網(wǎng)絡(luò)搜索數(shù)據(jù)對(duì)房地產(chǎn)價(jià)格走勢(shì)進(jìn)行預(yù)測(cè),是一種可行而且有效的方法。
 
  國家統(tǒng)計(jì)局嘗試以北京、上海、廣州、南京、沈陽和西安6個(gè)大中城市的二手房?jī)r(jià)格和新房?jī)r(jià)格為研究對(duì)象,以百度搜索指數(shù)為數(shù)據(jù)基礎(chǔ),首先選出了對(duì)二手房?jī)r(jià)格變動(dòng)影響最大的12個(gè)關(guān)鍵詞和對(duì)新房?jī)r(jià)格變動(dòng)影響最大的8個(gè)關(guān)鍵詞;然后采用交叉驗(yàn)證技術(shù),運(yùn)用線性回歸、回歸樹、隨機(jī)森林、Bagging、M-boosting、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和混合線性回歸8種模型分別對(duì)6個(gè)城市的二手房?jī)r(jià)格和新房?jī)r(jià)格進(jìn)行了擬合和預(yù)測(cè)。
 
 ?。ㄒ唬?shù)據(jù)描述、變量描述及數(shù)據(jù)預(yù)處理
 
  1.數(shù)據(jù)描述。
 
  百度搜索指數(shù)是以網(wǎng)民在百度的搜索量為數(shù)據(jù)基礎(chǔ),以關(guān)鍵詞為統(tǒng)計(jì)對(duì)象,分析并計(jì)算出各個(gè)關(guān)鍵詞在百度網(wǎng)頁搜索中搜索頻次的加權(quán)和。百度指數(shù)平臺(tái)是當(dāng)前互聯(lián)網(wǎng)乃至整個(gè)數(shù)據(jù)時(shí)代最重要的統(tǒng)計(jì)分析平臺(tái)之一。
 
  對(duì)于網(wǎng)絡(luò)搜索數(shù)據(jù)的獲取與處理,主要是基于百度指數(shù)這項(xiàng)服務(wù),在百度指數(shù)當(dāng)中輸入關(guān)鍵詞,就能夠獲得該關(guān)鍵詞自2011年以來每日的搜索量。該搜索量為相對(duì)數(shù)據(jù),即相對(duì)于當(dāng)日百度總搜索量中該關(guān)鍵詞的搜索率。這項(xiàng)功能反映了某一個(gè)關(guān)鍵詞在某段時(shí)間里的關(guān)注程度。
 
  2.變量描述。
 
  被解釋變量分別是北京、上海、廣州、南京、沈陽、西安的二手住宅銷售價(jià)格指數(shù)(以下簡(jiǎn)稱二手房?jī)r(jià)格)和新建商品住宅銷售價(jià)格指數(shù)(以下簡(jiǎn)稱新房?jī)r(jià)格),采用2012年1月到2014年7月共31個(gè)月的月度同比數(shù)據(jù),來源于國家統(tǒng)計(jì)局網(wǎng)站。
 
  解釋變量是與二手房和新房?jī)r(jià)格相關(guān)的某些關(guān)鍵詞的網(wǎng)絡(luò)搜索指數(shù)。按下面三個(gè)步驟來選取關(guān)鍵詞。
 
  第一,根據(jù)人們?cè)诜课葙徺I決策中考慮的主要方面選定初始關(guān)鍵詞。具體而言,首先考慮的是當(dāng)前的宏觀經(jīng)濟(jì)形勢(shì)和房地產(chǎn)市場(chǎng)整體走勢(shì),此類關(guān)鍵詞包括房?jī)r(jià)、房?jī)r(jià)走勢(shì)等;其次由于中國房地產(chǎn)市場(chǎng)受政策的影響比較大,限購、限貸、稅費(fèi)或利率調(diào)整等政策變動(dòng)會(huì)對(duì)人們的購買決策和行為造成直接影響,因此選取與房地產(chǎn)市場(chǎng)密切相關(guān)的政策類關(guān)鍵詞,如公積金、房貸利率、購房政策、房產(chǎn)稅等;最后考慮的是利用搜索引擎獲取大量與房屋本身和交易細(xì)節(jié)直接相關(guān)的各類信息,如涉及房屋本身的房源、二手房、新樓盤、保障房、裝修等,涉及交易細(xì)節(jié)的房產(chǎn)中介、房產(chǎn)網(wǎng)、二手房交易流程、二手房交易稅費(fèi)等。最終共選取15個(gè)初始關(guān)鍵詞。
 
  第二,利用百度搜索引擎的關(guān)鍵詞自動(dòng)推薦技術(shù),得到與二手房?jī)r(jià)格相關(guān)的101個(gè)關(guān)鍵詞,與新房?jī)r(jià)格相關(guān)的59個(gè)關(guān)鍵詞。剔除重復(fù)和數(shù)據(jù)量較少的關(guān)鍵詞,組成關(guān)鍵詞庫。
 
  第三,對(duì)數(shù)據(jù)進(jìn)行移動(dòng)平均處理,轉(zhuǎn)化成月度數(shù)據(jù),分別計(jì)算每個(gè)關(guān)鍵詞與二手房?jī)r(jià)格和新房?jī)r(jià)格的相關(guān)系數(shù),檢驗(yàn)每個(gè)關(guān)鍵詞與二手房?jī)r(jià)格和新房?jī)r(jià)格的相關(guān)性,并據(jù)此對(duì)關(guān)鍵詞進(jìn)行篩選。
 
  經(jīng)過多次比較和篩選,對(duì)于6個(gè)城市的二手房?jī)r(jià)格預(yù)測(cè),最終選取12個(gè)關(guān)鍵詞,分別是:房?jī)r(jià)走勢(shì)、房源、裝修、房產(chǎn)網(wǎng)、公積金、房貸利率、房產(chǎn)稅、房屋出租、房產(chǎn)中介、二手房、二手房交易流程、二手房交易稅費(fèi)。對(duì)于新房?jī)r(jià)格預(yù)測(cè),最終選取8個(gè)關(guān)鍵詞,分別是:房?jī)r(jià)走勢(shì)、房源、裝修、房產(chǎn)網(wǎng)、公積金、房貸利率、新樓盤、保障房。
 
  可見,不論是二手房還是新房交易,人們都普遍比較關(guān)注房?jī)r(jià)走勢(shì)、房源、裝修、房產(chǎn)網(wǎng)、公積金、房貸利率,這6個(gè)關(guān)鍵詞是二者都有的。同時(shí),二手房和新房各自不同的交易特點(diǎn)也決定了其搜索關(guān)鍵詞的差異,如房產(chǎn)稅、房屋出租、房產(chǎn)中介、二手房、二手房交易流程、二手房交易稅費(fèi)等6個(gè)關(guān)鍵詞是二手房特有的,而新樓盤和保障房這兩個(gè)關(guān)鍵詞是新房特有的。
 
  3.數(shù)據(jù)預(yù)處理。
 
  為了與被解釋變量保持一致,對(duì)所有關(guān)鍵詞的搜索指數(shù)做如下處理:首先根據(jù)日搜索指數(shù)計(jì)算月度平均搜索指數(shù),然后將月度平均搜索指數(shù)轉(zhuǎn)換為同比數(shù)據(jù),最終得到6個(gè)城市所有關(guān)鍵詞從2012年1月到2014年7月的月度同比數(shù)據(jù)。采用同比數(shù)據(jù)而不是環(huán)比數(shù)據(jù)的原因在于,同比數(shù)據(jù)更能反映隨著時(shí)間推移房地產(chǎn)價(jià)格以及搜索指數(shù)的變動(dòng)情況,而環(huán)比數(shù)據(jù)的波動(dòng)相對(duì)較小,不適宜構(gòu)建模型進(jìn)行分析和預(yù)測(cè)。
 
  (二)研究結(jié)論
 
  在采用的8種模型中,支持向量機(jī)和隨機(jī)森林模型的預(yù)測(cè)效果最佳,回歸樹模型的預(yù)測(cè)效果最差;在二手房和新房?jī)r(jià)格的網(wǎng)絡(luò)搜索關(guān)鍵詞中,宏觀經(jīng)濟(jì)形勢(shì)和房產(chǎn)政策是關(guān)注的重點(diǎn)??梢姡W(wǎng)絡(luò)搜索數(shù)據(jù)不但能夠較好地預(yù)測(cè)房?jī)r(jià)指數(shù),同時(shí)能夠得出經(jīng)濟(jì)主體行為的趨勢(shì)與規(guī)律,而且具有一定的時(shí)效性,預(yù)測(cè)的月度房地產(chǎn)價(jià)格指數(shù)能夠比官方發(fā)布數(shù)據(jù)提前約兩周。具體研究結(jié)論如下:
 
  第一,通過運(yùn)用交叉驗(yàn)證技術(shù)在8種模型中選擇的最優(yōu)模型成功預(yù)測(cè)了6個(gè)城市的二手房和新房?jī)r(jià)格??傮w來看,最優(yōu)模型和線性回歸模型預(yù)測(cè)結(jié)果與實(shí)際值的走勢(shì)都基本一致,但是最優(yōu)模型的預(yù)測(cè)值與實(shí)際值更接近。線性回歸模型對(duì)大部分城市的預(yù)測(cè)效果較好,但是對(duì)南京的二手房?jī)r(jià)格擬合度不夠理想。
 
  第二,根據(jù)6個(gè)城市二手房和新房?jī)r(jià)格的各預(yù)測(cè)模型驗(yàn)證集的標(biāo)準(zhǔn)化均方誤差(NMSE)和均方誤差(MSE)結(jié)果,在使用的8種方法中,支持向量機(jī)和隨機(jī)森林表現(xiàn)最佳,其次是混合性線性回歸、線性回歸、Bagging、M-boosting、神經(jīng)網(wǎng)絡(luò)、回歸樹模型。支持向量機(jī)表現(xiàn)最好,因?yàn)樗诮鉀Q小樣本、非線性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì),并能夠推廣應(yīng)用到函數(shù)擬合中。隨機(jī)森林也能夠得出較為準(zhǔn)確的預(yù)測(cè)值,因?yàn)樗梢援a(chǎn)生高準(zhǔn)確度的分類器和處理大量的輸入變量,在決定類別時(shí),評(píng)估出變量的重要性,而且在建造森林時(shí),它可以在內(nèi)部對(duì)于一般化后的誤差產(chǎn)生不偏差的估計(jì)。
 
  第三,在影響6個(gè)城市二手房?jī)r(jià)格的關(guān)鍵詞搜索指數(shù)中,出現(xiàn)頻次較高的包括裝修、公積金、房屋出租、房?jī)r(jià)走勢(shì)和二手房交易流程。這說明人們?cè)谫徺I二手房時(shí),都非常關(guān)注當(dāng)時(shí)的房地產(chǎn)政策和房?jī)r(jià)形勢(shì),同時(shí)也比較關(guān)注購房后房屋的裝修和出租事宜。
 
  第四,人們?cè)谶M(jìn)行新房交易時(shí),通過搜索引擎搜索較多的關(guān)鍵詞分別是裝修、公積金、房?jī)r(jià)走勢(shì)和房貸利率。這說明人們?cè)谫徺I新房時(shí)也同樣比較關(guān)注宏觀經(jīng)濟(jì)形勢(shì)和房地產(chǎn)相關(guān)政策。
 
  三、互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用展望
 
  大幅增長的網(wǎng)民規(guī)模和飛速發(fā)展的信息技術(shù),使得借助網(wǎng)絡(luò)搜索引擎對(duì)社會(huì)經(jīng)濟(jì)活動(dòng)進(jìn)行監(jiān)測(cè)成為可能。一方面,網(wǎng)絡(luò)搜索數(shù)據(jù)真實(shí)體現(xiàn)大眾關(guān)注熱點(diǎn);另一方面,大眾的關(guān)注熱點(diǎn)也易受到外部環(huán)境的影響,兩者間呈現(xiàn)出一定的對(duì)應(yīng)關(guān)系。如何利用網(wǎng)絡(luò)搜索數(shù)據(jù)使其為國家治理、企業(yè)決策乃至個(gè)人生活服務(wù),正成為大數(shù)據(jù)的核心議題。
 
 ?。ㄒ唬┗诨ヂ?lián)網(wǎng)搜索數(shù)據(jù)構(gòu)建環(huán)保投資景氣指數(shù)
 
  隨著互聯(lián)網(wǎng)的普及和大數(shù)據(jù)時(shí)代的到來,投資主體和消費(fèi)主體的購買意圖已經(jīng)體現(xiàn)到互聯(lián)網(wǎng)上。例如,在投資決策前,一般會(huì)通過互聯(lián)網(wǎng)搜索引擎進(jìn)行信息收集。而市場(chǎng)主體的這些網(wǎng)上行為與他們真實(shí)意圖密切相關(guān)。如果能夠提取網(wǎng)絡(luò)中的這些有效信息,就可以通過數(shù)據(jù)間的相關(guān)性,找出網(wǎng)絡(luò)信息行為與某個(gè)具體行業(yè)相關(guān)投資數(shù)據(jù)走勢(shì)之間的關(guān)系。
 
  因此,可以考慮選取環(huán)保產(chǎn)業(yè)作為主要預(yù)測(cè)研究對(duì)象,利用互聯(lián)網(wǎng)搜索數(shù)據(jù),聯(lián)系經(jīng)濟(jì)社會(huì)發(fā)展熱點(diǎn),同時(shí)結(jié)合現(xiàn)有政府統(tǒng)計(jì)指標(biāo),構(gòu)建基于互聯(lián)網(wǎng)搜索數(shù)據(jù)的“環(huán)保投資景氣指數(shù)”,并將此指數(shù)運(yùn)用到我國環(huán)境管理投資的預(yù)測(cè)之中。
 
 ?。ǘ┗诨ヂ?lián)網(wǎng)搜索數(shù)據(jù)構(gòu)建霧霾與環(huán)保出行關(guān)聯(lián)性指數(shù)
 
  宣傳低碳生活和環(huán)保出行理念,改變公眾行為,對(duì)霧霾天氣的改善具有一定的積極作用。如果能構(gòu)建霧霾和環(huán)保出行關(guān)聯(lián)性指數(shù)就可以直觀看出城市居民在霧霾關(guān)注程度及環(huán)保出行行為上的表現(xiàn)。
 
  因此,可以利用搜索關(guān)鍵詞構(gòu)建霧霾和環(huán)保出行指數(shù)之間的關(guān)系,揭示城市空氣質(zhì)量指數(shù)與公眾霧霾關(guān)注度及環(huán)保出行理念之間的傳導(dǎo)機(jī)制。首先,選取與霧霾相關(guān)的搜索詞,如構(gòu)成因素、形成原因、產(chǎn)生的危害、治理措施及預(yù)防等。然后,根據(jù)選詞搜索數(shù)據(jù)與我國空氣質(zhì)量指數(shù)的相關(guān)性,得到選取與空氣質(zhì)量高度相關(guān)的關(guān)鍵詞。以選用城市PM2.5數(shù)據(jù)的加權(quán)平均值代表全國PM2.5數(shù)據(jù)的變化趨勢(shì)。權(quán)數(shù)為各城市關(guān)鍵詞搜索量占總搜索量的比重,加權(quán)平均計(jì)算合成指數(shù)。
 
 ?。ㄈ┗诨ヂ?lián)網(wǎng)購物搜索數(shù)據(jù)測(cè)算居民收入水平
 
  住戶收支數(shù)據(jù)是重要的統(tǒng)計(jì)資源。作為需求的市場(chǎng)微觀主體,居民的互聯(lián)網(wǎng)購物搜索行為在互聯(lián)網(wǎng)上有所反映,體現(xiàn)為網(wǎng)絡(luò)搜索、瀏覽量等指標(biāo)的變化。網(wǎng)絡(luò)搜索內(nèi)容反映了市場(chǎng)主體的關(guān)注點(diǎn),搜索量則反映了關(guān)注程度,因此利用購物搜索關(guān)鍵詞的搜索量變化可以對(duì)居民收入水平做出判斷或預(yù)測(cè)。從居民家庭消費(fèi)特征出發(fā),構(gòu)建出對(duì)居民收入記賬記錄依賴小的收入測(cè)度模型,科學(xué)輔助數(shù)據(jù)質(zhì)量控制,可靠評(píng)估收入數(shù)據(jù)及預(yù)測(cè)趨勢(shì),從而科學(xué)指導(dǎo)政府宏微觀政策。
 
  當(dāng)然,互聯(lián)網(wǎng)搜索數(shù)據(jù)中不同關(guān)鍵詞代表的含義不同,采用科學(xué)的方法對(duì)關(guān)鍵詞進(jìn)行篩選,選擇和統(tǒng)計(jì)指標(biāo)最相關(guān)的關(guān)鍵詞,并建立適當(dāng)?shù)哪P?,還可以輔助測(cè)算其他官方統(tǒng)計(jì)的月度數(shù)據(jù),如住宅成交量、消費(fèi)價(jià)格指數(shù)、居民收入、居民消費(fèi)支出、失業(yè)率等。
 
  互聯(lián)網(wǎng)大數(shù)據(jù)的應(yīng)用前景是廣闊的,引領(lǐng)政府統(tǒng)計(jì)變革是當(dāng)代政府統(tǒng)計(jì)工作者肩負(fù)的重任,雖然在改革創(chuàng)新的道路上,會(huì)遇到多方面的問題,但是只要不斷堅(jiān)定地、持續(xù)地向明確的方向和目標(biāo)前進(jìn),互聯(lián)網(wǎng)大數(shù)據(jù)將在政府統(tǒng)計(jì)中大放異彩。
 
  參考文獻(xiàn)
 
  [1]馬建堂.大數(shù)據(jù)在政府統(tǒng)計(jì)中的應(yīng)用[M].北京:中國統(tǒng)計(jì)出版社,2013.
 
  [2]涂子沛.大數(shù)據(jù):正在到來的數(shù)據(jù)革命[M].南寧:廣西師范大學(xué)出版社,2012.
 
  [3]徐繼華,馮啟娜,陳貞汝.智慧政府:大數(shù)據(jù)治國時(shí)代的來臨[M].北京:中信出版社,2014.
 
  [4]郭三強(qiáng),郭燕錦.大數(shù)據(jù)環(huán)境下的數(shù)據(jù)安全研究[J].科技廣場(chǎng),2013(2):28-31.
 
  [5]宗威.大數(shù)據(jù)時(shí)代下數(shù)據(jù)質(zhì)量的挑戰(zhàn)[J].西安交通大學(xué)學(xué)報(bào),2013,33(5):38-43.
 
  [6]李慶莉.大數(shù)據(jù)戰(zhàn)略[J].中國金融電腦,2013(7).
 
  [7]孟小峰,李勇,祝建華.社會(huì)計(jì)算:大數(shù)據(jù)時(shí)代的機(jī)遇與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013(12).
 
  [8]王元卓,靳小龍.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2013(6):1126-1138.
 
  [1]基金項(xiàng)目:國家社科基金項(xiàng)目《大數(shù)據(jù)在政府統(tǒng)計(jì)中的應(yīng)用研究》(批準(zhǔn)號(hào)13ATJ004階段性成果)。
 
 
責(zé)任編輯:admin