導(dǎo)讀:

  它山之石,可以攻玉。為了幫助各界人士學(xué)習(xí)國外先進經(jīng)驗,進一步了解大數(shù)據(jù)市場的定價、交易與保護,國脈戰(zhàn)略研究院專家楊冰之、林渠,帶來了《大數(shù)據(jù)市場調(diào)查:定價、交易與保護》的翻譯文章,相信會給大家以思想的碰撞、靈感的啟迪,促進大家思考,從而為我國推進數(shù)據(jù)要素市場化配置改革,貢獻國脈戰(zhàn)略研究院的智慧。

  在本章節(jié)中,我們將介紹大數(shù)據(jù)的基本概念,包括定義、挑戰(zhàn)和應(yīng)用。

  A. 大數(shù)據(jù)的定義

  世界上的數(shù)據(jù)總量呈爆炸式增長,每天生成的數(shù)據(jù)量估計為25億字節(jié)。事實上,全世界近90%的數(shù)據(jù)都是在過去兩年內(nèi)創(chuàng)建的。數(shù)據(jù)來源多種多樣,尤其是物聯(lián)網(wǎng)越來越多地參與到我們的日常生活中,支持許多智能世界系統(tǒng)。如此多樣化的數(shù)據(jù)源導(dǎo)致了數(shù)據(jù)量的膨脹,同樣創(chuàng)造了巨大的潛在商業(yè)價值。我們將這些數(shù)據(jù)稱為大數(shù)據(jù)。

  正如圖1所示,盡管沒有關(guān)于大數(shù)據(jù)的定義,但三個V是大數(shù)據(jù)最常用的定義:

 ?。╥) 體量(volume):大數(shù)據(jù)的第一個特征是巨大的數(shù)據(jù)量。數(shù)據(jù)集的大小可以從TB到ZB,甚至更大。例如,截至2012年,F(xiàn)acebook存儲了大約100 PB的媒體(照片和視頻),有8.45億用戶上傳。

 ?。╥i)速率(velocity):速率是數(shù)據(jù)流變化和生成的特征。多個數(shù)據(jù)源不斷生成數(shù)據(jù),使得大數(shù)據(jù)具有難以置信的高刷新率。它也只有很短的時間來處理數(shù)據(jù)。盡管Facebook的數(shù)據(jù)總量約為100 PB,但每天仍有11.3億活躍用戶上傳9億張照片

 ?。╥ii)品種(variety):品種數(shù)據(jù)可以有多種不同且互補的格式,例如來自各種設(shè)備和應(yīng)用程序的日志數(shù)據(jù)、數(shù)據(jù)庫文件和XML文件等。此外,數(shù)據(jù)可以具有非結(jié)構(gòu)化數(shù)據(jù)類型(圖像、視頻和音頻流等)。由于機器學(xué)習(xí)和數(shù)據(jù)挖掘等數(shù)據(jù)分析技術(shù)的發(fā)展,大數(shù)據(jù)是海量、連續(xù)和全面的,具有很高的潛在商業(yè)價值。

 (圖1. 三V大數(shù)據(jù))

  請注意,術(shù)語數(shù)據(jù)挖掘(data mining)和商業(yè)智能(Business Intelligence (BI))經(jīng)常交替使用來描述大數(shù)據(jù)的處理。這些概念顯然與數(shù)據(jù)分析有關(guān)。因此大數(shù)據(jù)的目標(biāo)不僅是收集數(shù)據(jù),而且是進行數(shù)據(jù)分析以提取業(yè)務(wù)價值。作為傳統(tǒng)大數(shù)據(jù)定義的延伸,我們考慮了另一個V,即價值。特別是與數(shù)據(jù)交易相關(guān)的三個V與數(shù)據(jù)價值之間的關(guān)系,以及它們?nèi)绾蜗嗷ビ绊?,是大?shù)據(jù)研究的非常重要并具有挑戰(zhàn)性的方面。

  B. 大數(shù)據(jù)的益處和挑戰(zhàn)

  與傳統(tǒng)數(shù)據(jù)源相比,大數(shù)據(jù)既有優(yōu)勢也有劣勢。我們對它們的差異進行了分類:

  全面性:大數(shù)據(jù)不僅可以捕獲主要活動,還可以捕獲相關(guān)數(shù)據(jù),并提供詳細(xì)信息以供將來分析。例如,隨著智能手機的普及,社交網(wǎng)絡(luò)在人們之間的聯(lián)系以及圖片和視頻的分發(fā)也越來越普及。傳統(tǒng)數(shù)據(jù)源可能只捕獲聯(lián)系人列表,而大數(shù)據(jù)可能涉及智能手機中的大量傳感器和數(shù)據(jù),記錄盡可能多的信息(位置、面部信息、語音信息等)。這些附加信息可以提供全面的細(xì)節(jié)來描述此人,并幫助大數(shù)據(jù)應(yīng)用程序進行分析并提供定制服務(wù)。

  恒常性:大數(shù)據(jù)不斷捕獲信息。例如,大多數(shù)人每年或每半年進行一次身體健康檢查。醫(yī)院或醫(yī)生記錄每位患者的基本健康指數(shù),包括血壓、體溫、身高、體重等。如今,像蘋果手表和帶有傳感器的運動手鐲這樣的新系統(tǒng)能夠隨時隨地連續(xù)記錄這些指標(biāo)。這種技術(shù)有可能獲得大量人口的高頻率數(shù)據(jù),用于深入的大數(shù)據(jù)分析。

  多樣性:在大數(shù)據(jù)中,與結(jié)構(gòu)化數(shù)據(jù)相比,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)越來越多。大多數(shù)傳統(tǒng)數(shù)據(jù)集被安排為結(jié)構(gòu)化數(shù)據(jù)集,因為設(shè)計人員已經(jīng)知道傳統(tǒng)數(shù)據(jù)源的類型和結(jié)構(gòu),并且數(shù)據(jù)將被指定給傳統(tǒng)數(shù)據(jù)庫。例如,來自市場的收據(jù)、工資單和庫存列表是具有傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)類型的典型業(yè)務(wù)應(yīng)用程序,易于使用和管理。相比之下,非結(jié)構(gòu)化數(shù)據(jù)源很難控制或管理。視頻流、音頻文件和文本數(shù)據(jù)就是這類數(shù)據(jù)的例子,它們的大小、編碼和上下文都有很大差異。分析和管理非結(jié)構(gòu)化數(shù)據(jù)很困難,因為數(shù)據(jù)位沒有預(yù)定義。

  C. 大數(shù)據(jù)應(yīng)用

  為了讓大數(shù)據(jù)變得有用,大數(shù)據(jù)分析軟件工具可以提取有用的信息。從大數(shù)據(jù)用戶的角度來看,大數(shù)據(jù)應(yīng)用程序可用于分析和挖掘大數(shù)據(jù)源的價值。

  1) 大數(shù)據(jù)應(yīng)用的目的

  在過去幾十年,世界上各個層次的經(jīng)濟實體都轉(zhuǎn)向使用數(shù)據(jù)密集型技術(shù),這種技術(shù)的廣泛采用在一定程度上取決于經(jīng)濟發(fā)展和教育水平,這促進了數(shù)據(jù)增長。因此,Oracle、IBM、Microsoft、Dell和其他許多公司在大數(shù)據(jù)管理和分析應(yīng)用程序開發(fā)方面投入了大量資金。此外,大數(shù)據(jù)應(yīng)用行業(yè)每年以10%左右的速度增長,幾乎是傳統(tǒng)軟件領(lǐng)域的兩倍。因此,大數(shù)據(jù)管理和分析應(yīng)用程序是創(chuàng)造數(shù)據(jù)價值的關(guān)鍵。

  許多特定領(lǐng)域,如政府、制造業(yè)、醫(yī)療保健、教育、互聯(lián)網(wǎng)、社交媒體和物聯(lián)網(wǎng)驅(qū)動的智能世界系統(tǒng),都需要大數(shù)據(jù)應(yīng)用程序來確定自己收集的數(shù)據(jù)集的價值,以更好地支持應(yīng)用程序。例如,基于數(shù)據(jù)密集型業(yè)務(wù)的Facebook、谷歌和騰訊等公司提取來自它們自己的用戶平臺生成的數(shù)據(jù)集。這一過程的主要目的是將這些有價值的數(shù)據(jù)集出售給潛在的廣告商、其他第三方,或?qū)⑵涑尸F(xiàn)給投資者,以產(chǎn)生進一步的價值。因此,必須建立有效的大數(shù)據(jù)管理和分析應(yīng)用程序,從收集的數(shù)據(jù)中挖掘商業(yè)價值,這一點非常重要。大數(shù)據(jù)應(yīng)用也成為數(shù)據(jù)定價的重要參考。

  2) 大數(shù)據(jù)應(yīng)用的挑戰(zhàn)

  大數(shù)據(jù)應(yīng)用程序面臨的挑戰(zhàn)之一是沒有直接簡單的方法來量化數(shù)據(jù)集的價值。正如前面所討論的,通過提高大數(shù)據(jù)應(yīng)用程序的性能,增加結(jié)果數(shù)據(jù)集的商業(yè)價值。遵循這一規(guī)則,為了追求數(shù)據(jù)集的最大值,一種有效的方法是從數(shù)據(jù)集產(chǎn)生價值的過程中提高應(yīng)用程序的性能。為了提高這種性能,顯然需要提高計算能力和運行效率,并降低計算資源需求和數(shù)據(jù)存儲成本。盡管如此,問題仍然是如何量化這些改進,需注意的是,難以保證通過實施這些簡單的改進,數(shù)據(jù)集的商業(yè)價值就會增加。因此有必要設(shè)計一個綜合績效評價模型。通過對應(yīng)用程序的性能進行建模,技術(shù)人員和管理人員能夠做出明智的決策,實驗結(jié)果可以作為參考來設(shè)計創(chuàng)造未來價值的改進。

  延續(xù)上述討論,大數(shù)據(jù)應(yīng)用程序的下一個挑戰(zhàn)是設(shè)計和開發(fā)適當(dāng)?shù)哪P?,用于評估價值生成過程。在這樣一個過程中,有許多相互關(guān)聯(lián)且復(fù)雜的場景和參數(shù)用于衡量大數(shù)據(jù)應(yīng)用程序的性能。例如,每個計算任務(wù)可能涉及多個用于大數(shù)據(jù)應(yīng)用的離散計算節(jié)點。此外,在某個計算任務(wù)期間,可以通過調(diào)度策略改變所涉及的計算節(jié)點??紤]到大數(shù)據(jù)結(jié)構(gòu)和交互活動的復(fù)雜性,大數(shù)據(jù)應(yīng)用程序的建模和性能評估需要專業(yè)知識。例如,多形式主義建模和測試異構(gòu)形式主義和系統(tǒng)擴展的結(jié)構(gòu)化基礎(chǔ)設(shè)施(SIMTHESys)被定義為大數(shù)據(jù)建模的新框架。此外,SIMTHESys是一個建??蚣埽荚谶m應(yīng)快速和隨機變化的系統(tǒng)模型。此外有學(xué)者還提出了其他建??蚣?,包括AToMe、OsMoSys和Mobius。

  3) 大數(shù)據(jù)和其他技術(shù)的融合

  大數(shù)據(jù)是人工智能(AI)和機器學(xué)習(xí)的基本來源/輸入。在大數(shù)據(jù)時代,大量數(shù)據(jù)集為這些技術(shù)提供數(shù)據(jù),以獲得有意義的結(jié)果。盡管如此,對于設(shè)計有效的大數(shù)據(jù)應(yīng)用程序而言,即時、靈活地隨機訪問大量數(shù)據(jù)的能力是一個具有挑戰(zhàn)性的問題。此外,與過去在統(tǒng)計領(lǐng)域和數(shù)據(jù)分析科學(xué)中使用有限的數(shù)據(jù)樣本集不同,大數(shù)據(jù)允許科學(xué)家訪問和分析無限的數(shù)據(jù)集。由于大數(shù)據(jù)集的樣本量大幅增加,以及數(shù)據(jù)源和傳感器具有更多種類和細(xì)節(jié),明顯提升了分析結(jié)果。這就是許多組織從基于經(jīng)驗的分析戰(zhàn)略轉(zhuǎn)變?yōu)榛诖髷?shù)據(jù)的戰(zhàn)略的原因。組織能夠開發(fā)自己的應(yīng)用程序以滿足其獨特的需求。此外,在分析處理期間,可以過濾掉冗余或不必要的數(shù)據(jù)。這將細(xì)化源數(shù)據(jù),并整合數(shù)據(jù)集。不斷運行優(yōu)化循環(huán),可以通過“分析沙盒”( analytical sandboxes)和大數(shù)據(jù)“卓越中心”( centers of excellence)分析數(shù)據(jù)集,還可以提高數(shù)據(jù)管理的靈活性。

  機器學(xué)習(xí)技術(shù),如深度學(xué)習(xí),是利用大數(shù)據(jù)價值的可行方法。機器學(xué)習(xí)由大數(shù)據(jù)源驅(qū)動,適用于快速變化的大型復(fù)雜數(shù)據(jù)集,并可通過云和邊緣計算基礎(chǔ)設(shè)施的幫助進一步改進。與傳統(tǒng)的分析技術(shù)不同,機器學(xué)習(xí)能夠在不斷增長的數(shù)據(jù)集上不斷開展。通過這種方式,輸入機器學(xué)習(xí)系統(tǒng)的數(shù)據(jù)越多,它可以學(xué)習(xí)得越多,從而得到更高質(zhì)量的結(jié)果。因此,大數(shù)據(jù)和機器學(xué)習(xí)結(jié)合可以幫助組織改進從自身數(shù)據(jù)集中提取業(yè)務(wù)價值的工作,并擴展其大數(shù)據(jù)應(yīng)用分析能力。

  D. 大數(shù)據(jù)的價值

  大數(shù)據(jù)是數(shù)據(jù)技術(shù)時代最重要的資源。為了交易或共享數(shù)據(jù)資源,如何評估這些數(shù)據(jù)集的商業(yè)價值是一個基本問題。此外,從數(shù)據(jù)集中捕獲和挖掘價值可以進一步增加數(shù)據(jù)的價值。為了從大數(shù)據(jù)中確定商業(yè)價值,我們需要定義數(shù)據(jù)集的商業(yè)價值。高德納(Gartner)提出了最常被引用的大數(shù)據(jù)定義:“大數(shù)據(jù)是高容量、高速度和多種多樣的信息資產(chǎn),需要成本效益,創(chuàng)新的信息處理形式,以增強洞察力和決策能力?!北M管這是大數(shù)據(jù)的一個有效特征,但這一定義還不夠明確,無法明確區(qū)分高值和低值。使用此定義,我們無法測量數(shù)據(jù)集的值。因此,需要基于評估的定義來確定數(shù)據(jù)值。

  顯然,收集和存儲大量數(shù)據(jù)并不是所有公司和組織的目標(biāo)。然而它們都對分析數(shù)據(jù)以提取和創(chuàng)造實際商業(yè)價值感興趣。達文波特(Davenport)列舉了一些真實或軼事的例子,說明了組織如何使用收集的數(shù)據(jù)集的策略,并從這些數(shù)據(jù)集中挖掘價值。此外,一項綜合研究表明,數(shù)據(jù)驅(qū)動的決策在生產(chǎn)率和盈利能力方面比其他決策方法具有更好的績效。關(guān)于確定大數(shù)據(jù)分析如何創(chuàng)造商業(yè)價值,以及在何處可以從大數(shù)據(jù)中獲得商業(yè)價值的問題,有許多研究。根據(jù)系統(tǒng)性研究,大數(shù)據(jù)有兩個主要方面,從這兩個方面可以為組織創(chuàng)造商業(yè)價值。第一個方面是大數(shù)據(jù)用于改進和優(yōu)化當(dāng)前業(yè)務(wù)流程、服務(wù)和實踐的能力。第二是開發(fā)新的商業(yè)模式、產(chǎn)品和實踐,這些都可以通過大數(shù)據(jù)分析進行開發(fā)和創(chuàng)新。因此從大數(shù)據(jù)中獲取價值需要確定業(yè)務(wù)模型與所分析的大數(shù)據(jù)之間的關(guān)系。

  數(shù)據(jù)挖掘是從數(shù)據(jù)集中獲取價值的常用方法之一。盡管如此,在大數(shù)據(jù)的數(shù)據(jù)挖掘應(yīng)用方面仍存在挑戰(zhàn)。第一個挑戰(zhàn)集中在數(shù)據(jù)訪問和計算過程上。由于分布式存儲系統(tǒng)和不斷增長的數(shù)據(jù)量,計算平臺必須具備處理分布式和大規(guī)模數(shù)據(jù)存儲的能力。大多數(shù)數(shù)據(jù)挖掘算法都需要將所有必要的數(shù)據(jù)加載到主存中,這顯然是大數(shù)據(jù)的一個技術(shù)挑戰(zhàn),因為從分布式存儲系統(tǒng)中移動數(shù)據(jù)非常昂貴。第二個挑戰(zhàn)是各種大數(shù)據(jù)應(yīng)用。更具體地說,應(yīng)用程序存在于不同的域中,在數(shù)據(jù)所有者和使用者之間具有不同的數(shù)據(jù)私有和數(shù)據(jù)共享方案。第三個挑戰(zhàn)是設(shè)計有效的機器學(xué)習(xí)和數(shù)據(jù)挖掘算法。學(xué)習(xí)和挖掘算法必須解決大容量、分布式、復(fù)雜和動態(tài)的數(shù)據(jù)特征的困難。

更多精彩,請關(guān)注“官方微信”

11.jpg

 關(guān)于國脈 

國脈,是大數(shù)據(jù)治理、數(shù)字政府、營商環(huán)境、數(shù)字經(jīng)濟、政務(wù)服務(wù)專業(yè)提供商。創(chuàng)新提出"軟件+咨詢+數(shù)據(jù)+平臺+創(chuàng)新業(yè)務(wù)"五位一體服務(wù)模型,擁有超能城市APP、營商環(huán)境流程再造系統(tǒng)、營商環(huán)境督查與考核評估系統(tǒng)、政策智能服務(wù)系統(tǒng)、數(shù)據(jù)基因、數(shù)據(jù)母體等幾十項軟件產(chǎn)品,長期為中國智慧城市、智慧政府和智慧企業(yè)提供專業(yè)咨詢規(guī)劃和數(shù)據(jù)服務(wù),廣泛服務(wù)于發(fā)改委、營商環(huán)境局、考核辦、大數(shù)據(jù)局、行政審批局等政府客戶、中央企業(yè)和高等院校。

責(zé)任編輯:wuwenfei