大數(shù)據(jù)更需要強調數(shù)據(jù)挖掘利用,而針對目前存在的技術應用、人才、安全與隱私等問題,最關鍵的是要有國家大數(shù)據(jù)戰(zhàn)略,使其成為轉變經濟增長方式的有效抓手。

 
  不要被大數(shù)據(jù)(Big Data)的“Big”誤導,大數(shù)據(jù)更強調的不是數(shù)據(jù)之多,而是數(shù)據(jù)挖掘。數(shù)據(jù)大與價值大未必成正比,例如將一個人每分鐘的身體數(shù)據(jù)記錄下來,對了解該人的身體狀況是有用的,但如果將他每毫秒的身體數(shù)據(jù)都記錄下來,數(shù)據(jù)量將較前者高6萬倍,與按每分鐘記錄的數(shù)據(jù)相比,其價值并不能增加。大數(shù)據(jù)的價值在于樣本數(shù)的普遍性。統(tǒng)計一個人每分鐘的身體狀況數(shù)據(jù)與統(tǒng)計60個人每小時的身體狀況數(shù)據(jù)相比,可能后者在統(tǒng)計上更有意義。大數(shù)據(jù)往往是低價值密度。大數(shù)據(jù)中的多數(shù)數(shù)據(jù)可能是重復的,忽略其中一些數(shù)據(jù)并不影響對其挖掘的效果。因此可以說大數(shù)據(jù)的價值好似沙里淘金和海底撈針。
 
  大數(shù)據(jù)的量越大處理難度就越大,就需要更多的服務器或更高速的服務器。實時性是大數(shù)據(jù)挖掘面臨的挑戰(zhàn),而非結構化是大數(shù)據(jù)挖掘的主要挑戰(zhàn)。目前國際上大數(shù)據(jù)處理技術主要集中在結構性數(shù)據(jù),但是大數(shù)據(jù)中80%以上都是非結構性數(shù)據(jù)。目前國內外都有很多大數(shù)據(jù)應用成功的例子,但基本上還是結構性數(shù)據(jù),對結構性數(shù)據(jù)的挖掘是大數(shù)據(jù)應用的切入點。

責任編輯:admin