最新伊人久久网址,手机免费看av网址

3月13日下午，南京郵電大學計算機學院、軟件學院院長、教授李濤在CIO時代APP微講座欄目作了題為《大數(shù)據時代的數(shù)據挖掘》的主題分享，深度詮釋了大數(shù)據及大數(shù)據時代下的數(shù)據挖掘。

　　眾所周知，大數(shù)據時代的大數(shù)據挖掘已成為各行各業(yè)的一大熱點。

　　一、數(shù)據挖掘

　　在大數(shù)據時代，數(shù)據的產生和收集是基礎，數(shù)據挖掘是關鍵，數(shù)據挖掘可以說是大數(shù)據最關鍵也是最基本的工作。通常而言，數(shù)據挖掘也稱為Data Mining，或知識發(fā)現(xiàn)Knowledge Discovery from Data，泛指從大量數(shù)據中挖掘出隱含的、先前未知但潛在的有用信息和模式的一個工程化和系統(tǒng)化的過程。

　　不同的學者對數(shù)據挖掘有著不同的理解，但個人認為，數(shù)據挖掘的特性主要有以下四個方面：

　　1.應用性（A Combination of Theory and Application）：數(shù)據挖掘是理論算法和應用實踐的完美結合。數(shù)據挖掘源于實際生產生活中應用的需求，挖掘的數(shù)據來自于具體應用，同時通過數(shù)據挖掘發(fā)現(xiàn)的知識又要運用到實踐中去，輔助實際決策。所以，數(shù)據挖掘來自于應用實踐，同時也服務于應用實踐，數(shù)據是根本，數(shù)據挖掘應以數(shù)據為導向，其中涉及到算法的設計與開發(fā)都需考慮到實際應用的需求，對問題進行抽象和泛化，將好的算法應用于實際中，并在實際中得到檢驗。

　　2.工程性（An Engineering Process）：數(shù)據挖掘是一個由多個步驟組成的工程化過程。數(shù)據挖掘的應用特性決定了數(shù)據挖掘不僅僅是算法分析和應用，而是一個包含數(shù)據準備和管理、數(shù)據預處理和轉換、挖掘算法開發(fā)和應用、結果展示和驗證以及知識積累和使用的完整過程。而且在實際應用中，典型的數(shù)據挖掘過程還是一個交互和循環(huán)的過程。

　　3.集合性（A Collection of Functionalities）：數(shù)據挖掘是多種功能的集合。常用的數(shù)據挖掘功能包括數(shù)據探索分析、關聯(lián)規(guī)則挖掘、時間序列模式挖掘、分類預測、聚類分析、異常檢測、數(shù)據可視化和鏈接分析等。一個具體的應用案例往往涉及多個不同的功能。不同的功能通常有不同的理論和技術基礎，而且每一個功能都有不同的算法支撐。

　　4.交叉性（An Interdisciplinary Field）：數(shù)據挖掘是一門交叉學科，它利用了來自統(tǒng)計分析、模式識別、機器學習、人工智能、信息檢索、數(shù)據庫等諸多不同領域的研究成果和學術思想。同時一些其他領域如隨機算法、信息論、可視化、分布式計算和最優(yōu)化也對數(shù)據挖掘的發(fā)展起到重要的作用。數(shù)據挖掘與這些相關領域的區(qū)別可以由前面提到的數(shù)據挖掘的3個特性來總結，最重要的是它更側重于應用。

　　綜上所述，應用性是數(shù)據挖掘的一個重要特性，是其區(qū)別于其他學科的關鍵，同時，其應用特性與其他特性相輔相成，這些特性在一定程度上決定了數(shù)據挖掘的研究與發(fā)展，同時，也為如何學習和掌握數(shù)據挖掘提出了指導性意見。如從研究發(fā)展來看，實際應用的需求是數(shù)據挖掘領域很多方法提出和發(fā)展的根源。從最開始的顧客交易數(shù)據分析（market basket analysis）、多媒體數(shù)據挖掘（multimedia data mining）、隱私保護數(shù)據挖掘（privacy-preserving data mining）到文本數(shù)據挖掘（text mining）和Web挖掘（Web mining），再到社交媒體挖掘（social media mining）都是由應用推動的。工程性和集合性決定了數(shù)據挖掘研究內容和方向的廣泛性。其中，工程性使得整個研究過程里的不同步驟都屬于數(shù)據挖掘的研究范疇。而集合性使得數(shù)據挖掘有多種不同的功能，而如何將多種功能聯(lián)系和結合起來，從一定程度上影響了數(shù)據挖掘研究方法的發(fā)展。比如，20世紀90年代中期，數(shù)據挖掘的研究主要集中在關聯(lián)規(guī)則和時間序列模式的挖掘。到20世紀90年代末，研究人員開始研究基于關聯(lián)規(guī)則和時間序列模式的分類算法（如classification based on association），將兩種不同的數(shù)據挖掘功能有機地結合起來。21世紀初，一個研究的熱點是半監(jiān)督學習（semi-supervised learning）和半監(jiān)督聚類（semi-supervised clustering），也是將分類和聚類這兩種功能有機結合起來。近年來的一些其他研究方向如子空間聚類（subspace clustering）（特征抽取和聚類的結合）和圖分類（graphclassification）（圖挖掘和分類的結合）也是將多種功能聯(lián)系和結合在一起。最后，交叉性導致了研究思路和方法設計的多樣化。

　　前面提到的是數(shù)據挖掘的特性對研究發(fā)展及研究方法的影響，另外，數(shù)據挖掘的這些特性對如何學習和掌握數(shù)據挖掘提出了指導性的意見，對培養(yǎng)研究生、本科生均有一些指導意見，如應用性在指導數(shù)據挖掘時，應熟悉應用的業(yè)務和需求，需求才是數(shù)據挖掘的目的，業(yè)務和算法、技術的緊密結合非常重要，了解業(yè)務、把握需求才能有針對性地對數(shù)據進行分析，挖掘其價值。因此，在實際應用中需要的是一種既懂業(yè)務，又懂數(shù)據挖掘算法的人才。工程性決定了要掌握數(shù)據挖掘需有一定的工程能力，一個好的數(shù)據額挖掘人員首先是一名工程師，有很強大的處理大規(guī)模數(shù)據和開發(fā)原型系統(tǒng)的能力，這相當于在培養(yǎng)數(shù)據挖掘工程師時，對數(shù)據的處理能力和編程能力很重要。集合性使得在具體應用數(shù)據挖掘時，要做好底層不同功能和多種算法積累。交叉性決定了在學習數(shù)據挖掘時要主動了解和學習相關領域的思想和技術。

　　因此，這些特性均是數(shù)據挖掘的特點，通過這四個特性可總結和學習數(shù)據挖掘。

　　二、大數(shù)據的特征

　　大數(shù)據（bigdata）一詞經常被用以描述和指代信息爆炸時代產生的海量信息。研究大數(shù)據的意義在于發(fā)現(xiàn)和理解信息內容及信息與信息之間的聯(lián)系。研究大數(shù)據首先要理清和了解大數(shù)據的特點及基本概念，進而理解和認識大數(shù)據。

　　研究大數(shù)據首先要理解大數(shù)據的特征和基本概念。業(yè)界普遍認為，大數(shù)據具有標準的“4V”特征：

　　1.Volume（大量）：數(shù)據體量巨大，從TB級別躍升到PB級別。

　　2.Variety（多樣）：數(shù)據類型繁多，如網絡日志、視頻、圖片、地理位置信息等。

　　3.Velocity（高速）：處理速度快，實時分析，這也是和傳統(tǒng)的數(shù)據挖掘技術有著本質的不同。

　　4.Value（價值）：價值密度低，蘊含有效價值高，合理利用低密度價值的數(shù)據并對其進行正確、準確的分析，將會帶來巨大的商業(yè)和社會價值。

　　上述“4V”特點描述了大數(shù)據與以往部分抽樣的“小數(shù)據”的主要區(qū)別。然而，實踐是大數(shù)據的最終價值體現(xiàn)的唯一途徑。從實際應用和大數(shù)據處理的復雜性看，大數(shù)據還具有如下新的“4V”特點：

　　5.Variability（變化）：在不同的場景、不同的研究目標下數(shù)據的結構和意義可能會發(fā)生變化，因此，在實際研究中要考慮具體的上下文場景（Context）。

　　6.Veracity（真實性）：獲取真實、可靠的數(shù)據是保證分析結果準確、有效的前提。只有真實而準確的數(shù)據才能獲取真正有意義的結果。

　　7.Volatility（波動性）/Variance（差異）：由于數(shù)據本身含有噪音及分析流程的不規(guī)范性，導致采用不同的算法或不同分析過程與手段會得到不穩(wěn)定的分析結果。

　　8.Visualization（可視化）：在大數(shù)據環(huán)境下，通過數(shù)據可視化可以更加直觀地闡釋數(shù)據的意義，幫助理解數(shù)據，解釋結果。

　　綜上所述，以上“8V”特征在大數(shù)據分析與數(shù)據挖掘中具有很強的指導意義。

　　三、大數(shù)據時代下的數(shù)據挖掘

　　在大數(shù)據時代，數(shù)據挖掘需考慮以下四個問題：

　　大數(shù)據挖掘的核心和本質是應用、算法、數(shù)據和平臺4個要素的有機結合。

　　因為數(shù)據挖掘是應用驅動的，來源于實踐，海量數(shù)據產生于應用之中。需用具體的應用數(shù)據作為驅動，以算法、工具和平臺作為支撐，最終將發(fā)現(xiàn)的知識和信息應用到實踐中去，從而提供量化的、合理的、可行的、且能產生巨大價值的信息。

　　挖掘大數(shù)據中隱含的有用信息需設計和開發(fā)相應的數(shù)據挖掘和學習算法。算法的設計和開發(fā)需以具體的應用數(shù)據作為驅動，同時在實際問題中得到應用和驗證，而算法的實現(xiàn)和應用需要高效的處理平臺，這個處理平臺可以解決波動性問題。高效的處理平臺需要有效分析海量數(shù)據，及時對多元數(shù)據進行集成，同時有力支持數(shù)據化對算法及數(shù)據可視化的執(zhí)行，并對數(shù)據分析的流程進行規(guī)范。

　　總之，應用、算法、數(shù)據、平臺這四個方面相結合的思想，是對大數(shù)據時代的數(shù)據挖掘理解與認識的綜合提煉，體現(xiàn)了大數(shù)據時代數(shù)據挖掘的本質與核心。這四個方面也是對相應研究方面的集成和架構，這四個架構具體從以下四個層面展開：

　　應用層（Application）：關心的是數(shù)據的收集與算法驗證，關鍵問題是理解與應用相關的語義和領域知識。

　　數(shù)據層（Data）：數(shù)據的管理、存儲、訪問與安全，關心的是如何進行高效的數(shù)據使用。

　　算法層（Algorithm）：主要是數(shù)據挖掘、機器學習、近似算法等算法的設計與實現(xiàn)。

　　平臺層（Infrastructure）：數(shù)據的訪問和計算，計算平臺處理分布式大規(guī)模的數(shù)據。

　　綜上所述，數(shù)據挖掘的算法分為多個層次，在不同的層面有不同的研究內容，可以看到目前在做數(shù)據挖掘時的主要研究方向，如利用數(shù)據融合技術預處理稀疏、異構、不確定、不完整以及多來源數(shù)據；挖掘復雜動態(tài)變化的數(shù)據；測試通過局部學習和模型融合所得到的全局知識，并反饋相關信息給預處理階段；對數(shù)據并行分布化，達到有效使用的目的。

　　四、大數(shù)據挖掘系統(tǒng)的開發(fā)

　　1.背景目標

　　大數(shù)據時代的來臨使得數(shù)據的規(guī)模和復雜性都出現(xiàn)爆炸式的增長，促使不同應用領域的數(shù)據分析人員利用數(shù)據挖掘技術對數(shù)據進行分析。在應用領域中，如醫(yī)療保健、高端制造、金融等，一個典型的數(shù)據挖掘任務往往需要復雜的子任務配置，整合多種不同類型的挖掘算法以及在分布式計算環(huán)境中高效運行。因此，在大數(shù)據時代進行數(shù)據挖掘應用的一個當務之急是要開發(fā)和建立計算平臺和工具，支持應用領域的數(shù)據分析人員能夠有效地執(zhí)行數(shù)據分析任務。

　　之前提到一個數(shù)據挖掘有多種任務、多種功能及不同的挖掘算法，同時，需要一個高效的平臺。因此，大數(shù)據時代的數(shù)據挖掘和應用的當務之急，便是開發(fā)和建立計算平臺和工具，支持應用領域的數(shù)據分析人員能夠有效地執(zhí)行數(shù)據分析任務。

　　2.相關產品

　　現(xiàn)有的數(shù)據挖掘工具

　　有Weka、SPSS和SQLServer，它們提供了友好的界面，方便用戶進行分析，然而這些工具并不適合進行大規(guī)模的數(shù)據分析，同時，在使用這些工具時用戶很難添加新的算法程序。

　　流行的數(shù)據挖掘算法庫

　　如Mahout、MLC++和MILK，這些算法庫提供了大量的數(shù)據挖掘算法。但這些算法庫需要有高級編程技能才能進行任務配置和算法集成。

　　最近出現(xiàn)的一些集成的數(shù)據挖掘產品

　　如Radoop和BC-PDM，它們提供友好的用戶界面來快速配置數(shù)據挖掘任務。但這些產品是基于Hadoop框架的，對非Hadoop算法程序的支持非常有限。沒有明確地解決在多用戶和多任務情況下的資源分配。

　　3.FIU-Miner

　　為解決現(xiàn)有工具和產品在大數(shù)據挖掘中的局限性，我們團隊開發(fā)了一個新的平臺——FIU-Miner，它代表了A Fast,Integrated,and User-Friendly System for Data Mining in Distributed Environment。它是一個用戶友好并支持在分布式環(huán)境中進行高效率計算和快速集成的數(shù)據挖掘系統(tǒng)。與現(xiàn)有數(shù)據挖掘平臺相比，F(xiàn)IU-Miner提供了一組新的功能，能夠幫助數(shù)據分析人員方便并有效地開展各項復雜的數(shù)據挖掘任務。

　　與傳統(tǒng)的數(shù)據挖掘平臺相比，它提供了一些新的功能，主要有以下幾個方面：

　　A.用戶友好、人性化、快速的數(shù)據挖掘任務配置。基于“軟件即服務”這一模式，F(xiàn)IU-Miner隱藏了與數(shù)據分析任務無關的低端細節(jié)。通過FIU-Miner提供的人性化用戶界面，用戶可以通過將現(xiàn)有算法直接組裝成工作流，輕松完成一個復雜數(shù)據挖掘問題的任務配置，而不需要編寫任何代碼。

　　B.靈活的多語言程序集成。允許用戶將目前最先進的數(shù)據挖掘算法直接導入系統(tǒng)算法庫中，以此對分析工具集合進行擴充和管理。同時，由于FIU-Miner能夠正確地將任務分配到有合適運行環(huán)境的計算節(jié)點上，所以對這些導入的算法沒有實現(xiàn)語言的限制。

　　C.異構環(huán)境中有效的資源管理。FIU-Miner支持在異構的計算環(huán)境中（包括圖形工作站、單個計算機、和服務器等）運行數(shù)據挖掘任務。FIU-Miner綜合考慮各種因素（包括算法實現(xiàn)、服務器負載平衡和數(shù)據位置）來優(yōu)化計算資源的利用率。

　　D.有效的程序調度和執(zhí)行。

　　應用架構上包括用戶界面層、任務和系統(tǒng)管理層、邏輯資源層、異構的物理資源層。這種分層架構充分考慮了海量數(shù)據的分布式存儲、不同數(shù)據挖掘算法的集成、多重任務的配置及系統(tǒng)用戶的交付功能。一個典型的數(shù)據挖掘任務在應用之中需要復雜的主任務配置，整合多種不同類型的挖掘算法。因此，開發(fā)和建立這樣的計算平臺和工具，支持應用領域的數(shù)據分析人員進行有效的分析是大數(shù)據挖掘中的一個重要任務。

　　FIU-Miner系統(tǒng)用在了不同方面：如高端制造業(yè)、倉庫智能管理、空間數(shù)據處理等，TerraFly GeoCloud是建立在TerraFly系統(tǒng)之上的、支持多種在線空間數(shù)據分析的一個平臺。提供了一種類SQL語句的空間數(shù)據查詢與挖掘語言MapQL。它不但支持類SQL語句，更重要的是可根據用戶的不同要求，進行空間數(shù)據挖掘，渲染和畫圖查詢得到空間數(shù)據。通過構建空間數(shù)據分析的工作流來優(yōu)化分析流程，提高分析效率。

　　制造業(yè)是指大規(guī)模地把原材料加工成成品的工業(yè)生產過程。高端制造業(yè)是指制造業(yè)中新出現(xiàn)的具有高技術含量、高附加值、強競爭力的產業(yè)。典型的高端制造業(yè)包括電子半導體生產、精密儀器制造、生物制藥等。這些制造領域往往涉及嚴密的工程設計、復雜的裝配生產線、大量的控制加工設備與工藝參數(shù)、精確的過程控制和材料的嚴格規(guī)范。產量和品質極大地依賴流程管控和優(yōu)化決策。因此，制造企業(yè)不遺余力地采用各種措施優(yōu)化生產流程、調優(yōu)控制參數(shù)、提高產品品質和產量，從而提高企業(yè)的競爭力。

　　在空間數(shù)據處理方面，TerraFly GeoCloud對多種在線空間數(shù)據分析。對傳統(tǒng)數(shù)據分析而言，其難點在于MapQL語句比較難寫，任務之間的關系比較復雜，順序執(zhí)行之間空間數(shù)據分許效率較低。而FIU-Miner可有效解決以上三個難點。

　　總結而言，大數(shù)據的復雜特征對數(shù)據挖掘在理論和算法研究方面提出了新的要求和挑戰(zhàn)。大數(shù)據是現(xiàn)象，核心是挖掘數(shù)據中蘊含的潛在信息，并使它們發(fā)揮價值。數(shù)據挖掘是理論技術和實際應用的完美結合。數(shù)據挖掘是理論和實踐相結合的一個例子。